摘要:地址解析是地理編碼的核心任務之一,而混亂的地址標準、隨意的中文地址表達給地址解析帶來了極大困難。該文提出一種基于條件隨機場的非規范化中文地址解析方法。一方面,綜合分析各種非規范化地址要素的類型特征,在現有標注體系基礎上設計出一套優化的地址要素分類標注體系,并制定特征模板,然后采用自訓練半監督學習與人工標注互補融合的策略,獲取大量高質量的已標注語料供模型訓練;另一方面,挑選已標注語料訓練條件隨機場模型,實現對地址要素的自動解析。選取廣東省博羅縣30 000條地址進行算法驗證和解析性能評測。實驗表明,與其他語料標注方法相比,該方法在獲取有效地址解析的同時,顯著降低了標注成本。結果表明,該方法適用于地理編碼領域中大規模非規范化中文地址的自動解析。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社