摘要:實體識別是數據集成和數據清洗的一個重要方面.針對Pay-as-you-go數據管理需求,本文提出一個基于多路分塊的Pay-as-you-go實體識別方法.該方法不要求提供最優的分塊或排序的鍵,并且可以直接找出臟數據集中冗余度最大的區域.分為兩個階段,初始化階段和迭代階段.在初始化階段,初步地生成候選數據對象對,并按匹配可能性排序后加入到候選隊列.在迭代階段,每次選擇候選隊列隊首的候選對(即最可能匹配的)來處理,并且根據實時的實體識別結果,動態地更新候選對的匹配可能性,調整候選隊列.這樣減少了無用的數據對象比較,使得實時的識別結果最優化.通過在真實數據集和合成數據集上的實驗對比,說明本文提出的基于多路分塊的Pay-as-you-go實體識別方法顯著地優于已有工作中提出的方法.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社