摘要:隨著信息化建設的快速發展,數據產生了爆炸式的增長,醫院每天也同樣產生大量的醫療記錄與數據。其中大部分內容是非結構化數據,具有真實性、主觀性和不規范性,不利于解讀和處理。由于醫療數據是以非結構化的文本形式存儲的,因此無法直接通過計算機直接處理和分析,不僅效率低下,分析質量也無法保證。目前的信息抽取研究中使用的方法的可擴展性都較差,具有一些局限性,故自動化程度不高。文中通過自然語言處理中的規則描述語言方法,對數據中非結構化的醫學命名實體進行識別,并通過語義分析進行標簽提取,使非結構化的數據結構化,讓數據中的描述更為準確、統一。優化了目前信息抽取方法中存在的可擴展性差的缺點,能夠根據情況適應不同的情景。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社