摘要:Labeled-LDA模型引入了類別標簽信息,較傳統的LDA主題模型改進了強制分配主題的問題,但Labeled-LDA模型仍存在一些問題,例如Labeled-LDA在訓練主題模型之前沒有去除無用詞,在訓練過程中沒有考慮詞與各類別的關聯度,且Labeled-LDA模型獲得的主題分布傾向于高頻詞,導致主題的表達能力降低等問題。本文提出WLabeled-LDA模型,在訓練主題模型之前使用卡方特征來選出好的特征詞,訓練主題模型時用獲得的詞對類別的卡方值進行主題模型加權,并使用高斯密度函數對特征詞加權來降低高頻詞對主題表達能力的影響。實驗結果顯示,此方法能使分類的準確率和召回率得到一定的提高,說明其具有更好的分類效果。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社