摘要:對由多個指標組成的多元數據進行聚類分析時,數據維度的增加、各指標與總體聚類的相關性程度不一致以及各指標服從的分布不同會增加聚類的復雜性,影響聚類結果的準確性,因此需要通過合適的方法來對多元數據進行聚類分析。針對這一問題,提出改進的帶粘性的層次Dirichlet過程(sticky Hierarchical Dirichlet Process)方法來實現對多元數據的降維聚類,以解決各指標服從不同分布的問題,并用粘性參數反映各指標與總體聚類之間的相關性。用MCMC方法來估計模型參數。通過對仿真模擬數據和IRIS數據集的聚類分析,證實了該方法的有效性,同時發(fā)現單個指標與總體聚類的相關性越大,則相應的粘性參數越大,從而反映該指標在總體聚類中的重要性程度越高;并且當各指標數據中有粘性較大的指標時,帶粘性的層次Dirichlet過程方法明顯優(yōu)于其他聚類方法,能夠顯著提高分類的準確性。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社