摘要:不均衡數據分類是數據挖掘領域的一個難點問題,對多數類樣本進行降采樣可簡單且有效地解決不均衡數據處理面臨的兩大核心問題,即如何從數類占絕對優勢的數據集合中最大程度地挖掘少數類信息;如何確保在不過度損失多數類信息的前提下構建學習器.但現有的降采樣方法往往會破壞原始數據結構特性或造成嚴重的信息損失.本研究提出一種基于分層抽樣的不均衡數據集成分類方法(簡記為EC-SS),通過充分挖掘多數類樣本的結構信息,對其進行聚類劃分;再在數據塊上進行分層抽樣來構建集成學習數據成員,以確保單個學習器的輸入數據均衡且保留原始數據的結構信息,提升后續集成分類性能.在不均衡數據集Musk1、Ecoli3、Glass2和Yeast6上,對比EC-SS方法與基于隨機抽樣的不均衡數據集成分類方法、自適應采樣學習方法、基于密度估計的過采樣方法和代價敏感的大間隔分類器方法的分類性能,結果表明,EC-SS方法能有效提升分類性能.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社