摘要:機器學習中類不平衡分布問題包含了不同類之間數據樣本的偏差分布,導致學習過程更偏向于多數類。而高維數據的稀疏性使得分類的偏差更加明顯,因此對于高維不平衡數據,維度災難與類不平衡分布這兩個挑戰性問題相互疊加在一起,使得解決高維不平衡問題變得更為困難。針對這一問題,文中提出結合隨機子空間和SMOTE過采樣技術的AdaBoost集成方法(AdaBoost ensemble of Random subspace and SMOTE,AdaBoostRS)來處理高維不平衡數據的分類。具體地,AdaBoostRS通過隨機子空間選取部分特征來訓練每個分類器,以增加分類樣本的多樣性和降低高維數據的維度,然后通過SMOTE方法對降維數據的少數類進行線性插值,以解決類不平衡問題。基于8個高維不平衡的標準時間序列數據集進行實驗,結果表明,以F-measure、G-mean與AUC 3個性能指標來進行評判,AdaBoostRS優于傳統的集成學習方法。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社