摘要:機(jī)器學(xué)習(xí)中類不平衡分布問題包含了不同類之間數(shù)據(jù)樣本的偏差分布,導(dǎo)致學(xué)習(xí)過程更偏向于多數(shù)類。而高維數(shù)據(jù)的稀疏性使得分類的偏差更加明顯,因此對(duì)于高維不平衡數(shù)據(jù),維度災(zāi)難與類不平衡分布這兩個(gè)挑戰(zhàn)性問題相互疊加在一起,使得解決高維不平衡問題變得更為困難。針對(duì)這一問題,文中提出結(jié)合隨機(jī)子空間和SMOTE過采樣技術(shù)的AdaBoost集成方法(AdaBoost ensemble of Random subspace and SMOTE,AdaBoostRS)來處理高維不平衡數(shù)據(jù)的分類。具體地,AdaBoostRS通過隨機(jī)子空間選取部分特征來訓(xùn)練每個(gè)分類器,以增加分類樣本的多樣性和降低高維數(shù)據(jù)的維度,然后通過SMOTE方法對(duì)降維數(shù)據(jù)的少數(shù)類進(jìn)行線性插值,以解決類不平衡問題?;?個(gè)高維不平衡的標(biāo)準(zhǔn)時(shí)間序列數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明,以F-measure、G-mean與AUC 3個(gè)性能指標(biāo)來進(jìn)行評(píng)判,AdaBoostRS優(yōu)于傳統(tǒng)的集成學(xué)習(xí)方法。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社