摘要:從基因?qū)用鎸?duì)癌癥進(jìn)行診斷將有效提高患者的治愈率,但癌癥基因表達(dá)數(shù)據(jù)集通常存在高維、小樣本、高噪聲并且類別不平衡等問(wèn)題,對(duì)此類數(shù)據(jù)進(jìn)行分類是一項(xiàng)具有挑戰(zhàn)性的任務(wù).針對(duì)這些問(wèn)題,提出一種基于差分進(jìn)化的代價(jià)敏感Stacking(DE-CStacking)集成的基因表達(dá)數(shù)據(jù)分類算法,采用隨機(jī)森林、K近鄰、樸素貝葉斯作為Stacking集成的初級(jí)學(xué)習(xí)器,將代價(jià)敏感的支持向量機(jī)作為次級(jí)學(xué)習(xí)器,初級(jí)學(xué)習(xí)器的輸出類概率和原始特征集作為次級(jí)學(xué)習(xí)器的輸入,并采用差分進(jìn)化對(duì)這些學(xué)習(xí)器的參數(shù)進(jìn)行優(yōu)化.通過(guò)在四個(gè)UCI的癌癥基因數(shù)據(jù)上的實(shí)驗(yàn)對(duì)比,相對(duì)于其他傳統(tǒng)的集成算法,DE-CStacking算法在癌癥基因數(shù)據(jù)上表現(xiàn)出更好的泛化性能.
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社
國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C