摘要:傳統(tǒng)K近鄰算法忽略每個(gè)屬性對(duì)分類的不同重要程度,將每個(gè)屬性同等看待,在計(jì)算樣本間距離時(shí)賦予每個(gè)屬性相同的權(quán)重,影響樣本分類的正確性。利用單一指標(biāo)來確定屬性重要性過于片面,無法全面反應(yīng)屬性對(duì)分類的重要程度。針對(duì)這一問題,利用信息增益和基尼不純度的綜合指標(biāo)作為判斷屬性重要程度的指標(biāo),該綜合指標(biāo)越大,屬性對(duì)分類的重要程度越高。并依據(jù)綜合指標(biāo)構(gòu)造屬性權(quán)重,計(jì)算樣本間的加權(quán)距離進(jìn)行分類。為驗(yàn)證該方法的有效性,分別基于UCI數(shù)據(jù)庫中Iris數(shù)據(jù)集和Wine數(shù)據(jù)集對(duì)基于信息增益和基尼不純度綜合指標(biāo)的加權(quán)K近鄰算法進(jìn)行仿真實(shí)驗(yàn),并與傳統(tǒng)K近鄰算法和基于信息增益加權(quán)K近鄰算法進(jìn)行對(duì)比,基于信息增益和基尼不純度綜合指標(biāo)的加權(quán)K近鄰算法錯(cuò)誤率均低于傳統(tǒng)K近鄰算法和基于信息增益加權(quán)K近鄰算法。結(jié)果表明該方法比傳統(tǒng)K近鄰法和基于單一指標(biāo)加權(quán)K近鄰算法能更有效地對(duì)樣本進(jìn)行分類。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社
統(tǒng)計(jì)源期刊 下單
國(guó)際刊號(hào):1673-629X
國(guó)內(nèi)刊號(hào):61-1450/TP
雜志詳情國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C