摘要:針對(duì)傳統(tǒng)方法中性能與精度的不足,通過(guò)最優(yōu)類(lèi)別分組和遺傳算法,提出一種非完全標(biāo)注的文本分類(lèi)訓(xùn)練方法。新方法能將原來(lái)的分類(lèi)體系拆分成多個(gè)分類(lèi)體系,使得每個(gè)分類(lèi)體系下的類(lèi)別彼此互斥。在每個(gè)拆分出的分類(lèi)體系下,對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,可提高分類(lèi)器的精度。通過(guò)多個(gè)分類(lèi)器并聯(lián),分別輸出樣本對(duì)應(yīng)的類(lèi)別,得到樣本實(shí)際所屬的所有類(lèi)別。仿真實(shí)驗(yàn)表明,該方法可有效地解決當(dāng)前分類(lèi)體系下,非完全標(biāo)注的文本分類(lèi)器無(wú)法有效的識(shí)別出非完全標(biāo)注文本類(lèi)別與其它類(lèi)別的邊界,從而造成數(shù)據(jù)分類(lèi)性能低下等問(wèn)題。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社