摘要:Labeled-LDA模型引入了類別標(biāo)簽信息,較傳統(tǒng)的LDA主題模型改進(jìn)了強(qiáng)制分配主題的問(wèn)題,但Labeled-LDA模型仍存在一些問(wèn)題,例如Labeled-LDA在訓(xùn)練主題模型之前沒(méi)有去除無(wú)用詞,在訓(xùn)練過(guò)程中沒(méi)有考慮詞與各類別的關(guān)聯(lián)度,且Labeled-LDA模型獲得的主題分布傾向于高頻詞,導(dǎo)致主題的表達(dá)能力降低等問(wèn)題。本文提出WLabeled-LDA模型,在訓(xùn)練主題模型之前使用卡方特征來(lái)選出好的特征詞,訓(xùn)練主題模型時(shí)用獲得的詞對(duì)類別的卡方值進(jìn)行主題模型加權(quán),并使用高斯密度函數(shù)對(duì)特征詞加權(quán)來(lái)降低高頻詞對(duì)主題表達(dá)能力的影響。實(shí)驗(yàn)結(jié)果顯示,此方法能使分類的準(zhǔn)確率和召回率得到一定的提高,說(shuō)明其具有更好的分類效果。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社
省級(jí)期刊 下單
國(guó)際刊號(hào):2095-7602
國(guó)內(nèi)刊號(hào):22-1409/G4
雜志詳情國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C