首頁 > 期刊 > 計算機與現(xiàn)代化 > 結(jié)合主題模型詞向量的CNN文本分類【正文】

結(jié)合主題模型詞向量的CNN文本分類

word2vec lda 文本分類卷積神經(jīng)網(wǎng)絡(luò)

作者：牛雪瑩太原科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院; 山西太原030024

摘要：挖掘微博文本中的信息對自動問答、輿情分析等應(yīng)用研究具有重要意義。文本數(shù)據(jù)的分類研究是文本數(shù)據(jù)挖掘的基礎(chǔ)。本文提出將Word2vec和LDA(Latent Dirichlet Allocation)的文本表示同時輸入卷積神經(jīng)網(wǎng)絡(luò)模型進行高層語義特征抽象和分類學(xué)習(xí),使得輸入的詞向量既能表現(xiàn)詞語之間的語義信息又能體現(xiàn)文本的主題思想。首先用Word2vec和LDA模型分別在語料庫中學(xué)習(xí)產(chǎn)生詞向量,然后詞向量分別級聯(lián)得到各自的文本矩陣表示,最后將文本矩陣作為2個通道同時輸入到卷積神經(jīng)網(wǎng)絡(luò)做分類訓(xùn)練,并通過微博數(shù)據(jù)實驗驗證了該方法的有效性。

注：因版權(quán)方要求，不能公開全文，如需全文，請咨詢雜志社

期刊咨詢免費咨詢雜志訂閱