摘要:【目的/意義】移動互聯(lián)網(wǎng)時(shí)代,微博以其快速、便捷的優(yōu)點(diǎn)迅速成為信息傳播與共享的平臺之一。在互聯(lián)網(wǎng)信息傳播過程中,話題內(nèi)容焦點(diǎn)會隨著時(shí)間推動發(fā)生動態(tài)遷移,及時(shí)準(zhǔn)確的發(fā)現(xiàn)話題內(nèi)容焦點(diǎn)的遷移有助于了解網(wǎng)絡(luò)輿情的演化趨勢?!痉椒?過程】首先,定義基于焦點(diǎn)特征詞分布的焦點(diǎn)詞提取公式,構(gòu)造焦點(diǎn)特征詞集合;然后,使用Skip-gram模型在大規(guī)模語料上訓(xùn)練得到詞向量,再通過BTM對文本建模,直接在BTM主題維上結(jié)合焦點(diǎn)特征詞集合構(gòu)造主題詞向量;最后,計(jì)算主題特征詞間的相似度,將其應(yīng)用到聚類算法中實(shí)現(xiàn)話題焦點(diǎn)識別?!窘Y(jié)果/結(jié)論】通過對新浪微博數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本方法能夠充分利用詞向量引入的語義信息,提高文本聚類效果,有效的獲取各階段的話題焦點(diǎn)。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社