摘要:社交網(wǎng)絡(luò)已被廣泛地用于通過基于互聯(lián)網(wǎng)的文本消息和圖像在公共領(lǐng)域表達意見。Twitter的情感分析為組織提供了實時監(jiān)控與他們相關(guān)的產(chǎn)品和事件的公眾感覺的能力,成為公眾情緒監(jiān)測的有效途徑。情感分析的第一步是數(shù)據(jù)的文本預處理。現(xiàn)有的關(guān)于Twitter情感分析的研究主要集中在新情感特征的提取上,而忽略對預處理方法的深入研究。在本文中,我們研究了基于支持向量機(SVM)、樸素貝葉斯、最大熵和基于人工神經(jīng)網(wǎng)絡(luò)的監(jiān)督分類器在Twitter數(shù)據(jù)上的特征提取及分類方法。我們還提出了基于Mapreduce的主成分分析(MPCA)與SVM結(jié)合的分類算法模型。然后討論了文本預處理方法對兩類分類任務中情感分類性能的影響,總結(jié)了各種預處理方法在Twitter數(shù)據(jù)集上的特征模型和四種分類方法的分類性能。實驗結(jié)果表明在經(jīng)過了參數(shù)調(diào)優(yōu)后,我們提出的分類算法模型不僅提高了Twitter情感分類的準確率和F1指標,而且能解決支持向量機和人工神經(jīng)網(wǎng)絡(luò)的計算消耗問題,算法模型具有一定的擴展性,實驗結(jié)果令人滿意。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社