噜噜噜噜私人影院,少妇人妻综合久久中文字幕888,AV天堂永久资源网,5566影音先锋

歡迎來到優(yōu)發(fā)表網(wǎng)!

購(gòu)物車(0)

期刊大全 雜志訂閱 SCI期刊 期刊投稿 出版社 公文范文 精品范文

網(wǎng)絡(luò)輿情監(jiān)測(cè)范文

時(shí)間:2022-04-27 08:24:20

序論:在您撰寫網(wǎng)絡(luò)輿情監(jiān)測(cè)時(shí),參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。

網(wǎng)絡(luò)輿情監(jiān)測(cè)

第1篇

1.1重大事件。所有的重大事件的發(fā)生都會(huì)在很短的時(shí)間內(nèi)迅速在網(wǎng)絡(luò)上傳播開來,與事件發(fā)生有關(guān)的各個(gè)報(bào)道,新聞,各方面的消息和熱點(diǎn)都會(huì)在各個(gè)網(wǎng)站上鋪天而來,在短時(shí)間內(nèi)就會(huì)出現(xiàn)大量的評(píng)論,跟貼和發(fā)帖等等。

1.2突發(fā)事件。量變到質(zhì)變的過程是突發(fā)事件產(chǎn)生的一個(gè)重要階段,例如“日本大地震后我國(guó)的搶鹽事件”,在發(fā)生初期,并沒有引起太多人的關(guān)注,只是在民間出現(xiàn)了許多的“謠言”,但其迅速擴(kuò)散,就會(huì)影響到廣大群眾,并有可能造成整個(gè)社會(huì)的恐慌。

1.3國(guó)家的經(jīng)濟(jì)工作和重點(diǎn)工作。網(wǎng)絡(luò)上的主流的意識(shí)形態(tài)還是需要各個(gè)新聞媒體來傳播,需要政府和組織來引導(dǎo),繼而形成被大眾所接受的健康向上的主流輿論,政府部門要引導(dǎo)人民群眾,最大限度地在廣大人民群眾中形成共識(shí),來統(tǒng)一不同領(lǐng)域,不同階級(jí)中的意識(shí)和信念,形成了社會(huì)的主流言論。

1.4一些關(guān)系國(guó)際民生的重大政策的改革更容易引起人們的廣泛關(guān)注,形成網(wǎng)絡(luò)輿情熱點(diǎn)事件。

1.5和大多數(shù)人民自身利益密切相關(guān)的事件。因?yàn)檩浨榈囊粋€(gè)重要作用就是人民群眾對(duì)自身利益的訴求表達(dá)的一個(gè)重要渠道。在群眾利益受到傷害時(shí),他自然需要一個(gè)平臺(tái)來尋求幫助和進(jìn)行訴求,網(wǎng)絡(luò)就是這樣一個(gè)很好的輿情平臺(tái)。

2網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)

網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)包含三個(gè)層次,自下而上分別為信息采集層、信息挖掘?qū)印⑿畔⒎?wù)層。每一層為其上一層提供基礎(chǔ)數(shù)據(jù),以及為進(jìn)一步分析奠定基礎(chǔ)。

2.1輿情信息采集層。信息采集層的基本任務(wù)是從數(shù)據(jù)格式多種多樣的網(wǎng)頁中采集出其蘊(yùn)含的豐富的、各種各樣的輿情信息。采集層的最下層為信息采集的目標(biāo)網(wǎng)站,如新浪、網(wǎng)易、搜狐、新華網(wǎng)、人民網(wǎng)、鳳凰網(wǎng)、貓撲、天涯社區(qū)等;中間層包含爬蟲管理模塊、預(yù)處理模塊、分類存儲(chǔ)模塊,爬蟲管理模塊主要采用網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)上的輿情信息;最上層將采集的文本信息分為Web內(nèi)容信息、Web結(jié)構(gòu)和使用記錄信息兩部分內(nèi)容。

2.2輿情信息挖掘?qū)?。開展輿情信息深度挖掘,發(fā)現(xiàn)的熱點(diǎn)問題、分析其態(tài)度傾向、處置構(gòu)成危害的敏感信息是互聯(lián)網(wǎng)輿情信息挖掘?qū)拥闹饕蝿?wù)。它通過分析輿情信息采集層提供的數(shù)據(jù),能夠檢測(cè)網(wǎng)絡(luò)話題、分析民眾的態(tài)度傾向、監(jiān)測(cè)網(wǎng)絡(luò)敏感信息、評(píng)估輿情態(tài)勢(shì)等,為輿情信息服務(wù)層服務(wù)相關(guān)部門提供客觀依據(jù),是輿情信息處理的核心內(nèi)容。主要包含文本信息預(yù)處理模塊、網(wǎng)絡(luò)話題檢測(cè)模塊、輿情傾向性分析模塊、敏感信息監(jiān)控模塊。

第2篇

網(wǎng)絡(luò)輿情監(jiān)測(cè)以監(jiān)測(cè)社會(huì)民生輿論為主,但“網(wǎng)絡(luò)水軍”往往將商業(yè)話題變相說成社會(huì)生活話題,以此來吸引眼球。這樣,刻意制造的他生輿論就混雜在輿論陣營(yíng)中,表達(dá)了大眾的非本意輿論,掩蓋了自然形成的社會(huì)輿論。如此一來,網(wǎng)絡(luò)輿情監(jiān)測(cè)統(tǒng)計(jì)的輿論數(shù)據(jù)就會(huì)失真,并對(duì)學(xué)術(shù)研究機(jī)構(gòu)和政府造成誤導(dǎo)。而所有這些,無疑也會(huì)降低網(wǎng)絡(luò)輿情監(jiān)測(cè)的公信力。

網(wǎng)絡(luò)輿情監(jiān)測(cè)作為一種嚴(yán)謹(jǐn)?shù)目茖W(xué)體系,可以利用當(dāng)今先進(jìn)的計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù),通過先期技術(shù)處理和后期操作對(duì)網(wǎng)絡(luò)輿情進(jìn)行追根溯源,通過考量輿論的來源甄別出網(wǎng)絡(luò)輿論熱點(diǎn)的真?zhèn)巍hb于當(dāng)今網(wǎng)絡(luò)水軍廣泛存在的現(xiàn)實(shí),筆者提出以下幾種方案完善網(wǎng)絡(luò)輿情監(jiān)測(cè)工作的輿情篩選功能。

1.情感詞分析方法

“網(wǎng)絡(luò)水軍”在網(wǎng)上的帖子往往是非理性的、帶有強(qiáng)烈感彩的,或是極力美化雇主的產(chǎn)品或服務(wù),或是極力貶低雇主競(jìng)爭(zhēng)對(duì)手的產(chǎn)品或服務(wù),整體上傾向性比較強(qiáng)烈。因此,我們就可以通過對(duì)論壇或貼吧用戶的帖子的文本分析,主要是對(duì)情感詞的分析,來判斷這個(gè)用戶是不是“網(wǎng)絡(luò)水軍”,以及他所主導(dǎo)的輿論是不是有意制造的他生輿論。

通過傾向性分析可以明確網(wǎng)絡(luò)傳播者的意圖和傾向,通俗地說,文本輿情描述的是文本所傳遞的情感。對(duì)文本輿情進(jìn)行分析,實(shí)際上就是試圖根據(jù)文本的內(nèi)容提煉出作者的情感方向。網(wǎng)絡(luò)文本的傾向性分析就是挖掘網(wǎng)絡(luò)文本內(nèi)容蘊(yùn)涵的各種觀點(diǎn)、喜好、態(tài)度、情感等非內(nèi)容或非事實(shí)信息。①

此前已有研究制定了一套完整的方法和公式,其基本思路是:首先進(jìn)行互聯(lián)網(wǎng)信息采集獲得數(shù)據(jù),然后通過網(wǎng)頁頁面分析技術(shù)抽取元數(shù)據(jù)(比如信息者、信息時(shí)間、信息來源等)和正文信息,采用機(jī)器學(xué)習(xí)方法對(duì)正文信息進(jìn)行情感分類,判斷其為正面信息或?yàn)樨?fù)面信息。經(jīng)過統(tǒng)計(jì)后,在特定的一段時(shí)間內(nèi),當(dāng)某人發(fā)表的正面或者負(fù)面信息比重超過預(yù)設(shè)閾值時(shí),則認(rèn)為其為“網(wǎng)絡(luò)水軍”。②

設(shè)定特定的時(shí)間段,信息者AN篇有關(guān)主題P的信息,其中正面信息X篇,負(fù)面信息Y篇(X+Y≤N)。設(shè)閾值為T(0

那么,信息者A為“網(wǎng)絡(luò)水軍”。

根據(jù)最新數(shù)據(jù)顯示,92.3%的網(wǎng)民經(jīng)常訪問的網(wǎng)絡(luò)社區(qū)數(shù)量在2個(gè)以上,其中27.2%的網(wǎng)民經(jīng)常訪問2個(gè)網(wǎng)絡(luò)社區(qū),29.1%的網(wǎng)民經(jīng)常訪問3個(gè)網(wǎng)絡(luò)社區(qū),經(jīng)常訪問4個(gè)以上網(wǎng)絡(luò)社區(qū)的網(wǎng)民達(dá)到36%,③網(wǎng)民平均每人使用3.09個(gè)網(wǎng)絡(luò)社區(qū),這里將其簡(jiǎn)記作3個(gè)。那么,在上述公式中,X/Y=3(或Y/X=3),此時(shí)的閾值T為0.5。又因?yàn)椤熬W(wǎng)絡(luò)水軍”的發(fā)帖量遠(yuǎn)大于一般網(wǎng)民的平均發(fā)帖量,所以閾值T應(yīng)該略大于0.5。

換句話說,在現(xiàn)階段,當(dāng)一個(gè)發(fā)帖人的Q值大于0.5時(shí),我們就可以基本確定這個(gè)人是“水軍”,進(jìn)一步確定他所主導(dǎo)的輿論可能是他生輿論;而且Q值越大,這種疑似程度越強(qiáng)??偨Y(jié)起來看,情感詞分析方法是判斷發(fā)帖人個(gè)人身份的一種有效途徑,在計(jì)算機(jī)輔助技術(shù)的幫助下,將大大提高篩選的效率,其工作流程如圖1所示。

圖1網(wǎng)絡(luò)輿情信息文本分析工作流程④

上圖中,建立假設(shè)和檢驗(yàn)假設(shè)并不是存在于每一個(gè)分析文本中,為可選項(xiàng)目。輿論監(jiān)測(cè)者首先要制定有針對(duì)性的研究意圖,然后按照統(tǒng)計(jì)學(xué)原理選擇科學(xué)合理的樣本。定義分析單元就是定義分析樣本的每一個(gè)元素,再形成分析類目即分析系統(tǒng),使之適應(yīng)所提出的問題,同時(shí)使所有類目具有互斥性、完備性和信度。最后是通過統(tǒng)計(jì)、計(jì)算、分析得出結(jié)論。

2.相同IP與ID的統(tǒng)計(jì)分析

情感詞分析可以從個(gè)人角度篩選出“網(wǎng)絡(luò)水軍”,對(duì)于一個(gè)主題帖子是不是“網(wǎng)絡(luò)水軍”所為的考察,我們可以通過對(duì)相同IP地址的統(tǒng)計(jì)分析來完成。

正如前文所說,“網(wǎng)絡(luò)水軍”在網(wǎng)上發(fā)帖時(shí)會(huì)用很多ID賬號(hào),即網(wǎng)友所說的“馬甲”,這些ID或網(wǎng)名是不同的,所以單一根據(jù)ID無法辨別發(fā)帖、回帖是不是少數(shù)人所為。

“網(wǎng)絡(luò)水軍”每天長(zhǎng)時(shí)間掛在網(wǎng)上刷帖,盡管更換不同的ID,但他們的上網(wǎng)IP地址是不變的。那么,通過統(tǒng)計(jì)每一個(gè)ID發(fā)帖時(shí)所使用的IP地址,就可以辨別出哪些不同ID發(fā)的帖子是出于同一臺(tái)電腦即同一個(gè)人。如果一個(gè)論壇里的帖子出現(xiàn)了大量相同的IP地址,或出現(xiàn)在不同論壇里的同一主題的帖子中出現(xiàn)了大量相同IP地址,那么就可以肯定,這個(gè)輿論主題是網(wǎng)絡(luò)水軍人為制造出來的。

另外,如果在同一處的同一個(gè)ID使用不同的IP,那么說明這可能是同一個(gè)人在不同時(shí)間發(fā)表的言論,或是不同的人使用網(wǎng)絡(luò)營(yíng)銷公關(guān)公司統(tǒng)一發(fā)放的“馬甲”發(fā)表的言論。于是,就可以根據(jù)這個(gè)ID所使用的IP,繼續(xù)順藤摸瓜地找到本論壇中其他ID發(fā)表的言論和其他論壇中同一個(gè)IP使用的ID發(fā)表的言論。這樣就形成了一個(gè)由IP和ID構(gòu)成的無盡的關(guān)聯(lián)網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)上的每一條帖子都可以確定為是“網(wǎng)絡(luò)水軍”制造的(如圖2)。

圖2IP、ID關(guān)聯(lián)網(wǎng)絡(luò)

這種方法同樣需要計(jì)算機(jī)技術(shù)的輔助。另外,要根據(jù)現(xiàn)實(shí)情況制定評(píng)價(jià)標(biāo)準(zhǔn)和體系,我們不妨統(tǒng)計(jì)出“水軍”發(fā)帖的個(gè)數(shù),并求出這些帖子在整個(gè)話題帖子中的所占比例,這個(gè)比例越高,那么這個(gè)輿論熱點(diǎn)系炒作所為的疑似程度就越高。還可以根據(jù)實(shí)際操作中的情況,制定出一個(gè)更復(fù)雜的評(píng)價(jià)體系,將每一個(gè)指標(biāo)賦予不同的權(quán)重,分別賦值,求出最后的疑似程度值。

3.歷時(shí)性調(diào)研

由于現(xiàn)在“網(wǎng)絡(luò)水軍”和網(wǎng)絡(luò)營(yíng)銷公關(guān)公司的大量涌現(xiàn),一些企業(yè)或團(tuán)體已經(jīng)認(rèn)識(shí)到了網(wǎng)絡(luò)輿論對(duì)其生存發(fā)展的影響。當(dāng)一家企業(yè)受到網(wǎng)絡(luò)打手的輿論攻擊時(shí),也會(huì)自覺進(jìn)行調(diào)查,并盡力澄清。同時(shí),公安機(jī)關(guān)對(duì)于重大輿論事件也會(huì)介入,比如伊利―蒙?!跋莺﹂T”。這些調(diào)查出的結(jié)論都可以成為網(wǎng)絡(luò)輿情監(jiān)測(cè)辨別輿論真?zhèn)蔚牟牧稀?/p>

4.省略/s2009/dcfb/,2011年1月11日

第3篇

輿情監(jiān)測(cè)工作由來已久,最早的網(wǎng)絡(luò)輿情監(jiān)測(cè)手段也是基于傳統(tǒng)的手工模式。通過雇傭大量工作人員對(duì)指定的監(jiān)測(cè)頁面進(jìn)行監(jiān)測(cè),使用人工方式,對(duì)某些重點(diǎn)監(jiān)測(cè)詞匯進(jìn)行頻率統(tǒng)計(jì)來尋找輿情動(dòng)向。然而隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,傳統(tǒng)的方式已經(jīng)落伍,要對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè),就必然要依托于一個(gè)功能強(qiáng)大的互聯(lián)網(wǎng)輿情監(jiān)測(cè)系統(tǒng)進(jìn)行。伴隨著網(wǎng)絡(luò)的發(fā)展,國(guó)內(nèi)外已有一系列的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)正式投入使用,這些系統(tǒng)通常是依托于政府部門、學(xué)術(shù)機(jī)構(gòu)以及企業(yè)媒體建設(shè)的,分別基于不同的需求(行政決策的、學(xué)術(shù)研究的、商業(yè)開發(fā)的),從不同的角度對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)。最早的相關(guān)研究始于TDT(TopicDetectionandTracking)項(xiàng)目[2],它是美國(guó)國(guó)防高級(jí)研究計(jì)劃局主導(dǎo)的,旨在從新聞網(wǎng)頁中找到未知話題并對(duì)話題進(jìn)行追蹤。該項(xiàng)目歷經(jīng)多年發(fā)展演變,其核心研究?jī)?nèi)容分為報(bào)道切分、話題追蹤、話題監(jiān)測(cè)、首次話題報(bào)告以及關(guān)聯(lián)監(jiān)測(cè)這5個(gè)方面的內(nèi)容[3]。在我國(guó),由于中西文在文本挖掘、分詞方面的巨大差異,以及社會(huì)經(jīng)濟(jì)等方面的差異,基于漢語的網(wǎng)絡(luò)輿情監(jiān)測(cè)研究起步較晚[4]。目前,學(xué)院型的輿情研究機(jī)構(gòu)主要有北京大學(xué)中國(guó)國(guó)情研究中心、中國(guó)人民大學(xué)輿論研究所、上海交通大學(xué)輿情研究實(shí)驗(yàn)室等[5]。

2網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)框架

從過程上看,網(wǎng)絡(luò)輿情監(jiān)測(cè)的本質(zhì)是從網(wǎng)絡(luò)上獲取數(shù)據(jù)、分析數(shù)據(jù)以及按用戶需求呈現(xiàn)分析結(jié)果的過程,因此在系統(tǒng)實(shí)現(xiàn)時(shí),從數(shù)據(jù)流向的角度,可以把一個(gè)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)劃分為數(shù)據(jù)獲取模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)分析模塊以及結(jié)果呈現(xiàn)模塊,整個(gè)系統(tǒng)的結(jié)構(gòu)如圖1所示。

2.1數(shù)據(jù)獲取模塊

數(shù)據(jù)獲取模塊的主要功能是全天候的、自動(dòng)的從整個(gè)網(wǎng)絡(luò)上,或者某些特定網(wǎng)絡(luò)上獲取進(jìn)行輿情分析的原始數(shù)據(jù)。在自動(dòng)獲取數(shù)據(jù)的過程中,有兩方面的要求。一方面,是獲取的相關(guān)輿情數(shù)據(jù)相對(duì)于整個(gè)數(shù)據(jù)的覆蓋率的要求,即要盡可能地獲取盡量全面的原始數(shù)據(jù);另一方面,則是對(duì)數(shù)據(jù)準(zhǔn)確率的要求,即所需數(shù)據(jù)要盡可能貼近用戶關(guān)心的輿情熱點(diǎn)。只有在覆蓋率和準(zhǔn)確率全部達(dá)標(biāo)的情況下,才能更好地對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析預(yù)測(cè)。目前,常見的數(shù)據(jù)獲取方式有兩種:(1)網(wǎng)絡(luò)爬蟲方式?;ヂ?lián)網(wǎng)的一項(xiàng)基本協(xié)議是HTML協(xié)議,基于該協(xié)議,網(wǎng)絡(luò)中大量資源以統(tǒng)一資源定位符(URL)相互聯(lián)系,構(gòu)成一個(gè)有機(jī)整體。網(wǎng)絡(luò)爬蟲從一個(gè)預(yù)先定義好的URL列表開始,依次訪問該列表上的所有頁面進(jìn)行數(shù)據(jù)抓取,并分析當(dāng)前訪問頁面中的其他URL,選擇符合要求的URL加入待訪問隊(duì)列,試圖以深度或者廣度的方式對(duì)限定范圍的網(wǎng)絡(luò)進(jìn)行遍歷式的訪問,以獲取該網(wǎng)絡(luò)的所有信息。(2)元搜索采集技術(shù)。搜索引擎是大多數(shù)網(wǎng)民訪問網(wǎng)絡(luò)的入口,目前有眾多的搜索引擎服務(wù)提供商,其檢索過程有不同的側(cè)重方向,檢索結(jié)果也各不相同??梢栽谌舾刹煌乃阉饕嫔喜渴鹪阉饕?,通過對(duì)下層引擎的調(diào)用返回多個(gè)搜索結(jié)果,并基于一定的算法對(duì)不同結(jié)果進(jìn)行選擇。使用該方法能夠有效地提高數(shù)據(jù)獲取的覆蓋率和準(zhǔn)確率,且系統(tǒng)構(gòu)建較為簡(jiǎn)單。

2.2數(shù)據(jù)預(yù)處理模塊

Web頁面的數(shù)據(jù)有其自身特點(diǎn),它是一種半結(jié)構(gòu)化的數(shù)據(jù),整個(gè)數(shù)據(jù)包括內(nèi)容和描述兩個(gè)部分,且兩者混雜在一起。直接通過數(shù)據(jù)獲取模塊抓取的頁面內(nèi)容復(fù)雜,存在大量噪音,文本內(nèi)容非結(jié)構(gòu)化,無法直接進(jìn)行下一步的分析工作,對(duì)這些原始頁面必須進(jìn)行一次數(shù)據(jù)預(yù)處理。預(yù)處理的過程大體上分為兩步:(1)進(jìn)行網(wǎng)頁內(nèi)容提取。將用戶關(guān)心的內(nèi)容(例如新聞的內(nèi)容、對(duì)主題的討論等)從噪音(如頁面上的廣告、導(dǎo)航以及其他超鏈接)中找出。將頁面轉(zhuǎn)化為一個(gè)HTML標(biāo)簽樹,根據(jù)已有知識(shí)建立提取規(guī)則,最后依據(jù)規(guī)則對(duì)頁面內(nèi)容進(jìn)行提取。如何建立一個(gè)合適的規(guī)則是提取工作的核心,可以針對(duì)某類特定的網(wǎng)站建立專屬規(guī)則,也可以針對(duì)一般頁面的結(jié)構(gòu)特點(diǎn)建立一些通用規(guī)則。(2)進(jìn)行中文文本分詞。自然語言中,詞是最小的獨(dú)立活動(dòng)的語言成分。要對(duì)頁面提取獲得的非結(jié)構(gòu)化連續(xù)文本進(jìn)行處理,首要的工作就是對(duì)其進(jìn)行分詞。分詞是將輸入的一段文本分解為符合邏輯的一組單詞的過程,例如輸入“羽毛球拍”時(shí),依照某種分詞算法就可以初步將其分解為羽毛、羽毛球、球拍3個(gè)單詞。最簡(jiǎn)單的分詞算法以詞典為基礎(chǔ),通過對(duì)字符串匹配完成初步工作,之后輔以少量詞法、語法和語義規(guī)則;另一種思路是基于統(tǒng)計(jì)進(jìn)行分詞,統(tǒng)計(jì)文本中相鄰字同時(shí)出現(xiàn)的頻率,頻率越高就越可能構(gòu)成一個(gè)詞;還有一些基于規(guī)則的分詞算法,通過模擬人對(duì)句子的理解過程,對(duì)當(dāng)前句子的語法、句法、詞法進(jìn)行分析推理,能夠自動(dòng)補(bǔ)全未登錄詞條。

2.3數(shù)據(jù)分析模塊

數(shù)據(jù)分析模塊是整個(gè)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的智能核心,在本質(zhì)上是一個(gè)數(shù)據(jù)挖掘的過程。它負(fù)責(zé)將前期獲得的網(wǎng)頁內(nèi)容進(jìn)行深度挖掘,發(fā)現(xiàn)新的輿情熱點(diǎn),并對(duì)原有的輿情趨勢(shì)進(jìn)行分析。一個(gè)典型的系統(tǒng)應(yīng)具備以下幾方面的功能:(1)主題聚類。聚類可以很直觀地從海量數(shù)據(jù)中發(fā)現(xiàn)新的主題。將處理過后的網(wǎng)頁內(nèi)容歸一化到某個(gè)特征空間中,在這個(gè)特征空間中以某種方式,將特征接近的頁面內(nèi)容劃分為不同的類別,相應(yīng)類別的聚類中心就可以認(rèn)為是新的主題。(2)熱點(diǎn)發(fā)現(xiàn)。在當(dāng)今網(wǎng)絡(luò)時(shí)代,每天產(chǎn)生的輿情主題眾多,其中有些主題能夠迅速成為當(dāng)下的輿情熱點(diǎn),輿情監(jiān)測(cè)系統(tǒng)需要將這些輿情熱點(diǎn)從眾多主題中篩選出來,推送給輿情分析人員。篩選的時(shí)候應(yīng)該注意“熱點(diǎn)”一詞不同方面的含義,最直觀的含義就是某主題在某段時(shí)間內(nèi)出現(xiàn)的頻次;再有一方面的含義就是某主題除頻次以外的權(quán)重,例如該主題來源頁面的影響力、該主題的發(fā)展速度等。(3)話題追蹤。網(wǎng)絡(luò)話題的生命周期從最初的事件主題開始,經(jīng)過一段時(shí)間的發(fā)展演化成為輿情熱點(diǎn),又經(jīng)歷一段時(shí)間的發(fā)展變化逐漸熱度降低,最后消散。還有,在這個(gè)過程中話題的變異分支過程,都是在基于網(wǎng)絡(luò)輿情進(jìn)行決策分析時(shí)可以納入考慮的影響因素。在分析大量話題生命周期后,可以從中總結(jié)一定的規(guī)律,對(duì)當(dāng)前某話題的下個(gè)階段進(jìn)行一定的預(yù)測(cè)。(4)情感識(shí)別。網(wǎng)絡(luò)話題除了對(duì)某個(gè)發(fā)生事件的客觀描述外,還有一定的情感傾向,尤其是在網(wǎng)民對(duì)該話題的回復(fù)中,這種情感傾向會(huì)更加明顯地體現(xiàn)出來。從整體上看,這種情感傾向會(huì)分為贊成、反對(duì)以及中立這3種大的方向。將人們對(duì)某個(gè)輿情熱點(diǎn)的情感傾向進(jìn)行直觀體現(xiàn),有助于更好地進(jìn)行分析決策。這種分析不光要對(duì)輿情的當(dāng)前狀態(tài)進(jìn)行情感識(shí)別,還要對(duì)該話題的發(fā)展過程中某個(gè)階段的情感同時(shí)進(jìn)行分析,以掌握輿論對(duì)該話題情感傾向的變化過程。

2.4結(jié)果呈現(xiàn)模塊

網(wǎng)絡(luò)輿情分析的目的是為相關(guān)的決策提供支撐依據(jù),其分析結(jié)果需要簡(jiǎn)單直觀地提供給決策分析人員,并在初步分析的基礎(chǔ)上對(duì)整個(gè)結(jié)果進(jìn)行二次挖掘。這就需要結(jié)果呈現(xiàn)模塊能夠動(dòng)態(tài)圖形化地展示分析結(jié)果,并對(duì)某些輿情熱點(diǎn)、輿情的重大拐點(diǎn)進(jìn)行主動(dòng)推送警告。根據(jù)一般化的網(wǎng)絡(luò)輿情分析需求,必須實(shí)現(xiàn)的功能有:(1)針對(duì)所有主題的查詢。(2)新主題的推送。(3)輿情熱點(diǎn)、拐點(diǎn)的警告。(4)輿情發(fā)展態(tài)勢(shì)圖。

3總結(jié)展望

第4篇

關(guān)鍵詞:網(wǎng)絡(luò)輿情;輿情監(jiān)測(cè);指標(biāo)體系

有效加強(qiáng)網(wǎng)絡(luò)輿情監(jiān)測(cè)分析,才能實(shí)時(shí)掌握網(wǎng)絡(luò)輿情動(dòng)態(tài)。網(wǎng)絡(luò)輿情監(jiān)測(cè)分析工作重要環(huán)節(jié)包括采集、整理和分析輿情信息,需要構(gòu)建一定的指標(biāo)體系,評(píng)價(jià)揭示網(wǎng)絡(luò)輿情信息的特征與變化規(guī)律。指標(biāo)是在評(píng)價(jià)某些研究對(duì)象所確定的依據(jù)和標(biāo)準(zhǔn),包括指標(biāo)名稱和數(shù)值。網(wǎng)絡(luò)輿情指標(biāo)體系是由相互聯(lián)系、相互補(bǔ)充的指標(biāo)組成的統(tǒng)一整體,用于反映網(wǎng)絡(luò)輿情的綜合狀況,揭示其中的各個(gè)方面。本文首先介紹輿情監(jiān)測(cè)的來源范圍,接著闡述網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)的構(gòu)建原則與內(nèi)容,提出從主題匯聚、熱度、內(nèi)容傾向性、預(yù)警等方面構(gòu)建網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)體系。

1 網(wǎng)絡(luò)輿情監(jiān)測(cè)來源

網(wǎng)絡(luò)信息的來源不斷趨于多樣化,從傳統(tǒng)的新聞網(wǎng)站、博客論壇,發(fā)展到微博、微信等社會(huì)化網(wǎng)絡(luò)應(yīng)用[2]。準(zhǔn)確把握輿情態(tài)勢(shì),防止監(jiān)測(cè)分析片面化,需要增加信息來源范圍。然而,輿情監(jiān)測(cè)難以捕獲所有網(wǎng)絡(luò)信息,網(wǎng)絡(luò)輿情的來源選擇就顯得非常重要。在網(wǎng)絡(luò)上,表現(xiàn)為圍繞新聞、事件、問題與個(gè)案等產(chǎn)生的網(wǎng)絡(luò)信息。網(wǎng)絡(luò)輿情的信息來源選擇主要包括:

(1)主流媒體新聞網(wǎng)站。網(wǎng)絡(luò)新聞是民眾獲取信息的重要來源,特別是主流媒體的新聞。重大性與突發(fā)性輿情都會(huì)及時(shí)出現(xiàn)在主流媒體,聚集大量網(wǎng)民跟帖評(píng)論,是輿情的重要來源與傳播源頭。(2)論壇。在網(wǎng)絡(luò)社區(qū)中,網(wǎng)民會(huì)發(fā)出具有個(gè)人觀點(diǎn)看法的各類信息。在輿情監(jiān)測(cè)工作中,接觸到的近半信息都來自于各種論壇。(3)博客。博客是個(gè)人分享、交流思想知識(shí)的空間,會(huì)對(duì)熱點(diǎn)和新聞事件、特定話題和現(xiàn)象發(fā)表個(gè)人評(píng)論,是輿情信息的重要載體之一。博客數(shù)量眾多,主要采集專家、知名人物的博客及網(wǎng)民回復(fù)。(4)視頻網(wǎng)站。視頻網(wǎng)站是社會(huì)生活和事件的記錄與者,并且大多視頻網(wǎng)站提供給留言功能,比如優(yōu)酷、愛奇藝等。視頻信息鮮活,網(wǎng)民會(huì)分享觀感看法與態(tài)度,視頻標(biāo)題與描述信息為輿情數(shù)據(jù)的整理分析提供了可能和便利。以往工作容易忽視這類輿情載體,而實(shí)際中一些輿情事件會(huì)較早通過視頻網(wǎng)站傳播。輿情監(jiān)測(cè)工作需要重視視頻信息的價(jià)值,及時(shí)采集抽取其中的有價(jià)值信息。(5)社交媒體。在社交媒體應(yīng)用上,國(guó)內(nèi)主要是微博和微信。微博相對(duì)數(shù)據(jù)開放,數(shù)據(jù)量巨大,很難在較短的輪詢時(shí)間窗口完成采集遍歷。所以,與傳統(tǒng)博客類似,選擇其中的部分微博。微信主要限制在個(gè)人通訊范疇,主要將微信公眾號(hào)作為輿情信息來源。另外,一些網(wǎng)站由于贏利、點(diǎn)擊量等原因,有意甚至惡意炒作負(fù)面信息。所以,要區(qū)分標(biāo)識(shí)這類信息來源。同時(shí),在采集器設(shè)置上進(jìn)行一定限制和過濾,避免采集處理過多無效無關(guān)數(shù)據(jù)。

2 監(jiān)測(cè)指標(biāo)構(gòu)建原則

網(wǎng)絡(luò)輿情指標(biāo)體系的構(gòu)建原則應(yīng)包括:(1)主題性。具體的輿情工作具有明確的服務(wù)對(duì)象,其輿情內(nèi)容具有鮮明的主題、行業(yè)或領(lǐng)域性質(zhì)。輿情監(jiān)測(cè)的目的是及時(shí)識(shí)別問題與風(fēng)險(xiǎn)。因此,輿情指標(biāo)應(yīng)對(duì)各類信息做出靈敏響應(yīng)。(2)可靠性。指標(biāo)的選取要有相對(duì)可靠性與穩(wěn)定性,確保指標(biāo)的使用在時(shí)間上有延續(xù)性[1]。(3)系統(tǒng)性。網(wǎng)絡(luò)輿情監(jiān)測(cè)分析工作是一項(xiàng)十分復(fù)雜的過程,涉及內(nèi)容眾多。指標(biāo)體系一定要盡量全面完整形成整體,覆蓋輿情工作流程,從多層次多角度揭示網(wǎng)絡(luò)輿情特征。(4)實(shí)用性。輿情監(jiān)測(cè)指標(biāo)必須反映輿情演化趨勢(shì)與客觀規(guī)律,符合網(wǎng)絡(luò)輿情工作需求與相關(guān)流程,便于分析和引導(dǎo)輿情。同時(shí),指標(biāo)的計(jì)算分析結(jié)果要盡量便于理解與解釋說明,為輿情簡(jiǎn)報(bào)等工作提供必備的數(shù)據(jù)支持。

3 監(jiān)測(cè)指標(biāo)體系

(1)主題聚合

按照內(nèi)容相關(guān)度準(zhǔn)確關(guān)聯(lián)聚合輿情信息,是準(zhǔn)確把握輿情整體走向、媒體與網(wǎng)民言論態(tài)度的前提。主題聚合即指依據(jù)信息內(nèi)容實(shí)現(xiàn)信息的分類與聚類,是輿情話題發(fā)現(xiàn)與話題追蹤的基本支撐。從技術(shù)實(shí)現(xiàn)角度,主題聚合涉及信息內(nèi)容分析,大多都是基于詞語匹配的聚分類方法實(shí)現(xiàn)輿情話題發(fā)現(xiàn)與追蹤等主題聚合功能。然而,文本中存在大量詞形不同,但意義關(guān)聯(lián)的近義詞、同義詞與相關(guān)詞,內(nèi)容相同或相近的新聞、帖文會(huì)出現(xiàn)在不同的頁面與帖文。輿情信息中包括大量短文本,特別是網(wǎng)民回帖評(píng)論,存在明顯的語義特征稀疏問題。分類體系只限于關(guān)鍵詞本身,不具備主題詞的語義描述,容易影響聚分類的準(zhǔn)確率與召回率,主題聚合指數(shù)的性能會(huì)受到明顯限制。一個(gè)解決方法是構(gòu)建語義知識(shí),并擴(kuò)展語義計(jì)算模型提高分析的準(zhǔn)確程度;利用當(dāng)前的最新技術(shù),比如深度學(xué)習(xí)方法,通過構(gòu)建具有多隱層的學(xué)習(xí)模型,以海量輿情數(shù)據(jù)作為訓(xùn)練集,學(xué)習(xí)擴(kuò)展語義特征,提升內(nèi)容分析的準(zhǔn)確程度。

(2)熱度

輿情熱度衡量輿情被關(guān)注的程度與傳播范圍。輿情熱度主要包括輿情關(guān)注度、傳播覆蓋度、輿情權(quán)威度等二級(jí)指標(biāo)。一些研究提出地域關(guān)注度指標(biāo)[3],但網(wǎng)民IP地址對(duì)于第三方采集系統(tǒng)是難以大范圍直接獲取的。其中,輿情關(guān)注度采用主題內(nèi)容下輿情信息的關(guān)注數(shù)量衡量,具體是篇目、瀏覽、回復(fù)數(shù)量的綜合加權(quán)值,一般以線性累加和公式計(jì)算。該指標(biāo)主要從網(wǎng)民角度,衡量輿情內(nèi)容的被關(guān)注程度和感興趣情況。覆蓋度是指主題信息在采集來源站點(diǎn)中出現(xiàn)的比例。輿情信息來源站點(diǎn)是經(jīng)過篩選的,代表輿情在整個(gè)監(jiān)測(cè)范圍內(nèi)的傳播程度。由于信息來源規(guī)模與特點(diǎn)不同,所以需要對(duì)來源類型預(yù)設(shè)參數(shù)再進(jìn)行比例計(jì)算。權(quán)威度指輿情信息的來源權(quán)威度,比如人民網(wǎng)的權(quán)威度較高而小型商業(yè)新聞網(wǎng)站的權(quán)威度低,知名公眾人物的博客權(quán)威度較高。權(quán)威度通過預(yù)設(shè)參數(shù)區(qū)分主流媒體、論壇、博客、微信公眾號(hào)的來源指標(biāo)。最后,將以上二級(jí)指標(biāo)綜合加權(quán),進(jìn)行標(biāo)準(zhǔn)化處理得到主題熱度。

(3)內(nèi)容傾向

內(nèi)容傾向是信息內(nèi)容中包含的觀點(diǎn)態(tài)度,內(nèi)容傾向指標(biāo)用于統(tǒng)計(jì)輿情信息中的各類情感傾向類型數(shù)量。傾向類型主要分為兩類:正面(褒、支持)、負(fù)面(貶、反對(duì))。文本中的句子不僅包括情感詞,而且包含一些具有較強(qiáng)情感色彩的形容詞、程度副詞、感嘆詞、否定詞等影響判斷情感傾向的因素。區(qū)分輿情的傾向性,需要構(gòu)建情感詞庫作為智力支撐,才能提高情感判斷的范圍與準(zhǔn)確性。比如鄙視、侵犯屬于負(fù)面動(dòng)詞,而擁護(hù)、贊揚(yáng)屬于正面動(dòng)詞,安全、漂亮屬于正面形容詞?!氨梢曔@種言論”,“這種裝置不安全”,可以依據(jù)其中的動(dòng)詞形容詞判斷情感傾向。

傳統(tǒng)手工構(gòu)建的情感詞典覆蓋面有限,難以滿足實(shí)際運(yùn)用??紤]到技術(shù)實(shí)施的快速性、易用性以及語義問題。借助已有情感詞典構(gòu)建基本情感詞庫,運(yùn)用Word2Vector工具將語料庫(比如已采集輿情信息、維基百科知識(shí))轉(zhuǎn)換為詞向量,計(jì)算其他詞語與已知情感詞的語義距離,構(gòu)建情感詞特征空間[4]。通過擴(kuò)展情感詞庫,判斷廣泛的情感傾向。輿情信息中的回帖或評(píng)論大多由較短句構(gòu)成,其中句子s中的情感詞表示為,s的情感類型。其中,表示詞wi的傾向類型。如果wi前面否定詞個(gè)數(shù)是奇數(shù),則反置wi的極性傾向。將傾向性判斷問題轉(zhuǎn)化為文本分類問題,這樣可以有效判斷各種長(zhǎng)短文本的情感傾向,得到主題信息的情感態(tài)度頻率分布與內(nèi)容傾向趨勢(shì)。

(4)預(yù)警

網(wǎng)絡(luò)輿情表現(xiàn)為海量的網(wǎng)絡(luò)信息,輿情變化程度對(duì)應(yīng)相應(yīng)數(shù)據(jù)的特征與趨勢(shì)。所以,監(jiān)測(cè)分析數(shù)據(jù)變化可以描述輿情的影響趨勢(shì),對(duì)網(wǎng)絡(luò)輿情進(jìn)行危機(jī)預(yù)警。當(dāng)前,網(wǎng)絡(luò)輿情事件處理存在應(yīng)急準(zhǔn)備不足,報(bào)送時(shí)間不及時(shí),突發(fā)事件響應(yīng)速度慢等不足。一個(gè)重要原因是網(wǎng)絡(luò)輿情預(yù)警能力相對(duì)較弱。輿情監(jiān)測(cè)需要增強(qiáng)輿情信息的分析和預(yù)測(cè),將工作重點(diǎn)從單純的收集有效數(shù)據(jù),向深入研判與預(yù)測(cè)輿情的趨勢(shì)方向拓展。常用的思路與方法是:預(yù)設(shè)時(shí)間窗口,獲取主題信息數(shù)量,內(nèi)容敏感程度,負(fù)面傾向性評(píng)價(jià)數(shù)量比例,傳播范圍等基本特征與指標(biāo)。計(jì)算歷史窗口下的信息增長(zhǎng)率、增長(zhǎng)梯度等變化程度,評(píng)估輿情信息的數(shù)據(jù)變化趨勢(shì)并制定預(yù)警級(jí)別。進(jìn)而,以數(shù)據(jù)挖掘?yàn)楹诵募夹g(shù),應(yīng)用不同的數(shù)據(jù)模型方法,比如傳統(tǒng)的多元回歸、貝葉斯網(wǎng)絡(luò)、決策樹、支撐向量機(jī)等預(yù)測(cè)輿情發(fā)展趨勢(shì)。如果大于某閾值或符合預(yù)定模式,認(rèn)為需要預(yù)警,即從海量網(wǎng)絡(luò)數(shù)據(jù)中預(yù)判出潛在的危機(jī)隱患。

參考文獻(xiàn)

[1] 王鐵套,王國(guó)營(yíng),陳越. 基于模糊綜合評(píng)價(jià)法的網(wǎng)絡(luò)輿情預(yù)警模型[J]. 情報(bào)雜志,2012, 31(6):47-51.

[2] IRI網(wǎng)絡(luò)口碑研究咨詢機(jī)構(gòu)介紹及研究方法[EB/OL]. http:///wiki/網(wǎng)絡(luò)輿情指數(shù)體系.

[3] 李雯靜,許鑫,陳正權(quán). 網(wǎng)絡(luò)輿情指標(biāo)體系設(shè)計(jì)與分析[J]. 情報(bào)科學(xué),2009 (7):986-991.

[4] 黃仁,張衛(wèi). 基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J]. 計(jì)算機(jī)科學(xué),2016(6):387-389.

第5篇

關(guān)鍵詞:網(wǎng)絡(luò)輿情 網(wǎng)絡(luò)輿情分析與監(jiān)測(cè)

當(dāng)前,網(wǎng)絡(luò)已成為反映社會(huì)輿情的重要途徑。網(wǎng)絡(luò)輿情已滲透到社會(huì)的各個(gè)層面,成為了一股強(qiáng)大的、不容忽視的輿論力量。因此,如何識(shí)別和分析網(wǎng)絡(luò)輿情信息,如何對(duì)輿情進(jìn)行監(jiān)測(cè)和有效引導(dǎo),對(duì)于維護(hù)當(dāng)今社會(huì)的穩(wěn)定和發(fā)展具有重要的現(xiàn)實(shí)意義。

1 我國(guó)網(wǎng)絡(luò)輿情現(xiàn)狀

由于當(dāng)前我國(guó)正處于社會(huì)變革和轉(zhuǎn)型的關(guān)鍵時(shí)期,各種社會(huì)矛盾日益凸現(xiàn),各種社會(huì)問題日益受到人們的關(guān)注,越來越多的人們?cè)敢馔ㄟ^各類信息渠道表達(dá)自己的個(gè)人觀點(diǎn)和想法。隨著移動(dòng)互聯(lián)時(shí)代到來,借助移動(dòng)終端和各種網(wǎng)絡(luò)互動(dòng)軟件,人們可以隨時(shí)隨地的發(fā)表觀點(diǎn),報(bào)道事件,尤其在突發(fā)公共事件中,任何一個(gè)人都可以對(duì)事件進(jìn)行現(xiàn)場(chǎng)報(bào)道,社會(huì)輿論的生成機(jī)制發(fā)生了深刻的變革。

當(dāng)前我國(guó)網(wǎng)絡(luò)輿論場(chǎng)的強(qiáng)度,在世界居首。2011年,我國(guó)網(wǎng)絡(luò)輿論力度驟然增強(qiáng),上網(wǎng)發(fā)聲的階層越來越廣泛,網(wǎng)民高度警覺和關(guān)注著現(xiàn)實(shí)社會(huì)的各種熱點(diǎn)事件。特別是“7?23”動(dòng)車追尾事故和郭美美事件等敏感事件,造成網(wǎng)上網(wǎng)下人聲鼎沸,成為當(dāng)時(shí)最大的網(wǎng)絡(luò)熱點(diǎn)。

因此,在當(dāng)前復(fù)雜的社會(huì)環(huán)境下,加強(qiáng)輿情信息工作,及時(shí)掌握輿情動(dòng)態(tài),積極引導(dǎo)社會(huì)輿論,是維護(hù)社會(huì)穩(wěn)定和安全的重要舉措。而研究和分析網(wǎng)絡(luò)輿情信息,明確輿情信息的來源是前提和基礎(chǔ)。目前,微博、微信、即時(shí)通訊軟件、博客、跟帖與網(wǎng)絡(luò)留言、網(wǎng)絡(luò)社群和網(wǎng)絡(luò)社區(qū)等是傳播網(wǎng)絡(luò)輿情信息的最主要途徑。

2 網(wǎng)絡(luò)輿情信息主要包含的內(nèi)容

2.1 重大事件。所有的重大事件的發(fā)生都會(huì)在很短的時(shí)間內(nèi)迅速在網(wǎng)絡(luò)上傳播開來,與事件發(fā)生有關(guān)的各個(gè)報(bào)道,新聞,各方面的消息和熱點(diǎn)都會(huì)在各個(gè)網(wǎng)站上鋪天而來,在短時(shí)間內(nèi)就會(huì)出現(xiàn)大量的評(píng)論,跟貼和發(fā)帖等等。

2.2 突發(fā)事件。量變到質(zhì)變的過程是突發(fā)事件產(chǎn)生的一個(gè)重要階段,例如“日本大地震后我國(guó)的搶鹽事件”,在發(fā)生初期,并沒有引起太多人的關(guān)注,只是在民間出現(xiàn)了許多的“謠言”,但其迅速擴(kuò)散,就會(huì)影響到廣大群眾,并有可能造成整個(gè)社會(huì)的恐慌。

2.3 國(guó)家的經(jīng)濟(jì)工作和重點(diǎn)工作。網(wǎng)絡(luò)上的主流的意識(shí)形態(tài)還是需要各個(gè)新聞媒體來傳播,需要政府和組織來引導(dǎo),繼而形成被大眾所接受的健康向上的主流輿論,政府部門要引導(dǎo)人民群眾,最大限度地在廣大人民群眾中形成共識(shí),來統(tǒng)一不同領(lǐng)域,不同階級(jí)中的意識(shí)和信念,形成了社會(huì)的主流言論。

2.4 一些關(guān)系國(guó)際民生的重大政策的改革更容易引起人們的廣泛關(guān)注,形成網(wǎng)絡(luò)輿情熱點(diǎn)事件。

2.5 和大多數(shù)人民自身利益密切相關(guān)的事件。因?yàn)檩浨榈囊粋€(gè)重要作用就是人民群眾對(duì)自身利益的訴求表達(dá)的一個(gè)重要渠道。在群眾利益受到傷害時(shí),他自然需要一個(gè)平臺(tái)來尋求幫助和進(jìn)行訴求,網(wǎng)絡(luò)就是這樣一個(gè)很好的輿情平臺(tái)。

3 網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)

網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)包含三個(gè)層次,自下而上分別為信息采集層、信息挖掘?qū)?、信息服?wù)層。每一層為其上一層提供基礎(chǔ)數(shù)據(jù),以及為進(jìn)一步分析奠定基礎(chǔ)。其系統(tǒng)結(jié)構(gòu)如下圖所示:

網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)結(jié)構(gòu)圖

3.1 輿情信息采集層。信息采集層的基本任務(wù)是從數(shù)據(jù)格式多種多樣的網(wǎng)頁中采集出其蘊(yùn)含的豐富的、各種各樣的輿情信息。采集層的最下層為信息采集的目標(biāo)網(wǎng)站,如新浪、網(wǎng)易、搜狐、新華網(wǎng)、人民網(wǎng)、鳳凰網(wǎng)、貓撲、天涯社區(qū)等;中間層包含爬蟲管理模塊、預(yù)處理模塊、分類存儲(chǔ)模塊,爬蟲管理模塊主要采用網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)上的輿情信息;最上層將采集的文本信息分為Web內(nèi)容信息、Web結(jié)構(gòu)和使用記錄信息兩部分內(nèi)容。

3.2 輿情信息挖掘?qū)?。開展輿情信息深度挖掘,發(fā)現(xiàn)的熱點(diǎn)問題、分析其態(tài)度傾向、處置構(gòu)成危害的敏感信息是互聯(lián)網(wǎng)輿情信息挖掘?qū)拥闹饕蝿?wù)。它通過分析輿情信息采集層提供的數(shù)據(jù),能夠檢測(cè)網(wǎng)絡(luò)話題、分析民眾的態(tài)度傾向、監(jiān)測(cè)網(wǎng)絡(luò)敏感信息、評(píng)估輿情態(tài)勢(shì)等,為輿情信息服務(wù)層服務(wù)相關(guān)部門提供客觀依據(jù),是輿情信息處理的核心內(nèi)容。主要包含文本信息預(yù)處理模塊、網(wǎng)絡(luò)話題檢測(cè)模塊、輿情傾向性分析模塊、敏感信息監(jiān)控模塊。

3.3 輿情信息服務(wù)層。輿情信息服務(wù)層是輿情信息挖掘的目標(biāo),其輔助相關(guān)部門把握輿情動(dòng)態(tài)、關(guān)注民情民意、做出正確決策。它一方面提供輿情信息摘要,為相關(guān)部門快速了解輿情動(dòng)態(tài)、掌握輿情事件的來龍去脈提供便利,提高工作效率;另一方面綜合考慮話題熱度、傳播擴(kuò)散度、態(tài)度傾向程度、內(nèi)容敏感度、者影響力等輿情評(píng)價(jià)指標(biāo),并做出輿情評(píng)測(cè)、適時(shí)輿情預(yù)警信號(hào),為相關(guān)部門及時(shí)做出反應(yīng)提供幫助。

參考文獻(xiàn):

[1]王磊.公安網(wǎng)絡(luò)輿情分析系統(tǒng)的研究[D].北京交通大學(xué),2008(06).

第6篇

關(guān)鍵詞:網(wǎng)絡(luò)輿情;監(jiān)測(cè)引導(dǎo);Web數(shù)據(jù)挖掘

中圖分類號(hào):C93 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673—291X(2012)28—0227—03

一、時(shí)代背景

互聯(lián)網(wǎng)時(shí)代是人類歷史上一個(gè)空前偉大的技術(shù)革命時(shí)代?,F(xiàn)代信息技術(shù)、通訊傳播技術(shù)、網(wǎng)絡(luò)技術(shù)等眾多現(xiàn)代化的傳播技術(shù)已滲透到社會(huì)生活的各個(gè)領(lǐng)域?;ヂ?lián)網(wǎng)廣泛性、即時(shí)性、開放性、共享性和互動(dòng)性的特點(diǎn)及豐富多彩、方便實(shí)用的應(yīng)用形式?jīng)Q定其日益成為反映社情民意的重要陣地,網(wǎng)上熱點(diǎn)層出不窮,網(wǎng)絡(luò)輿情對(duì)國(guó)家事務(wù)、公共事務(wù)決策的影響力也日益加大。歷史原因曾使中國(guó)長(zhǎng)期處于封閉狀態(tài),國(guó)內(nèi)關(guān)于輿情的研究起步較晚,目前迫切需要提升與之相應(yīng)的理論和技術(shù)支持。輿情分析與監(jiān)測(cè)是信息深加工,以往“剪報(bào)”式低價(jià)值粗加工的信息服務(wù),雖可按主題范圍搜集,但提供的結(jié)果僅局限于單一的信息內(nèi)容,傳統(tǒng)的單一線性收集方式已不能夠滿足人類大腦發(fā)散思維的需要。

二、網(wǎng)絡(luò)輿情監(jiān)測(cè)引導(dǎo)的技術(shù)支撐

在浩瀚的網(wǎng)絡(luò)中,政府如果僅僅依靠人工完成網(wǎng)絡(luò)海量信息的收集和處理是不現(xiàn)實(shí)的。而Web數(shù)據(jù)挖掘能快速、準(zhǔn)確的獲得有價(jià)值的網(wǎng)絡(luò)信息,利用歷史數(shù)據(jù)預(yù)測(cè)未來的行為以及從海量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)。它克服了普通數(shù)據(jù)庫管理系統(tǒng)無法發(fā)現(xiàn)數(shù)據(jù)中隱藏的關(guān)系和規(guī)則及根據(jù)現(xiàn)有數(shù)據(jù)預(yù)測(cè)未來的弱點(diǎn)。Web數(shù)據(jù)挖掘的出現(xiàn)為自動(dòng)和智能的把互聯(lián)網(wǎng)上的海量數(shù)據(jù)轉(zhuǎn)化為有用信息和知識(shí)提供了條件??捎行У貜腤eb獲取并分析相關(guān)輿情,達(dá)到監(jiān)測(cè)、輔助決策和引導(dǎo)的目的,為網(wǎng)絡(luò)輿情預(yù)警提供了極大的幫助。

(一)Web數(shù)據(jù)挖掘

Web數(shù)據(jù)挖掘由傳統(tǒng)數(shù)據(jù)庫領(lǐng)域的數(shù)據(jù)挖掘技術(shù)演變而來。數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫的數(shù)據(jù)中提取出人們感興趣的、可信的、隱含的、明顯未知的、新穎的、有效的、具有潛在用處的信息的過程[1]。隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)挖掘技術(shù)被運(yùn)用到網(wǎng)絡(luò)上,并根據(jù)網(wǎng)絡(luò)信息的特點(diǎn)發(fā)展出新的理論與方法,演變成網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)。Web數(shù)據(jù)挖掘是指對(duì)目標(biāo)樣本進(jìn)行分析提取特征,以此為依據(jù)從Web文檔和Web活動(dòng)中抽取人們感興趣、潛在的有用模式和隱藏的信息,所挖掘出的知識(shí)能夠用于信息管理、查詢處理、決策支持、過程控制等方面。

根據(jù)挖掘?qū)ο蟮牟煌?,可將Web數(shù)據(jù)挖掘技術(shù)分為三大類[2]:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘。Web內(nèi)容挖掘是指從Web上檢索資源,從相關(guān)文件內(nèi)容及描述信息中獲取有價(jià)值的潛在信息。根據(jù)處理對(duì)象的不同,Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘。Web結(jié)構(gòu)挖掘的目標(biāo)是Web文檔的鏈接結(jié)構(gòu),目的在于揭示蘊(yùn)含于文檔結(jié)構(gòu)中的信息,主要方法是通過對(duì)Web站點(diǎn)的結(jié)構(gòu)進(jìn)行分析、變形和歸納,將Web頁面進(jìn)行分類,以利于信息的搜索。結(jié)構(gòu)挖掘的重點(diǎn)在于鏈接信息。Web使用挖掘是從服務(wù)器訪問日志、用戶策略、用戶對(duì)話和事物處理信息中得到用戶的訪問模式和感興趣的信息,利用這種方法,可以獲知Web使用者的行為偏好,從而預(yù)測(cè)其行為。

(二)Web挖掘過程

Web數(shù)據(jù)挖掘依然遵循數(shù)據(jù)挖掘的研究思路,挖掘過程分為四個(gè)階段:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和模式分析(如圖1所示)[3]。

1.數(shù)據(jù)收集。網(wǎng)絡(luò)信息的收集是網(wǎng)絡(luò)輿情監(jiān)測(cè)的源頭,其廣度和深度決定了監(jiān)測(cè)效果。對(duì)于明確主題的輿情信息采集,可以采用搜索引擎方法。由于各個(gè)現(xiàn)存搜索引擎索引數(shù)據(jù)庫的構(gòu)造方法不同,其索引數(shù)據(jù)不盡完整,所以應(yīng)將多個(gè)單搜索引擎搜索結(jié)果進(jìn)行整合、調(diào)用、控制和優(yōu)化。搜索中可以以寬度優(yōu)先、深度優(yōu)先或啟發(fā)方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)相關(guān)信息,可將網(wǎng)絡(luò)空間按域名、IP地址或國(guó)別域名劃分為獨(dú)立子空間詳細(xì)搜索;或以信息類型為劃分,如HTML格式、XML格式、FTP文件、Word文檔、newsgroup文章和各種音、視頻文件等。輿情信息檢索結(jié)果可按不同維度展現(xiàn),包括按內(nèi)容分類、輿情分類、相關(guān)人物、相關(guān)機(jī)構(gòu)、相關(guān)地區(qū)、正負(fù)面分類等。每個(gè)維度下把搜索結(jié)果自動(dòng)分類統(tǒng)計(jì)展示,以便短時(shí)間內(nèi)檢索到精確信息。

2.數(shù)據(jù)預(yù)處理。因原始Web訪問數(shù)據(jù)的文件格式是半結(jié)構(gòu)化的,包含不完整、冗余、錯(cuò)誤的數(shù)據(jù),需進(jìn)行提取、分解、合并,轉(zhuǎn)化為適合挖掘的格式,保存到關(guān)系型數(shù)據(jù)庫表或數(shù)據(jù)倉(cāng)庫中,等待進(jìn)一步處理。數(shù)據(jù)預(yù)處理可改進(jìn)數(shù)據(jù)質(zhì)量,提高后續(xù)輿情挖掘過程的精度和性能。對(duì)采集到的輿情進(jìn)行初步加工處理,如格式轉(zhuǎn)換、數(shù)據(jù)清理、數(shù)據(jù)統(tǒng)計(jì),對(duì)于新聞評(píng)論,需過濾無關(guān)信息,保存新聞標(biāo)題、出處、時(shí)間、內(nèi)容、點(diǎn)擊次數(shù)、評(píng)論人、評(píng)論內(nèi)容和評(píng)論數(shù)量等。對(duì)于論壇,需記錄帖子的標(biāo)題、發(fā)言人、時(shí)間、內(nèi)容、回帖內(nèi)容、回帖數(shù)量等,最后形成格式化信息。條件允許時(shí)甚至可直接對(duì)網(wǎng)站服務(wù)器的數(shù)據(jù)庫進(jìn)行操作。

3.模式發(fā)現(xiàn)。利用數(shù)據(jù)挖掘的算法可發(fā)現(xiàn)用戶聚類、頁面聚類、頻繁訪問頁組、頻繁訪問路徑等隱藏的用戶訪問模式。若在挖掘用戶瀏覽模式過程中發(fā)現(xiàn)選擇的數(shù)據(jù)或?qū)傩杂衅?,或挖掘技術(shù)達(dá)不到預(yù)期結(jié)果,需根據(jù)反饋結(jié)果不斷重復(fù)以上過程,通過數(shù)據(jù)挖掘,創(chuàng)建和更新用戶模式庫。模式發(fā)現(xiàn)可應(yīng)用許多相關(guān)領(lǐng)域的方法,但需針對(duì)Web數(shù)據(jù)挖掘的特點(diǎn)做出相應(yīng)的改進(jìn)。

第7篇

關(guān)鍵詞:高校BBS;網(wǎng)絡(luò)輿情;監(jiān)測(cè);熱點(diǎn)分析

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)16-3688-04

1 概述

隨著互聯(lián)網(wǎng)的普及和高校信息化的建設(shè),各大高校都擁有自己的BBS網(wǎng)絡(luò),學(xué)生在網(wǎng)絡(luò)上進(jìn)行交流,發(fā)表自己的觀點(diǎn)和意見,表達(dá)思想等,輿情的影響和規(guī)律都不容忽視。然而,對(duì)敏感和突發(fā)事件的不實(shí)言論和惡意煽動(dòng),會(huì)誤導(dǎo)和欺騙學(xué)生,擴(kuò)大學(xué)生的不滿情緒,影響和破壞校園的和諧穩(wěn)定。因此,有必要對(duì)高校BBS網(wǎng)絡(luò)涉及意識(shí)形態(tài)安全的議題和言論進(jìn)行有效地監(jiān)管。采用數(shù)據(jù)挖掘技術(shù),對(duì)互聯(lián)網(wǎng)輿情進(jìn)行分析、整理,才能建立起全面、有效、快速的輿情監(jiān)測(cè)預(yù)警機(jī)制,使高校網(wǎng)絡(luò)得以健康、快速的發(fā)展,成為當(dāng)前研究和應(yīng)用的熱點(diǎn)。

在目前的校園網(wǎng)絡(luò)輿情監(jiān)測(cè)應(yīng)用中,還沒有比較成熟的網(wǎng)絡(luò)輿情產(chǎn)品,因此,針對(duì)高校BBS網(wǎng)絡(luò)的特點(diǎn),結(jié)合高校網(wǎng)絡(luò)輿情監(jiān)控機(jī)制和引導(dǎo)策略,開發(fā)高校網(wǎng)絡(luò)輿情監(jiān)測(cè)平臺(tái)有很大的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。

2 輿情熱點(diǎn)分析方法

2.1網(wǎng)絡(luò)輿情的形成

2.2主題關(guān)注度分析

主題關(guān)注度是指過去某一時(shí)間段內(nèi),輿情主題被關(guān)注的程度,用該主題的相關(guān)帖子回復(fù)數(shù)或與該主題的相關(guān)網(wǎng)頁數(shù)進(jìn)行衡量[1]。在進(jìn)行輿情分析時(shí),要統(tǒng)計(jì)某一主題或事件被關(guān)注的程度,首先要明確事件或話題本身所處的階段;其次,應(yīng)該在分析某一輿情熱點(diǎn)之前對(duì)其進(jìn)行科學(xué)的類型界定。熱點(diǎn)事件主要分為突發(fā)自然災(zāi)害事件、生產(chǎn)安全事故、、公共衛(wèi)生事件、公權(quán)力形象、司法事件、經(jīng)濟(jì)民生事件、社會(huì)思潮、境外涉華突發(fā)事件等。

2.3 主題熱度分析

主題熱度分析即在某一時(shí)同段內(nèi)相對(duì)更加被關(guān)注或集中關(guān)注的輿情主題,用該主題的關(guān)注度進(jìn)行衡量。統(tǒng)計(jì)所有輿情主題的關(guān)注度,在某一時(shí)間段內(nèi),對(duì)所有設(shè)為熱點(diǎn)的主題按關(guān)注度的降序進(jìn)行排列,生成某一時(shí)間段內(nèi)的熱點(diǎn)主題排行榜。排在榜首的主題網(wǎng)民的關(guān)注度最高,也就是熱點(diǎn)問題所在。

3 網(wǎng)絡(luò)輿情監(jiān)測(cè)關(guān)鍵技術(shù)

網(wǎng)絡(luò)輿情監(jiān)測(cè)技術(shù)主要集中在兩個(gè)方面,一是話題檢測(cè)與跟蹤技術(shù)(Topic Detection and Tracking),二是文體傾向性分析技術(shù)(Sentiment Classification)技術(shù)。主題檢測(cè)與跟蹤作為輿情分析的重要技術(shù)手段,是近十年自然語言處理和信息檢索領(lǐng)域的熱點(diǎn)研究課題[2]。要對(duì)高校網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè),就是運(yùn)用網(wǎng)絡(luò)爬蟲、文本挖掘和文本情感分析技術(shù),實(shí)現(xiàn)熱點(diǎn)話題發(fā)現(xiàn)、話題跟蹤、關(guān)聯(lián)分析、敏感信息監(jiān)測(cè)的功能。

3.1 主題爬蟲技術(shù)

3.1.1網(wǎng)絡(luò)爬蟲的分類

網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛,是一個(gè)按照一定的規(guī)則自動(dòng)提取網(wǎng)頁的程序,這種技術(shù)可以檢查站點(diǎn)上所有的鏈接是否有效,并把相關(guān)的數(shù)據(jù)保存下來,成為搜索引擎[3]。

通用網(wǎng)絡(luò)爬蟲首先把網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接起來,就像織了一張網(wǎng),爬蟲程序從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL列表,順著這張網(wǎng),不斷的抓取網(wǎng)頁,將內(nèi)容抽取出來,直到滿足系統(tǒng)的停止條件為止。

聚焦爬蟲技術(shù)是根據(jù)一定的網(wǎng)頁分析算法地過濾與主題無關(guān)的鏈接,保留有用的鏈接放到待抓取的隊(duì)列中,通過一定的搜索策略從隊(duì)列中選擇下一步要抓取的URL,重復(fù)以上步驟,直到滿足程序的停止條件。

3.1.2爬行算法

基于主題的聚焦爬蟲搜索策略主要有人工預(yù)選策略、過濾策略、啟發(fā)式搜索策略。人工預(yù)選策略是由人工預(yù)先瀏覽各個(gè)站點(diǎn),從中選出與主題相關(guān)的網(wǎng)站,然后再用爬蟲程序?qū)@類網(wǎng)站進(jìn)行持續(xù)的訪問;過濾策略是將爬蟲抓取下來的網(wǎng)頁,先進(jìn)行過濾,刪除與主題不相關(guān)的頁面,保留相關(guān)頁面;啟發(fā)式策略是考慮特定問題可應(yīng)用的知識(shí)地優(yōu)先選擇合適的操作算子,盡量減少不必要的搜索,以搜索效率。下面介紹比較有代表性的算法Fish Search算法。

Fish Search算法是模擬自然界中的魚群的行為來進(jìn)行最優(yōu)搜索,依據(jù)自然規(guī)律,魚群總是朝一個(gè)方向流動(dòng)來尋找食物并繁殖,子代魚群的數(shù)量和強(qiáng)壯程度取決于能找到的食物的數(shù)量。在Fish Search算法中,每一個(gè)URL看作是一條魚,當(dāng)一個(gè)Web頁面被抓取后,它包含的新的UEL也同時(shí)被解析出來。其中,有用的URL的數(shù)量取決于該頁面是否與主題相關(guān)以及它本身包含的鏈接數(shù)量。當(dāng)增加一個(gè)文檔,魚就繁殖一定數(shù)量的后代,若文檔相關(guān)也就是指魚兒找到了食物,可以繁殖出更多的后代,則再增加此文的鏈接深度;若文檔不相關(guān),魚就越來越少,后代也越少。在某一方向上經(jīng)過幾條鏈接仍未找到相關(guān)文檔,就表明此魚已死,就不再沿著這個(gè)方向進(jìn)行查找了,將此URL加入到完成隊(duì)列中。若一條魚讀取文檔的時(shí)間過長(zhǎng),說明該魚已進(jìn)入污染區(qū),則盡量少沿著這條URL搜索,以免出現(xiàn)死循環(huán)。

Fish Search算法不像傳統(tǒng)的搜索算法按照URL在父頁面中出現(xiàn)的順序來依次搜索,而是動(dòng)態(tài)的根據(jù)網(wǎng)頁的搜索深度值來決定搜索的順序,實(shí)現(xiàn)了可能的主題相關(guān)網(wǎng)頁優(yōu)先搜索。該算法的不足之處在于相關(guān)度的計(jì)算過于簡(jiǎn)單,容易使算法過早陷入局部最優(yōu)的陷阱,導(dǎo)致整體回報(bào)率不高[4]。

3.2 文本挖掘技術(shù)

3.2.1文本表示

文本表示包括兩個(gè)方面的問題:文本的表示和計(jì)算,文本的表示是指文本特征的提取,計(jì)算指權(quán)重的定義和語義相似度的定義。

目前,文本的表示通常采用布爾模型、向量空間模型、潛在語義模型和概率模型文本表示模型,用某種特定結(jié)構(gòu)去表達(dá)文本的語義。

3.2.2文本相似度計(jì)算

3.2.3文本聚類和分類

文本聚類通常對(duì)已有的文本集合進(jìn)行聚類,文本聚類技術(shù)是主題檢測(cè)技術(shù)的基礎(chǔ),它的目標(biāo)是將文檔集合分成若干個(gè)簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能的大,而不同簇之間的相似度則盡可能的小。

經(jīng)過多年研究,聚類算法已經(jīng)很成熟,主要可分為五類:以k-means為代表的劃分方法,利用同一聚類中的對(duì)象相似度高,不同類的對(duì)象相似度低的特性進(jìn)行分類;將類別看作是在層次的層次聚類方法,有兩種分類方法:整合法和分裂法;主要考慮數(shù)據(jù)空間的密度、連通性和邊界區(qū)的基于密度的方法;將數(shù)據(jù)的分割方法轉(zhuǎn)換成對(duì)空間的分割的基于網(wǎng)絡(luò)的算法;在高維空間進(jìn)行聚類的核聚類算法等。

不管采用哪一種聚類算法,文本聚類的流程如圖2所示,主要有以下步驟:

①將原始文本進(jìn)行預(yù)處理,抽取詞條,詞條選擇等其他處理;

②抽取文本特征,建立模型,例如向量空間模型、概率模型等其他模型;

③將維度進(jìn)行約減,需要用到的算法有層次算法、劃分算法等其他算法;

④得到聚類結(jié)果。

3.2.4 關(guān)鍵詞和摘要提取

由于網(wǎng)絡(luò)上的文檔信息量比較龐大,如果直接對(duì)全文進(jìn)行檢索,其檢索的速度會(huì)很慢,而且檢索的效率不高,經(jīng)常檢索出無關(guān)的內(nèi)容。因此為了提高檢索質(zhì)量和效率,必須對(duì)文檔建立關(guān)鍵詞和摘要。關(guān)于關(guān)鍵詞自動(dòng)提取的方法主要有主要包括基于統(tǒng)計(jì)、基于語義理解和基于機(jī)器學(xué)習(xí)三種方式。

關(guān)鍵詞的抽取過程非常復(fù)雜,設(shè)計(jì)思路是首先建立一個(gè)通用的主題詞表,然后基于這個(gè)主題表對(duì)處理后的頁面文檔進(jìn)行主題詞的抽取工作,主題詞的抽取過程主要包括預(yù)處理、選擇候選詞、計(jì)算關(guān)鍵詞權(quán)重、輸出關(guān)鍵詞等幾個(gè)主要步驟。

4 實(shí)驗(yàn)結(jié)果

5 結(jié)束語

本文立足于高校網(wǎng)絡(luò)輿情監(jiān)測(cè)的實(shí)際需求,研究了高校輿情監(jiān)控系統(tǒng)的關(guān)鍵技術(shù):網(wǎng)絡(luò)爬蟲、文本挖掘等多種信息技術(shù)。在多種技術(shù)的支撐下,開發(fā)出一套適用于高校BBS網(wǎng)絡(luò)的輿情監(jiān)測(cè)平臺(tái),實(shí)現(xiàn)了對(duì)新聞的實(shí)時(shí)跟蹤,校園熱點(diǎn)話題的監(jiān)控、敏感信息的監(jiān)測(cè)等功能是可以是實(shí)現(xiàn)的,這項(xiàng)研究還需要進(jìn)一步深入。

參考文獻(xiàn):

[1] 林興發(fā),肖照.基于大學(xué)生BBS論壇的輿情熱點(diǎn)分析——以武漢大學(xué)珞珈山水論壇為例[J].現(xiàn)代商貿(mào)工業(yè). 2010(18):188-189.

[2] Pimwadee Chaovalit,Lina Zhou,Movie Review Mining:a Comparison between Supervised and Unsupervised Classification Approaches,In Proceedings of the 38th Hawaii International Conference on System Sciences,2005.

[3] PINKERTON B.Finding what people want:Experiences with theweb crawler[A].Proceedings of the SecondWorld2WideWeb conference[C].Chicago,Illinois,1994.