??? 互聯(lián)網時代,網絡輿情作為一種具有傳播速度快、影響面廣的信息,其中有意識或者無意識表達出來的民情民意越來越值得研究。本文將介紹一種利用情報學領域中的信息組織理論與方法,對網絡輿情的傳播機制進行深化研究與應用的方法,從而幫助相關部門更好的把握民情、體貼民意、傾聽民聲。
研究中借鑒和融合了社會學、新聞傳播學、統(tǒng)計學、管理學等方面的研究視角和研究方法,但更多的是從情報學特有的研究方法和范式出發(fā),關注信息本身,并且以技術手段作為支撐,充分利用計算機和互聯(lián)網技術。具體而言,輿情研究是情報學研究領域中信息采集、信息組織、信息分析方法的具體應用。
一、基礎分析方法
輿情分析中涉及大量的相關技術,比如事情檢測與跟蹤系統(tǒng)、自然語言處理特別是中文信息處理、數(shù)據(jù)挖掘等。具有情報學特點的研究方法主要有:
1.內容分析法
內容分析法是一種對文獻內容作客觀系統(tǒng)的定量分析的專門方法,其目的是弄清或測驗文獻中本質性的事實和趨勢,揭示文獻所含有的隱性情報內容,對事物發(fā)展作情報預測。它實際上是一種半定量研究方法,其基本做法是把媒介上的文字、非量化的有交流價值的信息轉化為定量的數(shù)據(jù),建立有意義的類目分解交流內容,并以此來分析信息的某些特征。
內容分析法可以揭示文獻(包括保存的網頁)的隱性內容,和輿情研究結合起來可以揭示網絡宣傳的技巧、策略,衡量互聯(lián)網內容的可讀性,發(fā)現(xiàn)作者或者評論者的個人風格,分辨不同時期不同環(huán)境的輿情特征,反映個人與團體的態(tài)度、興趣,揭示大眾關注的焦點等。
2.實證分析法
實證分析法是通過分析大量案例和相關數(shù)據(jù)后試圖得出某些結論的一種常見研究方法,比如社會調查法和網絡計量法等。
社會調查法是有目的、有計劃、有系統(tǒng)地搜集有關研究對象社會現(xiàn)實狀況或歷史狀況材料的方法,它可以用談話、問卷、個案研究、測驗或實驗等科學方式,對有關社會現(xiàn)象進行有計劃的、周密的、系統(tǒng)的了解,并對調查搜集到的大量資料進行分析、綜合、比較、歸納,借以發(fā)現(xiàn)存在的社會問題,探索有關規(guī)律。
網絡計量法是將傳統(tǒng)信息計量方法應用在Web分析上,就諸如語言、單詞、詞匯、頻次、作者特征、用戶行為等進行計量研究。這個是目前網絡輿情研究中數(shù)據(jù)分析的主要方向。
二、信息采集方法
網絡信息采集主要采用基于垂直搜索引擎的主題爬蟲技術,對互聯(lián)網上的某類主題信息頁面全自動識別、分類、抓取,并能夠實現(xiàn)網頁指紋消重和信息消重,同時對主題信息頁面進行去除無關信息和信息自動抽取,垂直引擎系統(tǒng)對某一領域的采集和提取具有較高的準確性和較廣的信息查全率。
1.主題蜘蛛實現(xiàn)
主題蜘蛛實現(xiàn)主要包括兩方面內容,一是主題搜索智能下載,二是互聯(lián)網上的反屏蔽策略。前者主要包括:蜘蛛爬行模塊、種子網站設定、URL處理模塊、主題確立模塊等,主要涉及技術有:web下載技術、智能更新搜索功能、爬行深度控制、智能下載模擬瀏覽器技術等。
2.主題相關判別
一般意義下的相關度通常是根據(jù)檢索詞在命中記錄中出現(xiàn)的次數(shù)(詞頻)和位置,以及不同檢索詞的相鄰程度來計算的。網絡輿情研判主要關注的是網絡新聞、論壇帖子、微博、微信等網絡素材的相關度問題,其中借鑒了大量傳統(tǒng)文獻中關于相關度計算的標準和算式。
主要涉及技術有:自動主題網站識別、種子庫動態(tài)維護和自動擴展更新、網頁消重等。其中,網頁消重可主要采取以下策略:
1)根據(jù)URL列表進行消重。在抓取時不斷提取新的URL,判斷其是否存在于“已訪問的URL列表”中;
2)網頁的指紋去重技術。對已訪問的頁面采用加密算法獲得該網頁具有唯一性的指紋信息。
3)基于領域知識庫的去重規(guī)則。根據(jù)實際的應用領域,可以制定更加具體的消重規(guī)則,進行信息消重。對具有標識性的屬性信息組合,如輿情中的敏感詞、熱點問題等具有唯一性的屬性值生成其指紋信息,若指紋信息重復,則根據(jù)“互補”策略和投票規(guī)則對現(xiàn)有信息進行補充或更改,從而能夠在保證信息完整性和準確性的同時,達到信息消重的目的。
三、信息處理技術
1.信息預處理
信息預處理是對采集到的網頁進行初步的加工和處理,為后繼輿情關鍵信息抽取和輿情內容分析奠定基礎。
基于統(tǒng)計的信息預處理一般忽略文本的語言學上的特征,將文本作為特征項集合來看,利用加權特征項構成向量進行文本表示,利用詞頻信息對文本特征進行加權,比如向量空間模型。
基于規(guī)則的信息預處理是在定義元符號及演算規(guī)則的基礎上,根據(jù)字符串匹配,給出了一個互聯(lián)網信息文本的過濾模型,其核心語料庫包括詞庫和規(guī)則庫。
由于輿情是一類具有很強領域性和傾向性的信息,所以需要將統(tǒng)計與規(guī)則預處理技術相結合。除此之外,預處理環(huán)節(jié)還需要對網頁進行索引、儲存與統(tǒng)計。
2.輿情關鍵信息抽取
首先,需要進行網頁去噪。抓取下來的主題信息頁面往往存在著一定的噪音信息,如導航、廣告、版權信息、logo信息、javascript等。這些噪音信息對信息抽取的速度和質量都有較大的影響,因此要先進行網頁凈化。
然后,利用智能節(jié)點識別技術自動識別出屬性信息標示詞或滿足特定屬性值結構的信息。其具有人工干預性少,不依賴網頁結構,高通用性特征,能夠準確快速地抽取各種結構的頁面信息。
最后,進行邏輯信息抽取。從邏輯意義層面上去理解主題頁面的信息內容,而不依賴于信息頁面的結構和信息頁面的語義。
3.輿情內容主題聚類分析
主題聚類主要通過對文本、查詢式等聚類對象進行基于機器學習的主題分析,將聚類對象轉換為基于主題的表示形式,以達到降低特征空間維度的目的,然后以主題表示為基礎進行對象的聚類分析,最后得到基于主題的聚類結果描述。
【結語】我們對網絡輿情的分析是期望變堵為疏,變被動控制為主動引導,真正通過輿情分析傾聽民聲,了解民意。同時提升政府信息管理能力,幫助有關部門更好地應對網絡突發(fā)事件。通過對互聯(lián)網海量信息持續(xù)不斷的監(jiān)測與分析,從中提取有用的輿情信息,通過多種手段和渠道做輿論方向引導,為構建和諧的網絡環(huán)境盡一份力。
恩訊名片!