??? 面對輿情數(shù)據(jù)的收集分析,首先我們要考慮到網(wǎng)上龐大的信息量,僅依靠人工的方法難以應(yīng)對網(wǎng)上海量信息的收集和處理,需要加強相關(guān)信息技術(shù)的研究,形成一套自動化的網(wǎng)絡(luò)輿情分析系統(tǒng),及時應(yīng)對網(wǎng)絡(luò)輿情,由被動防堵,化為主動梳理、引導(dǎo)。這樣的系統(tǒng)應(yīng)該具備以下功能:
首先是輿情分析引擎。這是輿情分析系統(tǒng)的核心功能,包括:
1、熱點話題、敏感話題識別,可以根據(jù)新聞出處權(quán)威度、評論數(shù)量、發(fā)言時間密集程度等參數(shù),識別出給定時間段內(nèi)的熱門話題。利用關(guān)鍵字布控和語義分析,識別敏感話題。
2、傾向性分析,對于每個話題,對每個發(fā)信人發(fā)表的文章的觀點、傾向性進行分析與統(tǒng)計。
3、主題跟蹤,分析新發(fā)表文章、貼子的話題是否與已有主題相同。
4、自動摘要,對各類主題,各類傾向能夠形成自動摘要。
5、趨勢分析,分析某個主題在不同的時間段內(nèi),人們所關(guān)注的程度。
6、突發(fā)事件分析,對突發(fā)事件進行跨時間、跨空間綜合分析,獲知事件發(fā)生的全貌并預(yù)測事件發(fā)展的趨勢。
7、報警系統(tǒng),對突發(fā)事件、涉及內(nèi)容安全的敏感話題及時發(fā)現(xiàn)并報警。
8、統(tǒng)計報告,根據(jù)輿情分析引擎處理后的結(jié)果庫生成報告,用戶可通過瀏覽器瀏覽,提供信息檢索功能,根據(jù)指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內(nèi)容,提供決策支持。
其次是自動信息采集功能。現(xiàn)有的信息采集技術(shù)主要是通過網(wǎng)絡(luò)頁面之間的鏈接關(guān)系,從網(wǎng)上自動獲取頁面信息,并且隨著鏈接不斷向整個網(wǎng)絡(luò)擴展。目前,一些搜索引擎使用這項技術(shù)對全球范圍內(nèi)的網(wǎng)頁進行檢索。輿情監(jiān)控系統(tǒng)應(yīng)能根據(jù)用戶信息需求,設(shè)定主題目標(biāo),使用人工參預(yù)和自動信息采集結(jié)合的方法完成信息收集任務(wù)。
第三是數(shù)據(jù)清理功能。對收集到的信息進行預(yù)處理,如格式轉(zhuǎn)換、數(shù)據(jù)清理,數(shù)據(jù)統(tǒng)計。對于新聞評論,需要濾除無關(guān)信息,保存新聞的標(biāo)題、出處、發(fā)布時間、內(nèi)容、點擊次數(shù)、評論人、評論內(nèi)容、評論數(shù)量等。對于論壇BBS,需要記錄帖子的標(biāo)題、發(fā)言人、發(fā)布時間、內(nèi)容、回帖內(nèi)容、回帖數(shù)量等,最后形成格式化信息。條件允許時,可直接針對服務(wù)器的數(shù)據(jù)庫進行操作。
輿情分析系統(tǒng)的核心技術(shù)在于輿情分析引擎,涉及的最主要的技術(shù)包括文本分類、聚類、觀點傾向性識別、主題檢測與跟蹤、自動摘要等計算機文本信息內(nèi)容識別技術(shù)。這些技術(shù)一向是國內(nèi)外信息工作者關(guān)注的領(lǐng)域。文本檢索會議(TREC)、情報檢索專業(yè)組會議(SIGIR)、文本檢測與跟蹤會議(TDT)等都是展示此類技術(shù)最新研究成果的最主要的國際會議和論壇。其中基于關(guān)鍵詞統(tǒng)計分析方法的技術(shù)相對比較成熟,但在其有效性方面還有很大的提高空間。
近年來,專家學(xué)者一直在研究更加有效的方法,其中基于語義的內(nèi)容識別方法是當(dāng)前研究的重中之重,雖然也取得了較大進展,但仍存在很多問題和困難需要克服。為了增加我國網(wǎng)絡(luò)信息控制能力,我們必須迎難而上,加強相關(guān)技術(shù)的研究。
恩訊名片!