基于數(shù)據(jù)挖掘的輿情觀點挖掘研究

基于數(shù)據(jù)挖掘的輿情觀點挖掘研究

ID:23382766

大小:61.62 KB

頁數(shù):5頁

時間:2018-11-07

基于數(shù)據(jù)挖掘的輿情觀點挖掘研究_第1頁
基于數(shù)據(jù)挖掘的輿情觀點挖掘研究_第2頁
基于數(shù)據(jù)挖掘的輿情觀點挖掘研究_第3頁
基于數(shù)據(jù)挖掘的輿情觀點挖掘研究_第4頁
基于數(shù)據(jù)挖掘的輿情觀點挖掘研究_第5頁
資源描述:

《基于數(shù)據(jù)挖掘的輿情觀點挖掘研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于數(shù)據(jù)挖掘的輿情觀點挖掘研究本文對網(wǎng)絡(luò)輿情技術(shù)開展了研究和探索,設(shè)計了一個網(wǎng)絡(luò)輿情觀點挖掘系統(tǒng),為進一步的網(wǎng)絡(luò)輿情分析、監(jiān)控建立了基礎(chǔ),本系統(tǒng)能夠較好的實現(xiàn)網(wǎng)絡(luò)輿情觀點的挖掘和情感分析,具有較好的實用價值?!娟P(guān)鍵詞】網(wǎng)絡(luò)輿情觀點挖掘特征情感根據(jù)中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心(CNNIC)第35次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,截至2014年12月,我國網(wǎng)民規(guī)模達6.49億,互聯(lián)網(wǎng)普及率為47.9%。作為人才匯聚、信息速遞的高校,大學生每日的互聯(lián)網(wǎng)接觸率早己達到98%,日均接觸互聯(lián)網(wǎng)3小時,可見,網(wǎng)絡(luò)己經(jīng)成為大學

2、生獲取信息的重要渠道,是在校學生表達、交流、整合各種觀點的重要陣地。但是,由于網(wǎng)絡(luò)是一個開放的環(huán)境,具有匿名、分散、難控的特點,往往一件小事通過網(wǎng)絡(luò)的醞釀,最終形成校園輿論甚至全國輿論。而且,輿論一旦發(fā)生,往往會超出事件本身的范圍,擴展到政治、經(jīng)濟等方面,通過評論、分享等借題發(fā)揮,抨擊其它問題,對高校的正常工作帶來巨大的影響??梢?,對互聯(lián)網(wǎng)上的相關(guān)內(nèi)容進行觀點挖掘具有深遠的意義和應(yīng)用價值,可以幫助我們及時發(fā)現(xiàn)問題,提前進行疏導(dǎo)。1輿情觀點挖掘觀點挖掘是數(shù)據(jù)挖掘和自然語言處理等領(lǐng)域的一門綜合性交叉學科,近年來受到

3、市場的關(guān)注,觀點挖掘技術(shù)具有廣闊的應(yīng)用空間。但是在人類的自然語言中,觀點的表達往往是非常微妙和復(fù)雜的,很難用標準文本分類方法來解決這個問題。觀點挖掘中最為關(guān)鍵的一步是文本傾向性分類研宄,根據(jù)文本的情感態(tài)度不同,將文本分為若干類別,例如積極肯定類、反面否定類、中立類。輿情觀點挖掘是在觀點挖掘基礎(chǔ)上的新應(yīng)用,區(qū)別在于在挖掘輿情的時候,輿情的觀點還是未知的,根據(jù)這一特點,本文將提出一種輿情觀點挖掘的完整方法。2輿情觀點挖掘過程輿情觀點挖掘過程的框架如圖1所示。由于篇幅限制本文的挖掘過程跳過了爬蟲自動搜集、數(shù)據(jù)預(yù)處理環(huán)

4、節(jié),熱點文檔庫中存放的是從數(shù)據(jù)庫中提取的熱點事件的文檔集,下面針對每個步驟詳細說明。步驟1:從相關(guān)熱點文檔庫的文檔中,提取所有關(guān)鍵詞,形成關(guān)鍵詞列表。中文不同于英文,詞語之間沒有空格,所以在進行提取之前需要進行中文分詞,通過比較目前流行的中文分詞工具,最終選擇了NLPIR漢語分詞系統(tǒng),系統(tǒng)采用層疊隱馬模型,分詞準確率接近98.23%,具備準確率高、速度快、可適應(yīng)性強等優(yōu)勢。分詞后的文檔再進行詞頻統(tǒng)計,對前若干個關(guān)鍵詞進行篩選,就得到了關(guān)鍵詞列表。步驟2:在熱點文檔庫的句子中搜索包含關(guān)鍵詞的句子,形成關(guān)鍵句集合。

5、步驟3:從關(guān)鍵句中提取出特征詞,將關(guān)鍵句用特征向量表示。從關(guān)鍵句中挑選出名詞或動名詞作為特征詞,關(guān)鍵句中包含特征詞則特征值為1,否則特征值為0,最終每個關(guān)鍵句就轉(zhuǎn)變成為一個特征向量,每個特征詞就是特征向量的一維。步驟4:對關(guān)鍵句集進行特征聚類,最終選擇聚類中包含關(guān)鍵句最多的M個聚類。得到每個關(guān)鍵句的特征向量后,使用余弦相似度公式(公式1)計算任意兩個關(guān)鍵句特征向量的相似度,最后使用K-means進行聚類。(公式1)步驟5:對聚類中的每個句子提取特征詞和情感詞,最終得到輿情觀點以及對該觀點的評價(正面或負面)。提

6、取聚類中的特征詞(名詞)和情感詞(形容詞),根據(jù)情感詞字典(圖2)對每個關(guān)鍵句進行情感計正面情感詞語+1,負面情感詞語-1,最終計算出關(guān)鍵句所表達的針對某一觀點(特征詞)的情感傾向。3結(jié)論通過驗證算法能夠較好的挖掘出輿論觀點,也能夠比較準確的衡量輿論對觀點的情感態(tài)度。在實際測試中,算法仍存在一些不足,例如對于中文中的設(shè)問句,諷刺,比喻或是含蓄的表達,識別存在很大困難,對于特定領(lǐng)域的術(shù)語或是新詞,識別的精度還需進一步提高。網(wǎng)絡(luò)輿情觀點挖掘技術(shù)在信息科學領(lǐng)域有廣闊的發(fā)展前景,如何能夠更加有效的,準確的進行網(wǎng)絡(luò)輿情發(fā)

7、現(xiàn)和觀點挖掘,使之在輿情監(jiān)控系統(tǒng)中取得更好的效果是今后研究的重點。參考文獻[1]陳藝卓.網(wǎng)絡(luò)輿論意見領(lǐng)袖發(fā)現(xiàn)方法研究[」].消費電子,2014(07):253.[2]王輝,王暉昱,左萬利.觀點挖掘綜述[」].計算機應(yīng)用研宄,2009(01).[3]吉祥.基于觀點挖掘的網(wǎng)絡(luò)輿情信息分析[」].現(xiàn)代情報,2010(11).[4]董堅峰.基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警研宄[」].現(xiàn)代情報,2014(02).作者簡介陳藝卓(1983-),男。碩士學位學位?,F(xiàn)為海南軟件職業(yè)技術(shù)學院講師。主要研究方向為數(shù)據(jù)挖掘。作者

8、單位海南軟件職業(yè)技術(shù)學院海南省瓊海市571400

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。