資源描述:
《文本特征選擇算法研究及其在微博上的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、.‘‘.'‘^=占..-女/,人.;/';vv.yr巧’。、八‘.如..呼聽.f;H;-■、。'■心-.’、.人‘-..^::v;.y:》^^■分類號I學校代碼10372-i,詩.、::,[/J.本枯.%,廣心考作場餐慶卸藏丈聲域.‘,f碩±學位論文博.?與1’''''-..r:打..-I坤,./i;文本特征選擇算法研究及其在微博上的應(yīng)用;一;.,巧^'■*-'''‘,v,-i-V\'■-■、.’'\.n;..i\,jv車又作者姓名、.
2、:任勇‘,?。櫄舛牡谋妫崳妼W號:Yl369〇〇〇4給苗7於、帥‘戶‘令t學科專業(yè);嗎茲:統(tǒng)計學議1起懼論;弓4‘、沁.;,.p研究方向:統(tǒng)計學習與預(yù)測V.,喪巧’壞導(dǎo)師及職稱:程玉勝教授..雜1.、嫁導(dǎo)^^簿/韋;2016年6.論文答辯日期月;'授予學位曰期-:2〇16年6月,—i;咬;知1識1''.球.#識%.X滅.、八‘I'、^I^.V;.《,V,'苗咬’’—A安慶師范大學碩去學位評定委員會辦公室‘^1.‘八V'’、.;,、.V.巧.八’i■-t.‘^.‘:';-'"、
3、‘、、^'.,.:..L.;v^’,—v.^;.^乂^:,'譜‘.t?!Ч茫崳姡颍?;:...-i.,V;r.rVv;H;,;帝V>義7:的;^安慶師范大學碩士學位論文題目:(文本特征選擇算法研究及其在微博上的應(yīng)用)Subject:(Researchontextfeatureselectionalgorithmanditsapplicationinmicro-blog)作者姓名:任勇學號:Y13690004學科專業(yè):統(tǒng)計學研究方向:統(tǒng)計學習與預(yù)測導(dǎo)師及職稱:程玉勝教授論文答辯日期:2016年6月授予學位日期:2016年6月安慶師范大學學位評定委
4、員會辦公室文本特征選擇算法研究及其在微博上的應(yīng)用任勇安慶師范大學碩士學位論文2016年5月26日(論文提交日期)摘要隨著互聯(lián)網(wǎng)的日益普及,互聯(lián)網(wǎng)上的信息量也在逐年激增,而這些信息數(shù)據(jù)基本上都是以文本的形式保存的。在這些龐大的數(shù)據(jù)里面,多是一些復(fù)雜的數(shù)據(jù),這也間接的導(dǎo)致了數(shù)據(jù)雖然多,但是想要獲取有效的數(shù)據(jù)信息卻比較困難。文本挖掘技術(shù)便應(yīng)運而生,文本分類是其中的一種重要技術(shù),它可以解決數(shù)據(jù)錯綜復(fù)雜的問題,能夠幫助人們有效的查看處理這些數(shù)據(jù)信息。當然,如果想把待分類的文本分類準確,不僅文本分類算法重要,特征選擇方法也極其重要,其次,挖掘結(jié)果的有效呈現(xiàn)也值得研究。本文主要對文本的特征選擇及其微
5、博文本的挖掘結(jié)果可視化進行了相關(guān)研究。特征選擇方法主要工作就是從待分類的文本數(shù)據(jù)中挑選出對文本分類有代表價值的特征詞項,同時還能夠刪除一些待分類文本中的噪聲詞,從而可以降低文本內(nèi)容的維數(shù)以及把文本的分類準確性提高。而現(xiàn)在的卡方特征選擇方法因為過多的考慮低頻詞的價值而對分類效果造成了一定的影響,所以本文基于χ?特征選擇算法提出了改進的建議,首先將χ?特征選擇算法公式進行簡化,只考慮特征項與文本的正相關(guān)性,負相關(guān)性默認χ?值為零,這樣可以降低機器的計算時間,然后我們引入特征項在某類別出現(xiàn)的總的詞頻數(shù)α作為調(diào)節(jié)參數(shù),這樣就可以用引入的α參數(shù)來消解χ?特征選擇方法對低頻詞的過度倚重的問題。由于
6、微博用戶數(shù)的快速增長,其已經(jīng)成為一個重要的公眾媒介,它不僅是網(wǎng)民從中獲取新聞熱點、實時報道,拓寬視野并且結(jié)交朋友的重要工具,也成為了一個社會公共輿論的重要社交平臺。目前,微博注冊用戶已經(jīng)達到了5億之多,說明微博平臺已經(jīng)在人們的生活中發(fā)揮了越來越大的作用,但是,微博每天產(chǎn)生大量的短文本數(shù)據(jù),如何高效的從這些文本數(shù)據(jù)中進行統(tǒng)計分析,挖掘出有效信息,也是新媒體時代統(tǒng)計工作者的重要課題。在特征選擇方法的基礎(chǔ)之上,本文以安慶師范大學學生會在新浪微博平臺上發(fā)布的信息為例,運用改進的特征選擇方法和權(quán)重公式相結(jié)合,再利用R語言等工具,進行了相關(guān)統(tǒng)計分析,并改進了高頻詞的文字云顯示方式,最后將主題詞以更
7、加直觀的文字云形式展示出來。關(guān)鍵詞:文本分類;特征選擇;低頻詞;TF-IDF;微博;文字云;IABSTRACTWiththeincreasingpopularityoftheInternet,theamountofinformationontheInternetalsoincreasesyearbyyear,andthesedataarebasicallysavedastext.Mostofthesehugedataarecomplex,whi