資源描述:
《文本特征選擇算法研究及其在微博上的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、.‘‘.'‘^=占..-女/,人.;/';vv.yr巧’。、八‘.如..呼聽.f;H;-■、。'■心-.’、.人‘-..^::v;.y:》^^■分類號(hào)I學(xué)校代碼10372-i,詩(shī).、::,[/J.本枯.%,廣心考作場(chǎng)餐慶卸藏丈聲域.‘,f碩±學(xué)位論文博.?與1’''''-..r:打..-I坤,./i;文本特征選擇算法研究及其在微博上的應(yīng)用;一;.,巧^'■*-'''‘,v,-i-V\'■-■、.’'\.n;..i\,jv車又作者姓名、.
2、:任勇‘,?。櫄舛牡谋妫崳妼W(xué)號(hào):Yl369〇〇〇4給苗7於、帥‘戶‘令t學(xué)科專業(yè);嗎茲:統(tǒng)計(jì)學(xué)議1起懼論;弓4‘、沁.;,.p研究方向:統(tǒng)計(jì)學(xué)習(xí)與預(yù)測(cè)V.,喪巧’壞導(dǎo)師及職稱:程玉勝教授..雜1.、嫁導(dǎo)^^簿/韋;2016年6.論文答辯日期月;'授予學(xué)位曰期-:2〇16年6月,—i;咬;知1識(shí)1''.球.#識(shí)%.X滅.、八‘I'、^I^.V;.《,V,'苗咬’’—A安慶師范大學(xué)碩去學(xué)位評(píng)定委員會(huì)辦公室‘^1.‘八V'’、.;,、.V.巧.八’i■-t.‘^.‘:';-'"、
3、‘、、^'.,.:..L.;v^’,—v.^;.^乂^:,'譜‘.t。—'姑r*.-;;:...-i.,V;r.rVv;H;,;帝V>義7:的;^安慶師范大學(xué)碩士學(xué)位論文題目:(文本特征選擇算法研究及其在微博上的應(yīng)用)Subject:(Researchontextfeatureselectionalgorithmanditsapplicationinmicro-blog)作者姓名:任勇學(xué)號(hào):Y13690004學(xué)科專業(yè):統(tǒng)計(jì)學(xué)研究方向:統(tǒng)計(jì)學(xué)習(xí)與預(yù)測(cè)導(dǎo)師及職稱:程玉勝教授論文答辯日期:2016年6月授予學(xué)位日期:2016年6月安慶師范大學(xué)學(xué)位評(píng)定委
4、員會(huì)辦公室文本特征選擇算法研究及其在微博上的應(yīng)用任勇安慶師范大學(xué)碩士學(xué)位論文2016年5月26日(論文提交日期)摘要隨著互聯(lián)網(wǎng)的日益普及,互聯(lián)網(wǎng)上的信息量也在逐年激增,而這些信息數(shù)據(jù)基本上都是以文本的形式保存的。在這些龐大的數(shù)據(jù)里面,多是一些復(fù)雜的數(shù)據(jù),這也間接的導(dǎo)致了數(shù)據(jù)雖然多,但是想要獲取有效的數(shù)據(jù)信息卻比較困難。文本挖掘技術(shù)便應(yīng)運(yùn)而生,文本分類是其中的一種重要技術(shù),它可以解決數(shù)據(jù)錯(cuò)綜復(fù)雜的問題,能夠幫助人們有效的查看處理這些數(shù)據(jù)信息。當(dāng)然,如果想把待分類的文本分類準(zhǔn)確,不僅文本分類算法重要,特征選擇方法也極其重要,其次,挖掘結(jié)果的有效呈現(xiàn)也值得研究。本文主要對(duì)文本的特征選擇及其微
5、博文本的挖掘結(jié)果可視化進(jìn)行了相關(guān)研究。特征選擇方法主要工作就是從待分類的文本數(shù)據(jù)中挑選出對(duì)文本分類有代表價(jià)值的特征詞項(xiàng),同時(shí)還能夠刪除一些待分類文本中的噪聲詞,從而可以降低文本內(nèi)容的維數(shù)以及把文本的分類準(zhǔn)確性提高。而現(xiàn)在的卡方特征選擇方法因?yàn)檫^多的考慮低頻詞的價(jià)值而對(duì)分類效果造成了一定的影響,所以本文基于χ?特征選擇算法提出了改進(jìn)的建議,首先將χ?特征選擇算法公式進(jìn)行簡(jiǎn)化,只考慮特征項(xiàng)與文本的正相關(guān)性,負(fù)相關(guān)性默認(rèn)χ?值為零,這樣可以降低機(jī)器的計(jì)算時(shí)間,然后我們引入特征項(xiàng)在某類別出現(xiàn)的總的詞頻數(shù)α作為調(diào)節(jié)參數(shù),這樣就可以用引入的α參數(shù)來消解χ?特征選擇方法對(duì)低頻詞的過度倚重的問題。由于
6、微博用戶數(shù)的快速增長(zhǎng),其已經(jīng)成為一個(gè)重要的公眾媒介,它不僅是網(wǎng)民從中獲取新聞熱點(diǎn)、實(shí)時(shí)報(bào)道,拓寬視野并且結(jié)交朋友的重要工具,也成為了一個(gè)社會(huì)公共輿論的重要社交平臺(tái)。目前,微博注冊(cè)用戶已經(jīng)達(dá)到了5億之多,說明微博平臺(tái)已經(jīng)在人們的生活中發(fā)揮了越來越大的作用,但是,微博每天產(chǎn)生大量的短文本數(shù)據(jù),如何高效的從這些文本數(shù)據(jù)中進(jìn)行統(tǒng)計(jì)分析,挖掘出有效信息,也是新媒體時(shí)代統(tǒng)計(jì)工作者的重要課題。在特征選擇方法的基礎(chǔ)之上,本文以安慶師范大學(xué)學(xué)生會(huì)在新浪微博平臺(tái)上發(fā)布的信息為例,運(yùn)用改進(jìn)的特征選擇方法和權(quán)重公式相結(jié)合,再利用R語言等工具,進(jìn)行了相關(guān)統(tǒng)計(jì)分析,并改進(jìn)了高頻詞的文字云顯示方式,最后將主題詞以更
7、加直觀的文字云形式展示出來。關(guān)鍵詞:文本分類;特征選擇;低頻詞;TF-IDF;微博;文字云;IABSTRACTWiththeincreasingpopularityoftheInternet,theamountofinformationontheInternetalsoincreasesyearbyyear,andthesedataarebasicallysavedastext.Mostofthesehugedataarecomplex,whi