基于微博文本的話題聚類研究與實(shí)現(xiàn)

基于微博文本的話題聚類研究與實(shí)現(xiàn)

ID:33759996

大?。?.54 MB

頁數(shù):63頁

時(shí)間:2019-02-28

基于微博文本的話題聚類研究與實(shí)現(xiàn)_第1頁
基于微博文本的話題聚類研究與實(shí)現(xiàn)_第2頁
基于微博文本的話題聚類研究與實(shí)現(xiàn)_第3頁
基于微博文本的話題聚類研究與實(shí)現(xiàn)_第4頁
基于微博文本的話題聚類研究與實(shí)現(xiàn)_第5頁
資源描述:

《基于微博文本的話題聚類研究與實(shí)現(xiàn)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、ClassifiedIndex:TP391UDC:004.4SecrecyRate:PublicizedUniversityCode:10082HebeiUniversityofScienceandTechnologyDissertationfortheMasterDegreeResearchandImplementationofTopicClusteringBasedonMicro--blogTextCandidate:Supervisor:EnterpriseSupervisor:AcademicDegreeApppliedfor:Speciality:Employe

2、r:DateofOralExamination:ShenLinAssociateProf.GaoKaiSeniorEngineerDingBaozhongMasterofEngineeringComputerTechnologySchoolofInformationScience&EngineeringMay,2014河北科技大學(xué)學(xué)位論文原創(chuàng)性聲明YIII12I15II13I4III1II15II攀本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。對本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。除文中已經(jīng)注明引用的內(nèi)容外,

3、本論文不包含任何其他個(gè)人或集體己經(jīng)發(fā)表或撰寫過的作品或成果。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:沈琳指導(dǎo)教師簽名:身弛勁f卑年芎月≯芎日乞矽7牛年廠月z泊;可:ils科技大學(xué)學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)河北科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。口保密,在一年解密后適用本授權(quán)書。本學(xué)位論文屬于均不保密。(請?jiān)谝陨戏娇騼?nèi)打“√”)學(xué)位

4、論文作者簽名:寺紇媯扒勁i夸年5B≯如指導(dǎo)教師簽名∥廠多∥'功r中年妨訴摘要Web2.0技術(shù)的出現(xiàn)推動了大數(shù)據(jù)時(shí)代的到來。以微博為代表的社會網(wǎng)絡(luò)新媒體的興起,在豐富了大數(shù)據(jù)的同時(shí),也給數(shù)據(jù)挖掘和知識發(fā)現(xiàn)帶來了諸多挑戰(zhàn),因?yàn)楹蛡鹘y(tǒng)的文本信息不同,微博信息涉及個(gè)人興趣、娛樂、企業(yè)營銷、公益宣傳等多方面內(nèi)容,且內(nèi)容碎片化,數(shù)據(jù)量龐大。如何有效分析和挖掘其中的信息,成為當(dāng)前一個(gè)重要的研究課題。話題聚類技術(shù)是微博研究的一項(xiàng)基礎(chǔ)工作。它將海量的微博數(shù)據(jù)自動歸類,使話題內(nèi)容相近的微博自動歸為一類。話題聚類結(jié)果可用于深層話題分析與數(shù)據(jù)挖掘。傳統(tǒng)的基于關(guān)鍵字的處理方法可能會返回?cái)?shù)以千百計(jì)的

5、結(jié)果,其內(nèi)容多是重復(fù)性的或關(guān)聯(lián)較小的內(nèi)容,不適合處理上述問題。話題聚類技術(shù)可通過智能處理算法,使內(nèi)容相近的信息自動聚在一起,便于了解該類的主要話題;通過主題詞提取,可使處理結(jié)果更加直觀。本文基于微博文本,通過采用智能處理算法,完成了如下工作:首先,獲取微搏的結(jié)構(gòu)化數(shù)據(jù),完成對微博數(shù)據(jù)的采集以及在聚類前對數(shù)據(jù)的預(yù)處理。第二,完成了針對文本聚類的特征詞選擇,針對微博短文本的特點(diǎn),研究如何有效提取特征詞以及篩選特征詞。第三,設(shè)計(jì)了有效的聚類算法,針對微博短文本,研究何種算法可使微博文本的聚類結(jié)果更好。第四,對聚類結(jié)果集的主題詞進(jìn)行提取,該主題詞可作為可視化話題的主要表達(dá)內(nèi)容。第

6、五,完成了處理結(jié)果的可視化,使結(jié)果更加清晰和直觀,起到了輔助理解數(shù)據(jù)與識別隱藏在數(shù)據(jù)中的規(guī)律的作用。實(shí)驗(yàn)結(jié)果與分析顯示了本文方法的有效性。同時(shí),本文也對可能出現(xiàn)的問題及下一步的研究計(jì)劃進(jìn)行了說明。關(guān)鍵詞話題聚類;微博;特征向量;可視化;信息增益河北科技大學(xué)碩士學(xué)位論文IIAbstractThedevelopmentofWeb2.0technologymakestheeraofbigdatacoming.WiththerapiddevelopmentonsocialnetworksuchaSmicro-blog,itbringsSOmanychallengesondatam

7、iningandknowledgediscovery,althoughthemicro—blogenrichesthebigdata.Comparedwiththetraditionaltextdata,themicro—blogdatahaSsomedifferenceamongthepersonalinterest,entertainment,businessmarketing,andthepublicpublicity,etc.Furthermore,themicro-blogdataalsohasitsownprope

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。