資源描述:
《基于微博文本的話題聚類研究與實(shí)現(xiàn)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、ClassifiedIndex:TP391UDC:004.4SecrecyRate:PublicizedUniversityCode:10082HebeiUniversityofScienceandTechnologyDissertationfortheMasterDegreeResearchandImplementationofTopicClusteringBasedonMicro--blogTextCandidate:Supervisor:EnterpriseSupervisor:AcademicDegreeApppliedfor:Speciality:Employe
2、r:DateofOralExamination:ShenLinAssociateProf.GaoKaiSeniorEngineerDingBaozhongMasterofEngineeringComputerTechnologySchoolofInformationScience&EngineeringMay,2014河北科技大學(xué)學(xué)位論文原創(chuàng)性聲明YIII12I15II13I4III1II15II攀本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。對本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。除文中已經(jīng)注明引用的內(nèi)容外,
3、本論文不包含任何其他個(gè)人或集體己經(jīng)發(fā)表或撰寫過的作品或成果。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:沈琳指導(dǎo)教師簽名:身弛勁f卑年芎月≯芎日乞矽7牛年廠月z泊;可:ils科技大學(xué)學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)河北科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。口保密,在一年解密后適用本授權(quán)書。本學(xué)位論文屬于均不保密。(請?jiān)谝陨戏娇騼?nèi)打“√”)學(xué)位
4、論文作者簽名:寺紇媯扒勁i夸年5B≯如指導(dǎo)教師簽名∥廠多∥'功r中年妨訴摘要Web2.0技術(shù)的出現(xiàn)推動了大數(shù)據(jù)時(shí)代的到來。以微博為代表的社會網(wǎng)絡(luò)新媒體的興起,在豐富了大數(shù)據(jù)的同時(shí),也給數(shù)據(jù)挖掘和知識發(fā)現(xiàn)帶來了諸多挑戰(zhàn),因?yàn)楹蛡鹘y(tǒng)的文本信息不同,微博信息涉及個(gè)人興趣、娛樂、企業(yè)營銷、公益宣傳等多方面內(nèi)容,且內(nèi)容碎片化,數(shù)據(jù)量龐大。如何有效分析和挖掘其中的信息,成為當(dāng)前一個(gè)重要的研究課題。話題聚類技術(shù)是微博研究的一項(xiàng)基礎(chǔ)工作。它將海量的微博數(shù)據(jù)自動歸類,使話題內(nèi)容相近的微博自動歸為一類。話題聚類結(jié)果可用于深層話題分析與數(shù)據(jù)挖掘。傳統(tǒng)的基于關(guān)鍵字的處理方法可能會返回?cái)?shù)以千百計(jì)的
5、結(jié)果,其內(nèi)容多是重復(fù)性的或關(guān)聯(lián)較小的內(nèi)容,不適合處理上述問題。話題聚類技術(shù)可通過智能處理算法,使內(nèi)容相近的信息自動聚在一起,便于了解該類的主要話題;通過主題詞提取,可使處理結(jié)果更加直觀。本文基于微博文本,通過采用智能處理算法,完成了如下工作:首先,獲取微搏的結(jié)構(gòu)化數(shù)據(jù),完成對微博數(shù)據(jù)的采集以及在聚類前對數(shù)據(jù)的預(yù)處理。第二,完成了針對文本聚類的特征詞選擇,針對微博短文本的特點(diǎn),研究如何有效提取特征詞以及篩選特征詞。第三,設(shè)計(jì)了有效的聚類算法,針對微博短文本,研究何種算法可使微博文本的聚類結(jié)果更好。第四,對聚類結(jié)果集的主題詞進(jìn)行提取,該主題詞可作為可視化話題的主要表達(dá)內(nèi)容。第
6、五,完成了處理結(jié)果的可視化,使結(jié)果更加清晰和直觀,起到了輔助理解數(shù)據(jù)與識別隱藏在數(shù)據(jù)中的規(guī)律的作用。實(shí)驗(yàn)結(jié)果與分析顯示了本文方法的有效性。同時(shí),本文也對可能出現(xiàn)的問題及下一步的研究計(jì)劃進(jìn)行了說明。關(guān)鍵詞話題聚類;微博;特征向量;可視化;信息增益河北科技大學(xué)碩士學(xué)位論文IIAbstractThedevelopmentofWeb2.0technologymakestheeraofbigdatacoming.WiththerapiddevelopmentonsocialnetworksuchaSmicro-blog,itbringsSOmanychallengesondatam
7、iningandknowledgediscovery,althoughthemicro—blogenrichesthebigdata.Comparedwiththetraditionaltextdata,themicro—blogdatahaSsomedifferenceamongthepersonalinterest,entertainment,businessmarketing,andthepublicpublicity,etc.Furthermore,themicro-blogdataalsohasitsownprope