資源描述:
《基于k-means的微博短文本聚類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、學校代碼:10589學號1210002:1308002I:密級:分類號J緣潔乂書碩±學位論文題目-means:暮于K的微博短文本聚類算法研究作者;林紅靜指導教師:黃夢醒教授專業(yè):計算機科學與技術(shù)時間二0—六年五月:—ResearchofWe化0TextClust:eringAlorithmbasedongK-meansAThesisSubmittedinPartialFulfillmentoftheReuirementqFo
2、"heMasterDegreeinInformationScience&TechnologyBy-LinHoningjgSuervMen-xpisor:HuanginggMaor:ComuterScience&TechnolojpgySubmittedtime:Ma2016y,海南大學學位論文原創(chuàng)聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重聲明,是本人在導師的指導下,獨立進行研究工:所呈交的學位論文作所取得的成果。除文中己經(jīng)注巧引用的內(nèi)容外,本論文不含任何其他個人或集體已經(jīng)發(fā)表
3、或撰寫過的作品或成果。對本文的研巧做出重要貢獻的個人和集體,均己在文中明確方式標明。本聲明的法律結(jié)果由本人承擔。論文作者簽名:日期:年J月本T日學位論文巧權(quán)使用授權(quán)說明本人完全了解海南大學關(guān)于收集、、保存使用學位論文的規(guī)定,即;學校有枚保留并向國家有關(guān)部口或機構(gòu)送交論文的復印件和電子脫允許論文被査閱和借閱。學??桑椋欤欤逓榇嬖谇呻H合作關(guān)系兄弟巧校用戶提供文獻傳遞服務(wù)和交換巧務(wù)?本人授權(quán)i海南大學可?。迣⒈緦W位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫迸行檢索,可?。蓿觳捎糜埃崳娗?。、縮印或掃描等復制手段保存和匯編本學位論文
4、,保密論文在解密后遵守此規(guī)定。'r4:論文作者簽名:導師簽名日期:年r月聲日日期:年月日>(/""本人已經(jīng)認真閱讀CALIS高校學位論文全文數(shù)據(jù)庫發(fā)布韋程,同意將本人的學""""位論文提交CAUS離校學位論文全文數(shù)據(jù)庫中全文發(fā)布,并可按章程中規(guī)定□一年享受相關(guān)權(quán)益。同寅論義提交后滯后:□半年::□二年發(fā)布。*一論文作者簽名:祇名:;導師簽日期:別化年i月永日日期:年月日摘要隨著互聯(lián)網(wǎng)科技的高速發(fā)展,各種社交媒體應(yīng)運而生,如貼化、QQ、微信、微。博等,并迅速誠入人們的社會生活其中,微博
5、因其獨特的傳播機制,發(fā)展最為快速,其用戶規(guī)模已呈現(xiàn)出爆炸式増長的趨勢。大量的數(shù)據(jù)是微博從規(guī)模到用戶全面發(fā)展的必然結(jié)果。這些數(shù)據(jù)由于與用戶曰常行為、偏好、習慣直接關(guān)聯(lián),從而蘊含了大量的、潛在的、有價值的信息。面對這些。大規(guī)模的用戶數(shù)據(jù),如何利用其得到能夠直接變現(xiàn)的信息成了迫切需要解決的問題而微博數(shù)據(jù)的獲取是探索虛擬社會的人群社交結(jié)構(gòu)網(wǎng)絡(luò)、信息傳播的內(nèi)在規(guī)律、了解用戶的行為偏好的前提條件與支撐。因為微博用戶規(guī)模大、數(shù)據(jù)流量大,如何從。信息爆炸的微博網(wǎng)站中高效的獲取微博數(shù)據(jù),成為研巧微博信息的首要問題綜上所述,本文通
6、過對微博信息抓取技術(shù)的分析與研巧,提出了基于微博信息的主題網(wǎng)絡(luò)爬蟲,并高效地獲取了微博數(shù)據(jù):然后將微博數(shù)據(jù)巧W空間向量的形式進行、、表示,在此基礎(chǔ)上結(jié)合K均值算法進行聚類分析,從而得到用戶的習慣偏好行為、社交等多種數(shù)據(jù)。本文的主要貢獻如下所示:1關(guān)鍵詞庫的構(gòu)建:提出了基于微博信息的關(guān)鍵詞庫爬蟲策略,并設(shè)計了實驗)系統(tǒng)KeysL化,該策略包括W下五大階段為:樣本選取策略、抓取詞庫樣本、樣本數(shù)據(jù)預處理、特征詞提?。准皹?gòu)建關(guān)鍵詞庫。:巧主題網(wǎng)絡(luò)爬蟲的改善提出了基于微博信息的爬蟲策略,利用關(guān)鍵詞庫在傳:統(tǒng)的主題網(wǎng)絡(luò)爬蟲
7、的基礎(chǔ)上進行完善,實驗結(jié)果顯示該策略有效的提高了獲取信息的準確率和覆蓋率。-mens3K均值聚類算法(Ka)的改進:本文使用增量聚類技術(shù)修改了K均值)算法,解決了傳統(tǒng)的K均值算法對聚類初始化狀態(tài)空間值敏感的難題。-mns算法關(guān)鍵詞:VSMK微博;關(guān)鍵詞庫;主題爬蟲;模型;eaABSTRACT-theiseeddeveomenofInterne:echnoloalkinsofsociamedaasesWithhghltttgyldliripp,atthehistoricmomentsu
8、chastheostbarWeChatWe化0etcanduicklinto,.,pQQ,,,,qy'eolessociallife.