基于隨機(jī)游走的微博數(shù)據(jù)社團(tuán)挖掘與分析

基于隨機(jī)游走的微博數(shù)據(jù)社團(tuán)挖掘與分析

ID:33532299

大?。?.05 MB

頁數(shù):54頁

時(shí)間:2019-02-26

基于隨機(jī)游走的微博數(shù)據(jù)社團(tuán)挖掘與分析_第1頁
基于隨機(jī)游走的微博數(shù)據(jù)社團(tuán)挖掘與分析_第2頁
基于隨機(jī)游走的微博數(shù)據(jù)社團(tuán)挖掘與分析_第3頁
基于隨機(jī)游走的微博數(shù)據(jù)社團(tuán)挖掘與分析_第4頁
基于隨機(jī)游走的微博數(shù)據(jù)社團(tuán)挖掘與分析_第5頁
資源描述:

《基于隨機(jī)游走的微博數(shù)據(jù)社團(tuán)挖掘與分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、萬方數(shù)據(jù)西安電子科技大學(xué)學(xué)位論文獨(dú)創(chuàng)性(或創(chuàng)新性)聲明秉承學(xué)校嚴(yán)謹(jǐn)?shù)膶W(xué)風(fēng)和優(yōu)良的科學(xué)道德,本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得西安電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同事對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。學(xué)位論文若有不實(shí)之處,本人承擔(dān)一切法律責(zé)任。本人簽名:日期:西安電子科技大學(xué)關(guān)于論文使用授權(quán)的說明本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在

2、校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)屬于西安電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱、借閱論文;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,允許采用影印、縮印或其它復(fù)制手段保存論文。同時(shí)本人保證,結(jié)合學(xué)位論文研究成果完成的論文、發(fā)明專利等成果,署名單位為西安電子科技大學(xué)。保密的學(xué)位論文在年解密后適用本授權(quán)書。本人簽名:導(dǎo)師簽名:日期:日期:萬方數(shù)據(jù)萬方數(shù)據(jù)摘要摘要近年來,社交媒體的快速發(fā)展極大程度上影響了人們的日常生活和信息分享方式,特別是新浪微博這類社交媒體的興起,使得傳統(tǒng)人際交往從線下方式轉(zhuǎn)移到線上,大量用戶的使用,產(chǎn)生了豐富的用戶行為數(shù)據(jù),這些數(shù)據(jù)對(duì)用戶推薦、電子商務(wù)研究起

3、到強(qiáng)大的推動(dòng)作用,微博數(shù)據(jù)社團(tuán)挖掘就是其中一項(xiàng)重要工作。目前社團(tuán)挖掘研究多應(yīng)用于生物網(wǎng)絡(luò)、社交網(wǎng)絡(luò)數(shù)據(jù),而這些方法更多用于挖掘基于拓?fù)浣Y(jié)構(gòu)、控制關(guān)系等的節(jié)點(diǎn)集合,但微博數(shù)據(jù)有著自己獨(dú)特的屬性和研究背景:微博數(shù)據(jù)中話題熱度服從典型冪律分布,這使得傳統(tǒng)方法應(yīng)用于微博數(shù)據(jù)存在無法挖掘真正需要推薦的話題,這是目前微博網(wǎng)絡(luò)社團(tuán)挖掘的根本問題。由于熱點(diǎn)話題對(duì)用戶并不具有良好的區(qū)分度,在社團(tuán)挖掘過程中會(huì)影響用戶傾向于加入熱點(diǎn)話題的所屬社團(tuán),本文通過分析話題熱度分布,發(fā)現(xiàn)大部分的熱點(diǎn)話題并不能對(duì)用戶的個(gè)性化區(qū)分產(chǎn)生積極影響,所以將TF-IDF引入用戶-話題關(guān)系更新其權(quán)重,增加具有較高區(qū)分度的話

4、題權(quán)重,這使得挖掘的社團(tuán)更傾向于真正重要的話題及潛在推薦用戶。本文根據(jù)微博網(wǎng)絡(luò)用戶興趣和社交互動(dòng)的多樣性,在以用戶和話題為結(jié)點(diǎn)的話題網(wǎng)絡(luò)中挖掘重疊社團(tuán)結(jié)構(gòu)。由于該網(wǎng)絡(luò)中同時(shí)存在用戶-用戶結(jié)構(gòu)邊和用戶-話題屬性邊,引入重啟隨機(jī)游走算法將結(jié)構(gòu)邊與屬性邊統(tǒng)一起來,使得可以在異質(zhì)網(wǎng)絡(luò)中進(jìn)行傳統(tǒng)社團(tuán)挖掘。為了對(duì)比分析加入不同信息對(duì)社團(tuán)結(jié)構(gòu)的影響,構(gòu)建三個(gè)不同的話題網(wǎng)絡(luò),分別為結(jié)構(gòu)邊(用戶關(guān)注與共同關(guān)注)和屬性邊、結(jié)構(gòu)邊(用戶關(guān)注)和屬性邊(TF-IDF)、結(jié)構(gòu)邊(用戶關(guān)注與共同關(guān)注)和屬性邊(TF-IDF),并在這三個(gè)網(wǎng)絡(luò)上進(jìn)行重疊社團(tuán)挖掘,從不同角度分析得到的社團(tuán)結(jié)構(gòu)。在真實(shí)的微博數(shù)據(jù)

5、上做了實(shí)驗(yàn)仿真,完成了分詞、話題提取系統(tǒng)。實(shí)驗(yàn)結(jié)果表明用戶傾向于基于不同的興趣形成不同的社交圈,不同信息的引入也會(huì)對(duì)社團(tuán)的形成產(chǎn)生影響,證實(shí)引入TF-IDF修正可以對(duì)社團(tuán)挖掘產(chǎn)生有效的引導(dǎo),該方法框架能夠高效合理的刻畫數(shù)據(jù)集包含的重疊社團(tuán)結(jié)構(gòu),并具有良好的可解釋性。關(guān)鍵字:微博網(wǎng)絡(luò),話題,TF-IDF,重疊社團(tuán),隨機(jī)游走I萬方數(shù)據(jù)西安電子科技大學(xué)碩士學(xué)位論文II萬方數(shù)據(jù)ABSTRACTABSTRACTInrecentyears,therapiddevelopmentofsocialmediahaveagreatinfluenceonthepeople'sdailylivesan

6、dthewayofsharinginformation,especiallytheriseofSinaWeibo,thetraditionalinterpersonalcommunicationshiftfromofflinetoonline,alargenumberofusersgeneraterichuserbehaviordata,whichpromotetheresearchofuserrecommendationande-commerce,communityminingonbloggingdataisoneoftheimportantwork.Atpresent,co

7、mmunitiesminingismoreusedonbiologicalnetworksorsocialnetwork,themethodsonthosenetworksismorelikelytofindsetofnodesbasedontopologyorcontrolrelationship,butbloggingdatahasitsownuniqueattributesandbackground:Topicinbloggingdataistypicalobeypowerlawdis

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。