資源描述:
《基于微博的意見領(lǐng)袖挖掘算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號(hào):TP301.6UDC:密級(jí):碩士學(xué)位論文(學(xué)術(shù)學(xué)位)基于微博的意見領(lǐng)袖挖掘算法研究Researchonalgorithmsofminingopinionleadersbasedonmicro-blog論文作者:黎吾鑫指導(dǎo)教師:王新教授學(xué)位類別:理學(xué)碩士專業(yè)名稱:基礎(chǔ)數(shù)學(xué)研究方向:智能計(jì)算培養(yǎng)單位:數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院二〇一六年五月分類號(hào):TP301.6UDC:密級(jí):基于微博的意見領(lǐng)袖挖掘算法研究Researchonalgorithmsofminingopinionleadersbasedonmicro-blog論文作者:黎吾鑫指導(dǎo)教師:王新教授學(xué)位類別
2、:理學(xué)碩士專業(yè)名稱:基礎(chǔ)數(shù)學(xué)研究方向:智能計(jì)算培養(yǎng)單位:數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個(gè)人或集體己經(jīng)發(fā)表或撰寫過的作晶成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均己在文中W明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。論文作者簽名;^簽字日期年S怕曰(關(guān)于論文使用授權(quán)的說明目P學(xué)位論文作者完全了解云南民族大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,;研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬
3、云南民族大學(xué)。學(xué)校有權(quán)保留并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許學(xué)位論文被查閱和借閱、縮印或其;學(xué)校可公布學(xué)位論文的全部或部分內(nèi)容,可允許采用影印它復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后遵守此規(guī)定)學(xué)位論文作者簽名;簽字曰期:知sh貼婦導(dǎo)師簽名:?簽字日期如摘要摘要目前,對(duì)于微博用戶領(lǐng)域的意見領(lǐng)袖挖掘多以用戶屬性關(guān)系、網(wǎng)絡(luò)傳播以及文本信息交互這三個(gè)方面進(jìn)行單領(lǐng)域的研究,但是三者沒有真正得到有效的融合,缺乏結(jié)合微博文本情感的研究,同時(shí)研究多采用靜態(tài)分析的方法。本文針對(duì)研究中存在的不足,從用戶屬性、微博信
4、息傳播規(guī)律及微博文本情感傾向角度出發(fā),分別對(duì)意見領(lǐng)袖挖掘的相關(guān)問題進(jìn)行了研究,并提出以下算法:第一,基于改進(jìn)后的TFN-AHP的微博用戶屬性特征提取算法。該算法通過構(gòu)造模糊精度矩陣和采用閉區(qū)間[0,1]的實(shí)數(shù)作為模糊判斷矩陣標(biāo)度值,避免了傳統(tǒng)TFN-AHP算法中將某一屬性特征權(quán)重武斷判定為0的錯(cuò)誤;同時(shí)使用可控迭4代精度的迭代方法計(jì)算特征向量,使算法的時(shí)間復(fù)雜度從傳統(tǒng)的On()降低為2On(),并基于該算法提取了微博用戶屬性特征向量。第二,基于微博信息傳播的微博用戶影響力分析算法。算法通過大量數(shù)據(jù)研究微博信息的傳播規(guī)律,以微博被轉(zhuǎn)發(fā)和被評(píng)論的累積數(shù)量為微博傳播
5、能力的衡量指標(biāo),以微博傳播為用戶影響力擴(kuò)散的載體,建立了微博用戶影響力隨微博傳播時(shí)間變化成指數(shù)截?cái)嘈缘膬缏煞植嫉乃惴P?,?shí)現(xiàn)了對(duì)用戶影響力的動(dòng)態(tài)研究,并通過實(shí)驗(yàn)發(fā)現(xiàn)微博熱度和微博用戶屬性值對(duì)用戶影響力有決定作用。第三,基于詞性標(biāo)注序列模式匹配的微博情感傾向度算法(簡稱POSTSPM算法)。算法將微博文本看作由若干單詞組成的有序詞性序列組合,在對(duì)序列進(jìn)行詞性標(biāo)注和化簡的基礎(chǔ)上,保留了決定情感傾向的詞性序列,并結(jié)合HowNet情感分析詞集,通過采用滑動(dòng)窗口規(guī)則對(duì)詞性標(biāo)注序列依次進(jìn)行模式匹配,最終得到整段微博文本的情感傾向度,且準(zhǔn)確率較高。最后,考慮微博意見領(lǐng)袖的
6、動(dòng)態(tài)變化,結(jié)合上述三種算法提出了在特定話題下基于時(shí)間窗口的微博意見領(lǐng)袖挖掘算法,該算法將話題下微博持續(xù)討論的時(shí)間周期劃分成若干連續(xù)的子窗口,根據(jù)微博用戶在每個(gè)子窗口內(nèi)的影響力排名和微博文本情感傾向綜合篩選出最終的意見領(lǐng)袖,所得結(jié)果較好,可以運(yùn)用于微博意見領(lǐng)袖挖掘。關(guān)鍵詞:模糊層次分析法;微博熱度;詞性標(biāo)注序列;時(shí)間窗口;意見領(lǐng)袖挖掘IIIAbstractAbstractAtpresent,mostofresearchesonmicrobloggingopinionleadersaresimplexinsteadofeffectivelycompoundrese
7、archwhichincludesusers’attribute-relationship,thenetworktransmissionandtextinformationinteractionaswellasthestudyofrelationshipbetweenopinionleadersandtheiremotiontendency.Mostoftherecentresearchesadoptstaticanalysiswhichisnotabletomeetthedynamicchangeofopinionleadersovertime.Aiming
8、attheshortcomingsof