資源描述:
《textrank關(guān)鍵詞提取算法與som文本聚類(lèi)模型的優(yōu)化研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、'.''‘產(chǎn)-.‘'.'..,/^/....''\■..■■■人';::V'...-...;?...-..'■::.,.;.?....巧古學(xué)位化文TextRank關(guān)鍵詞提取算法與SOM文本.*.I聚類(lèi)模型的優(yōu)化研究-V二’V■^,;..,,V?、,■'一,'1^。V沖護(hù)節(jié).一.‘.',>-.、,V.rV,.3\、|V'‘[',.叫....去.巧:,心;托,■
2、?、’戶;■''.占、':‘■■‘''I■..、.':?..rt.:^:;;'■.■'■--、V-t陳萬(wàn)振爲(wèi)席乂榮—,二〇六年六月..,..;"V6.'.'.、...?-.—.丫I:;如.占V,‘:t.,-'.'1-.'-f■’X.VV.?.N..分類(lèi)號(hào)TP391密級(jí)公開(kāi)UDC碩:t學(xué)位論文TextRank關(guān)鍵詞提取算法與SOM文本聚類(lèi)模型的優(yōu)化
3、研究陳萬(wàn)振學(xué)科專(zhuān)業(yè)計(jì)貸祈應(yīng)用巧乂指導(dǎo)教師蘇一丹教授論文答辯日期2016年5月18號(hào)學(xué)位授予日期2016年6月30日答辯委員會(huì)主席陳友初教授級(jí)高級(jí)工程師廣西大學(xué)學(xué)位論文原創(chuàng)性和使用授權(quán)聲明本人聲明所呈交的論文,是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除已特別加標(biāo)注和致謝的地方外,論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)的研究成果,也不包含本人或他人為獲得廣西大一學(xué)或其它單位的學(xué)位而使用過(guò)的材料。與我同工作的同事對(duì)本論文的研巧工作所做的貢獻(xiàn)均已在論文中作了明確
4、說(shuō)明。本人在導(dǎo)師指導(dǎo)下所完成的學(xué)位論文及相關(guān)的職務(wù)作品,知識(shí)產(chǎn)權(quán)歸屬?gòu)V西大學(xué)。本人授權(quán)廣西大學(xué)擁有學(xué)位論文的部分使用權(quán),即:學(xué)校有權(quán)保存并向國(guó)家有關(guān)部鬥或機(jī)構(gòu)送交學(xué)位論文的復(fù)印件和電子版,允許論文被查閱和借閱,可W將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索和傳播,可W采用影印、縮印或其它復(fù)制手段保存、匯編學(xué)位論文。本學(xué)位論文屬于:□保密,在年解密后適用授權(quán)。;-.f■^^〇1不保密。""(請(qǐng)?jiān)冢咨舷鄳?yīng)方框內(nèi)打V)論文作者簽名:日期:J1指導(dǎo)教師簽名:^日期
5、作者聯(lián)系電話:電子郵箱:TextRank關(guān)鍵詞提取算法與SOM文本聚類(lèi)模型的優(yōu)化硏究摘要互聯(lián)網(wǎng)信息技術(shù)快速發(fā)展,為滿足人們對(duì)浩翰網(wǎng)絡(luò)文本信息的檢索需。求,文本聚類(lèi)逐漸成為人們研巧的焦點(diǎn)在文本聚類(lèi)過(guò)程中,關(guān)鍵詞提?。崳娕c聚類(lèi)算法分析起著至關(guān)重要的作用。為改善的文本聚類(lèi)效果,本文從這兩個(gè)方面展開(kāi)研巧:1.提出改進(jìn)的TextRank關(guān)鍵詞提取算法預(yù)處理文本。將基于滑動(dòng)窗格的詞互信息作為邊權(quán)重加入到TextRank算法的圖模型中,優(yōu)化了TextRank算法中候選詞評(píng)分分配問(wèn)題-。在此基礎(chǔ)
6、上,將候選詞的頂點(diǎn)權(quán)重單文檔詞頻TFTermFreuenc加入到TextRank算法的權(quán)值迭代計(jì)算公式,用詞頻(qy)""一調(diào)整詞的跳轉(zhuǎn)概率,定程度上解決了等概率跳轉(zhuǎn)問(wèn)題。實(shí)驗(yàn)結(jié)果表明:所提算法的準(zhǔn)確率、召回率化及F1值均有提升,算法的迭代計(jì)算效率提升20%;所提取關(guān)鍵詞更能代表文本特征,有助于改善后續(xù)的文本聚類(lèi)效果。2.將貝葉斯正則化理論引入SOM文本聚類(lèi)訓(xùn)練算法,在SOM權(quán)值調(diào)整公式中引入反映網(wǎng)絡(luò)權(quán)值復(fù)雜性的懲罰項(xiàng),避免權(quán)值調(diào)整過(guò)程中出現(xiàn)過(guò)度擬合;利用貝葉斯推理獲取權(quán)值調(diào)整公式中的最優(yōu)
7、超參數(shù),使迭代訓(xùn)練一致過(guò)程中網(wǎng)絡(luò)權(quán)值和輸入樣本的概率分布趨于更,達(dá)到提升SOM文本聚類(lèi)結(jié)果的目的。在UCI和文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明;與傳統(tǒng)的SOM算法相比.5,所提算法的聚類(lèi)凝聚度平均提升了1倍,聚類(lèi)的準(zhǔn)確率亦有提高,聚類(lèi)效果較好。關(guān)鍵詞:文本聚類(lèi);TextRank算法;自組織映射葉斯正則化;貝IRESEARCHONTHEOPTIMIZATIONOFTEXTRANKKEYWORDEXTRACTIONALGORITHMANDSOMTEXTCLUSTERING
8、MODELABSTRACTWiththeraiddevelomentofinternetinformation化chnolotextppgy,’clusterinhasraduallbecomethefocusofeolesresearchinorder化meetggypp化