基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究

ID:34626882

大?。?.05 MB

頁數(shù):64頁

時(shí)間:2019-03-08

基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究_第1頁
基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究_第2頁
基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究_第3頁
基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究_第4頁
基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究_第5頁
資源描述:

《基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、西安電子科技大學(xué)學(xué)位論文獨(dú)創(chuàng)性(或創(chuàng)新性)聲明秉承學(xué)校嚴(yán)謹(jǐn)?shù)膶W(xué)風(fēng)和優(yōu)良的科學(xué)道德,本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得西安電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意。申請學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切的法律責(zé)任。本人簽名:怨睦_日期2蟬朝f四關(guān)于論文使

2、用授權(quán)的說明本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬西安電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)校可以公布論文的全部或部分內(nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存論文。同時(shí)本人保證,畢業(yè)后結(jié)合學(xué)位論文研究課題再攥寫的文章一律署名單位為西安電子科技大學(xué)。(保密的論文在解密后遵守此規(guī)定)本人簽名:恤導(dǎo)師簽名:日期型型幽幽日期蚴腿摘要在信息爆炸時(shí)代,信息量呈幾何級數(shù)增長。面對海量文本,如何快速掌握某篇文章的

3、主題、把握作者思想,成為節(jié)約讀者時(shí)間、提高閱讀速度的關(guān)鍵問題。關(guān)鍵詞作為文章主題和作者思想的體現(xiàn)能夠有效解決該問題。然而,網(wǎng)絡(luò)上的絕大部分文章并未提供關(guān)鍵詞,如果對這些文本采取人工標(biāo)引的方法進(jìn)行關(guān)鍵詞標(biāo)注,不僅費(fèi)時(shí)費(fèi)力、效率低下,而且主觀隨意性比較大。因此,關(guān)鍵詞自動(dòng)提取的研究具有重要的現(xiàn)實(shí)意義。傳統(tǒng)的關(guān)鍵詞提取算法只注重文檔的表層統(tǒng)計(jì)特性(如詞頻、詞語位置、詞語長度等),忽略文檔的語義信息和結(jié)構(gòu)信息,導(dǎo)致關(guān)鍵詞語義和結(jié)構(gòu)信息的缺失。而現(xiàn)有基于詞語網(wǎng)絡(luò)的關(guān)鍵詞提取算法,雖然在一定程度上利用了文檔的結(jié)

4、構(gòu)信息,但語義信息的利用依然不足,并且網(wǎng)絡(luò)的構(gòu)造過程過分依賴于分詞的粒度。針對上述問題,本文對基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取進(jìn)行了研究。首先針對傳統(tǒng)詞語網(wǎng)絡(luò)構(gòu)造過程中過分依賴分詞粒度的不足,提出一種鄰近名詞合并的算法,在ICTCLAS初步分詞的基礎(chǔ)上利用提出的鄰近詞合并算法識別出名詞短語,并將短語添加到分詞詞典中,然后對待處理文檔重新進(jìn)行分詞;其次針對傳統(tǒng)詞語網(wǎng)絡(luò)語義缺失的問題,在文本復(fù)雜網(wǎng)絡(luò)的構(gòu)建過程中利用知網(wǎng)對網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行語義標(biāo)注,為詞語網(wǎng)絡(luò)加入語義信息,然后利用改進(jìn)的語義相似度計(jì)算方法計(jì)算節(jié)點(diǎn)間的相

5、似度,合并相似節(jié)點(diǎn);再次,在節(jié)點(diǎn)重要度計(jì)算過程中,提出一種綜合考慮網(wǎng)絡(luò)節(jié)點(diǎn)介數(shù)和節(jié)點(diǎn)加權(quán)中心度的綜合權(quán)值公式。最后,根據(jù)提出的算法流程,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取的原型系統(tǒng),并對本文提出的各種算法進(jìn)行了對比實(shí)驗(yàn),結(jié)果表明本文提出的關(guān)鍵詞提取方法獲得了更好的抽取效果。關(guān)鍵詞:關(guān)鍵詞提取文本復(fù)雜網(wǎng)絡(luò)語義相似度鄰近詞合并AbstractIntheeraofinformationexplosion,theamountofinformationisgrowingexponentially.Int

6、hefaceofsuchvastamountoftext,howtoquicklymasterthesubjectofthearticleandgrasptheauthor’Sthoughthasbecomethekeyissuestosavereader'stimeandtoimprovereadingspeed.Keywordsastheembodimentofthethemeandtheauthorthoughtcanbeaneffectivesolutiontotheproblem.Howe

7、vermostoftheonlinearticlesdidnotprovidekeywords.Inaddition,manualannotationofbigamountoftextcontentisnotonlytime-consuming,inefficient,butalsoarbitrary.Therefore,thestudyonthekeywordautomaticextractionhasimportantpracticalsignificance.Traditionalkeywor

8、dextractionalgorithmfocusesonlyonthestatisticalpropertiesofthesurfaceofthedocuments(suchaswordfrequency,wordposition,wordlength,etc.),andignoresthesemanticinformationandstructureinformation,whichresultinthelackofsemanticandstructuralinf

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。
关闭