資源描述:
《基于組合詞和同義詞集的關(guān)鍵詞提取算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第27卷第8期計算機應(yīng)用研究Vol.27No.82010年8月ApplicationResearchofComputersAug.2010*基于組合詞和同義詞集的關(guān)鍵詞提取算法蔣昌金,彭宏,陳建超,馬千里,嚴桂奪(華南理工大學(xué)計算機科學(xué)與工程學(xué)院,廣州510640)摘要:為了提高關(guān)鍵詞的提取準確率,在對現(xiàn)有關(guān)鍵詞抽取方法進行研究的基礎(chǔ)之上,針對影響關(guān)鍵詞提取準確率的分詞技術(shù)、同義詞現(xiàn)象等難點,提出了一種基于組合詞和同義詞集的關(guān)鍵詞提取算法。該算法首先利用組合詞識別算法極大地改進分詞效果,能識別網(wǎng)頁上絕大多數(shù)的新詞、未登錄詞,為提高關(guān)鍵詞自動抽取準確率奠定了堅實的基礎(chǔ);同時
2、利用構(gòu)造的同義詞集,合并同義詞的詞頻,避免了同義詞在輸出結(jié)果中同現(xiàn);利用綜合評分公式,充分考慮候選關(guān)鍵詞的位置、長度、詞性等特性。實驗數(shù)據(jù)表明,該方法有較高的提取準確率。關(guān)鍵詞:組合詞;同義詞集;中文網(wǎng)頁;關(guān)鍵詞提取中圖分類號:TP391.1文獻標志碼:A文章編號:1001-3695(2010)08-2853-04doi:10.3969/j.issn.1001-3695.2010.08.010KeywordsextractionalgorithmbasedoncombinedwordandsynsetJIANGChang-jin,PENGHong,CHENJian-cha
3、o,MAQian-li,YANGui-duo(SchoolofComputerScience&Engineering,SouthChinaUniversityofTechnology,Guangzhou510640,China)Abstract:ThispaperpresentedaChinesewebpagekeywordsextractionalgorithmafterthestudyofexistingtechniquesforkeywordextraction.Thepresentedapproachcouldextremelyimprovetheperforma
4、nceofChinesewordsegmentationsystem.ThemodifiedChinesewordsegmentationsystemcouldrecognisemostofnewterms,phrasesandnon-loginwordsinChinesewebpageandthisisvitallyimportantforChinesekeywordextraction.Moreover,constructedasynsetdatabaseandusedaddingthefrequenciesofsynonymstogether,avoidingthe
5、co-occurrenceofsynonymsinoutput.Furthermore,createdaeva-luationfunctiontoscorecandidatekeywordbasedonitslocation,length,part-of-speech.Theexperimentresultsshowthattheproposedalgorithmhasbetterperformancecomparedwiththetraditionalkeywordextractionalgorithms.Keywords:combinedword;synset;Chi
6、nesewebpage;keywordextraction[2]標引。0引言國外對于關(guān)鍵詞的自動抽取的研究起步較早,已經(jīng)建立了[3]網(wǎng)絡(luò)上文本信息的爆炸式增長,使得手工獲取所需的文本一些實驗或?qū)嵱孟到y(tǒng)。Turney設(shè)計的GenEx系統(tǒng)將一篇文信息的難度日益增大。因此,怎樣方便、快捷、準確、自動地獲章看做一個短語集合,將遺傳算法和C4.5決策樹歸納算法用[4]取這些文本的關(guān)鍵信息就變得異常重要。于關(guān)鍵短語的抽取。Witten等人開發(fā)了KEA系統(tǒng),該系統(tǒng)關(guān)鍵詞是為了文獻標引工作從報告、論文中選取出來用于采用樸素貝葉斯技術(shù)對短語離散的特征值進行訓(xùn)練,獲取模型[5]表示全文主題內(nèi)
7、容信息款目的單詞或術(shù)語。關(guān)鍵詞可以是單的權(quán)值,然后從文檔中抽取關(guān)鍵短語。Barker等人利用名詞[6]個詞,如“計算機”,也可以是由兩個或兩個以上的單個詞組成短語從文本中抽取關(guān)鍵詞。Hulth提出了一種在學(xué)術(shù)論文的的組合詞,如“計算機輔助教學(xué)”。國標GB7713-87中規(guī)定:每摘要中自動提取關(guān)鍵詞的方法,采用一種叫做RuleInduction篇報告、論文選取3~8個詞作為關(guān)鍵詞,以顯著的字符另起一的學(xué)習(xí)算法,利用實驗證明了在文本表示中加入語言學(xué)知識,[7]行,排在摘要的左下方。關(guān)鍵詞高度概括了文本的主要內(nèi)容,可使抽取正確率大為