資源描述:
《基于組合詞和同義詞集的關鍵詞提取算法》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、第27卷第8期計算機應用研究Vol.27No.82010年8月ApplicationResearchofComputersAug.2010*基于組合詞和同義詞集的關鍵詞提取算法蔣昌金,彭宏,陳建超,馬千里,嚴桂奪(華南理工大學計算機科學與工程學院,廣州510640)摘要:為了提高關鍵詞的提取準確率,在對現(xiàn)有關鍵詞抽取方法進行研究的基礎之上,針對影響關鍵詞提取準確率的分詞技術(shù)、同義詞現(xiàn)象等難點,提出了一種基于組合詞和同義詞集的關鍵詞提取算法。該算法首先利用組合詞識別算法極大地改進分詞效果,能識別網(wǎng)頁上絕大多數(shù)的新詞、未登錄詞,為提高關鍵詞自動抽取準確率奠定了堅實的基礎;同時
2、利用構(gòu)造的同義詞集,合并同義詞的詞頻,避免了同義詞在輸出結(jié)果中同現(xiàn);利用綜合評分公式,充分考慮候選關鍵詞的位置、長度、詞性等特性。實驗數(shù)據(jù)表明,該方法有較高的提取準確率。關鍵詞:組合詞;同義詞集;中文網(wǎng)頁;關鍵詞提取中圖分類號:TP391.1文獻標志碼:A文章編號:1001-3695(2010)08-2853-04doi:10.3969/j.issn.1001-3695.2010.08.010KeywordsextractionalgorithmbasedoncombinedwordandsynsetJIANGChang-jin,PENGHong,CHENJian-cha
3、o,MAQian-li,YANGui-duo(SchoolofComputerScience&Engineering,SouthChinaUniversityofTechnology,Guangzhou510640,China)Abstract:ThispaperpresentedaChinesewebpagekeywordsextractionalgorithmafterthestudyofexistingtechniquesforkeywordextraction.Thepresentedapproachcouldextremelyimprovetheperforma
4、nceofChinesewordsegmentationsystem.ThemodifiedChinesewordsegmentationsystemcouldrecognisemostofnewterms,phrasesandnon-loginwordsinChinesewebpageandthisisvitallyimportantforChinesekeywordextraction.Moreover,constructedasynsetdatabaseandusedaddingthefrequenciesofsynonymstogether,avoidingthe
5、co-occurrenceofsynonymsinoutput.Furthermore,createdaeva-luationfunctiontoscorecandidatekeywordbasedonitslocation,length,part-of-speech.Theexperimentresultsshowthattheproposedalgorithmhasbetterperformancecomparedwiththetraditionalkeywordextractionalgorithms.Keywords:combinedword;synset;Chi
6、nesewebpage;keywordextraction[2]標引。0引言國外對于關鍵詞的自動抽取的研究起步較早,已經(jīng)建立了[3]網(wǎng)絡上文本信息的爆炸式增長,使得手工獲取所需的文本一些實驗或?qū)嵱孟到y(tǒng)。Turney設計的GenEx系統(tǒng)將一篇文信息的難度日益增大。因此,怎樣方便、快捷、準確、自動地獲章看做一個短語集合,將遺傳算法和C4.5決策樹歸納算法用[4]取這些文本的關鍵信息就變得異常重要。于關鍵短語的抽取。Witten等人開發(fā)了KEA系統(tǒng),該系統(tǒng)關鍵詞是為了文獻標引工作從報告、論文中選取出來用于采用樸素貝葉斯技術(shù)對短語離散的特征值進行訓練,獲取模型[5]表示全文主題內(nèi)
7、容信息款目的單詞或術(shù)語。關鍵詞可以是單的權(quán)值,然后從文檔中抽取關鍵短語。Barker等人利用名詞[6]個詞,如“計算機”,也可以是由兩個或兩個以上的單個詞組成短語從文本中抽取關鍵詞。Hulth提出了一種在學術(shù)論文的的組合詞,如“計算機輔助教學”。國標GB7713-87中規(guī)定:每摘要中自動提取關鍵詞的方法,采用一種叫做RuleInduction篇報告、論文選取3~8個詞作為關鍵詞,以顯著的字符另起一的學習算法,利用實驗證明了在文本表示中加入語言學知識,[7]行,排在摘要的左下方。關鍵詞高度概括了文本的主要內(nèi)容,可使抽取正確率大為