基于組合詞和同義詞集的關鍵詞提取算法

基于組合詞和同義詞集的關鍵詞提取算法

ID:38186226

大?。?63.12 KB

頁數(shù):4頁

時間:2019-05-25

基于組合詞和同義詞集的關鍵詞提取算法_第1頁
基于組合詞和同義詞集的關鍵詞提取算法_第2頁
基于組合詞和同義詞集的關鍵詞提取算法_第3頁
基于組合詞和同義詞集的關鍵詞提取算法_第4頁
資源描述:

《基于組合詞和同義詞集的關鍵詞提取算法》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。

1、第27卷第8期計算機應用研究Vol.27No.82010年8月ApplicationResearchofComputersAug.2010*基于組合詞和同義詞集的關鍵詞提取算法蔣昌金,彭宏,陳建超,馬千里,嚴桂奪(華南理工大學計算機科學與工程學院,廣州510640)摘要:為了提高關鍵詞的提取準確率,在對現(xiàn)有關鍵詞抽取方法進行研究的基礎之上,針對影響關鍵詞提取準確率的分詞技術(shù)、同義詞現(xiàn)象等難點,提出了一種基于組合詞和同義詞集的關鍵詞提取算法。該算法首先利用組合詞識別算法極大地改進分詞效果,能識別網(wǎng)頁上絕大多數(shù)的新詞、未登錄詞,為提高關鍵詞自動抽取準確率奠定了堅實的基礎;同時

2、利用構(gòu)造的同義詞集,合并同義詞的詞頻,避免了同義詞在輸出結(jié)果中同現(xiàn);利用綜合評分公式,充分考慮候選關鍵詞的位置、長度、詞性等特性。實驗數(shù)據(jù)表明,該方法有較高的提取準確率。關鍵詞:組合詞;同義詞集;中文網(wǎng)頁;關鍵詞提取中圖分類號:TP391.1文獻標志碼:A文章編號:1001-3695(2010)08-2853-04doi:10.3969/j.issn.1001-3695.2010.08.010KeywordsextractionalgorithmbasedoncombinedwordandsynsetJIANGChang-jin,PENGHong,CHENJian-cha

3、o,MAQian-li,YANGui-duo(SchoolofComputerScience&Engineering,SouthChinaUniversityofTechnology,Guangzhou510640,China)Abstract:ThispaperpresentedaChinesewebpagekeywordsextractionalgorithmafterthestudyofexistingtechniquesforkeywordextraction.Thepresentedapproachcouldextremelyimprovetheperforma

4、nceofChinesewordsegmentationsystem.ThemodifiedChinesewordsegmentationsystemcouldrecognisemostofnewterms,phrasesandnon-loginwordsinChinesewebpageandthisisvitallyimportantforChinesekeywordextraction.Moreover,constructedasynsetdatabaseandusedaddingthefrequenciesofsynonymstogether,avoidingthe

5、co-occurrenceofsynonymsinoutput.Furthermore,createdaeva-luationfunctiontoscorecandidatekeywordbasedonitslocation,length,part-of-speech.Theexperimentresultsshowthattheproposedalgorithmhasbetterperformancecomparedwiththetraditionalkeywordextractionalgorithms.Keywords:combinedword;synset;Chi

6、nesewebpage;keywordextraction[2]標引。0引言國外對于關鍵詞的自動抽取的研究起步較早,已經(jīng)建立了[3]網(wǎng)絡上文本信息的爆炸式增長,使得手工獲取所需的文本一些實驗或?qū)嵱孟到y(tǒng)。Turney設計的GenEx系統(tǒng)將一篇文信息的難度日益增大。因此,怎樣方便、快捷、準確、自動地獲章看做一個短語集合,將遺傳算法和C4.5決策樹歸納算法用[4]取這些文本的關鍵信息就變得異常重要。于關鍵短語的抽取。Witten等人開發(fā)了KEA系統(tǒng),該系統(tǒng)關鍵詞是為了文獻標引工作從報告、論文中選取出來用于采用樸素貝葉斯技術(shù)對短語離散的特征值進行訓練,獲取模型[5]表示全文主題內(nèi)

7、容信息款目的單詞或術(shù)語。關鍵詞可以是單的權(quán)值,然后從文檔中抽取關鍵短語。Barker等人利用名詞[6]個詞,如“計算機”,也可以是由兩個或兩個以上的單個詞組成短語從文本中抽取關鍵詞。Hulth提出了一種在學術(shù)論文的的組合詞,如“計算機輔助教學”。國標GB7713-87中規(guī)定:每摘要中自動提取關鍵詞的方法,采用一種叫做RuleInduction篇報告、論文選取3~8個詞作為關鍵詞,以顯著的字符另起一的學習算法,利用實驗證明了在文本表示中加入語言學知識,[7]行,排在摘要的左下方。關鍵詞高度概括了文本的主要內(nèi)容,可使抽取正確率大為

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。