基于組合詞和同義詞集的關(guān)鍵詞提取算法

ID：38186226

大?。?63.12 KB

頁數(shù)：4頁

時間：2019-05-25

資源描述：

《基于組合詞和同義詞集的關(guān)鍵詞提取算法》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、第27卷第8期計算機應(yīng)用研究Vol．27No．82010年8月ApplicationResearchofComputersAug．2010*基于組合詞和同義詞集的關(guān)鍵詞提取算法蔣昌金，彭宏，陳建超，馬千里，嚴桂奪(華南理工大學(xué)計算機科學(xué)與工程學(xué)院，廣州510640)摘要:為了提高關(guān)鍵詞的提取準確率，在對現(xiàn)有關(guān)鍵詞抽取方法進行研究的基礎(chǔ)之上，針對影響關(guān)鍵詞提取準確率的分詞技術(shù)、同義詞現(xiàn)象等難點，提出了一種基于組合詞和同義詞集的關(guān)鍵詞提取算法。該算法首先利用組合詞識別算法極大地改進分詞效果，能識別網(wǎng)頁上絕大多數(shù)的新詞、未登錄詞，為提高關(guān)鍵詞自動抽取準確率奠定了堅實的基礎(chǔ);同時

2、利用構(gòu)造的同義詞集，合并同義詞的詞頻，避免了同義詞在輸出結(jié)果中同現(xiàn);利用綜合評分公式，充分考慮候選關(guān)鍵詞的位置、長度、詞性等特性。實驗數(shù)據(jù)表明，該方法有較高的提取準確率。關(guān)鍵詞:組合詞;同義詞集;中文網(wǎng)頁;關(guān)鍵詞提取中圖分類號:TP391.1文獻標志碼:A文章編號:1001-3695(2010)08-2853-04doi:10．3969/j．issn．1001-3695．2010．08．010KeywordsextractionalgorithmbasedoncombinedwordandsynsetJIANGChang-jin，PENGHong，CHENJian-cha

3、o，MAQian-li，YANGui-duo(SchoolofComputerScience＆Engineering，SouthChinaUniversityofTechnology，Guangzhou510640，China)Abstract:ThispaperpresentedaChinesewebpagekeywordsextractionalgorithmafterthestudyofexistingtechniquesforkeywordextraction．Thepresentedapproachcouldextremelyimprovetheperforma

4、nceofChinesewordsegmentationsystem．ThemodifiedChinesewordsegmentationsystemcouldrecognisemostofnewterms，phrasesandnon-loginwordsinChinesewebpageandthisisvitallyimportantforChinesekeywordextraction．Moreover，constructedasynsetdatabaseandusedaddingthefrequenciesofsynonymstogether，avoidingthe

5、co-occurrenceofsynonymsinoutput．Furthermore，createdaeva-luationfunctiontoscorecandidatekeywordbasedonitslocation，length，part-of-speech．Theexperimentresultsshowthattheproposedalgorithmhasbetterperformancecomparedwiththetraditionalkeywordextractionalgorithms．Keywords:combinedword;synset;Chi

6、nesewebpage;keywordextraction［2］標引。0引言國外對于關(guān)鍵詞的自動抽取的研究起步較早，已經(jīng)建立了［3］網(wǎng)絡(luò)上文本信息的爆炸式增長，使得手工獲取所需的文本一些實驗或?qū)嵱孟到y(tǒng)。Turney設(shè)計的GenEx系統(tǒng)將一篇文信息的難度日益增大。因此，怎樣方便、快捷、準確、自動地獲章看做一個短語集合，將遺傳算法和C4．5決策樹歸納算法用［4］取這些文本的關(guān)鍵信息就變得異常重要。于關(guān)鍵短語的抽取。Witten等人開發(fā)了KEA系統(tǒng)，該系統(tǒng)關(guān)鍵詞是為了文獻標引工作從報告、論文中選取出來用于采用樸素貝葉斯技術(shù)對短語離散的特征值進行訓(xùn)練，獲取模型［5］表示全文主題內(nèi)

7、容信息款目的單詞或術(shù)語。關(guān)鍵詞可以是單的權(quán)值，然后從文檔中抽取關(guān)鍵短語。Barker等人利用名詞［6］個詞，如“計算機”，也可以是由兩個或兩個以上的單個詞組成短語從文本中抽取關(guān)鍵詞。Hulth提出了一種在學(xué)術(shù)論文的的組合詞，如“計算機輔助教學(xué)”。國標GB7713-87中規(guī)定:每摘要中自動提取關(guān)鍵詞的方法，采用一種叫做RuleInduction篇報告、論文選取3～8個詞作為關(guān)鍵詞，以顯著的字符另起一的學(xué)習(xí)算法，利用實驗證明了在文本表示中加入語言學(xué)知識，［7］行，排在摘要的左下方。關(guān)鍵詞高度概括了文本的主要內(nèi)容，可使抽取正確率大為

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于組合詞和同義詞集的關(guān)鍵詞提取算法

基于組合詞和同義詞集的關(guān)鍵詞提取算法

相關(guān)文章

相關(guān)標簽