基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法.pdf

ID：53575586

大?。?13.88 KB

頁數(shù)：3頁

時(shí)間：2020-04-19

基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法.pdf_第1頁

基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法.pdf_第2頁

基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法.pdf_第3頁

資源描述：

《基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法.pdf》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、第33卷第4期情報(bào)雜志Vo1．33No．42014年4月JOURNALOFINTELLIGENCEApr．2014基于改進(jìn)TF—IDF算法的情報(bào)關(guān)鍵詞提取方法張瑾(鄭州輕工業(yè)學(xué)院鄭州450002)摘要傳統(tǒng)的TF—IDF完全基于詞頻，忽略了詞語的其它特征項(xiàng)對關(guān)鍵詞的影響。本文提出基于TF-IDF、詞位置和詞跨度的關(guān)鍵詞自動提取的方法。該方法通過在傳統(tǒng)的TF—IDF關(guān)鍵詞權(quán)重計(jì)算方法中，加入位置權(quán)值及詞跨度權(quán)值，避免單純采用TF—IDF算法產(chǎn)生的偏差。實(shí)驗(yàn)結(jié)果表明，該方法在情報(bào)關(guān)鍵詞提取中有廣泛的應(yīng)用價(jià)值，其準(zhǔn)確率、召回率及Fl值與傳

2、統(tǒng)方法相比有明顯提升。關(guān)鍵詞關(guān)鍵詞提取TF-IDF位置權(quán)值詞跨度值中圖分類號TP391文獻(xiàn)標(biāo)識碼A文章編號1002-1965(2014)04—0153-03DoI10．3969／j．issn．1002—1965．20l4．04．028AMethodofIntelligenceKeyWordsExtractionBasedonImprovedTF-IDFZhangJin(ZhengzhouUniversityofLightIndustry。Zhengzhou450002)AbstractBeingusuallyentirelybas

3、edonwordfrequency-TF-IDFneglectstheinfluenceofotherfeaturesofwordsonkeywords．TheessayproposesaautomatickeywordsextractingmethodbasedonTF-IDF，wordpositionandwordspan．WordpositionweightvalueandwordspanvaluealeaddedtOthetraditionalTF-IDFkeywordstermweighfingalgorithminor

4、dertoavoiddeviation．Theexperimentfind—ingsshowthattheproposedmethod。wjtllhigheraccuracy．1owerrecallrateandFIvalues。ismoreapplicableintheextractionofChineseintelligencekeywords．KeywordskeywordsextractionTF-IDFwordpositionweightvaluewordspanvalueTF表示詞語i在該文檔中出現(xiàn)的次數(shù)，逆文本頻數(shù)0

5、引言IDF=log(N／N+13)，其中J7、r表示文檔總數(shù)，Ⅳl表示文隨著大數(shù)據(jù)時(shí)代的到來，信息和現(xiàn)實(shí)生活密不可檔中出現(xiàn)詞語i的文檔數(shù)，為一個(gè)經(jīng)驗(yàn)值，一般取0．分，如此海量的數(shù)據(jù)使得尋找所需的情報(bào)的難度加大。01、0．1、1。以詞頻TF和逆文本頻數(shù)IDF的乘積作為因此，如何有效提取有用情報(bào)的主題內(nèi)容顯得十分重該詞語的權(quán)值，該方法簡單直觀，處理速度快。但該方要。關(guān)鍵詞自動抽取是一種抽取具有專指性且能反映法逆文本頻數(shù)作為詞語的權(quán)重度量，簡單認(rèn)為如果詞文檔主題的詞語或短語的自動化技術(shù)¨。關(guān)鍵詞自語出現(xiàn)在許多文檔中，其權(quán)值就低，造成將大

6、權(quán)重賦予動抽取是文本自動化處理的基礎(chǔ)與核心技術(shù)之一。稀有詞，從而導(dǎo)致關(guān)鍵詞提取的準(zhǔn)確率下降。1957年美國IBM公司的盧恩(H．P．Luhn)首次提20世紀(jì)90年代，國內(nèi)外學(xué)者開始關(guān)注TF—IDF在出的基于詞頻統(tǒng)計(jì)的抽詞標(biāo)引法標(biāo)志著關(guān)鍵詞自關(guān)鍵詞提取中的應(yīng)用，針對其缺陷進(jìn)行了改進(jìn)。比如動提取的研究的開始。在計(jì)算詞語的權(quán)值方法中使用沈志斌等提出的BOR—TFI—DF權(quán)重函數(shù)，張瑜等較多的是Saltond在1989年提出的TF—IDF算法，該提出的WA—DI—SI算法，蘇丹等提出的TF—LDF方方法是近年來應(yīng)用較多且效果較好的方法之一

7、。詞頻法，李原等提出的引入信息熵IG來改進(jìn)TF—IDF算收稿日期：203—1I一27修回tt期：2013—12—30作者簡介：張瑾(1970一)，女，碩士，館員，研究方向：文獻(xiàn)信息資源開發(fā)利用。·154-情報(bào)雜志第33卷法等，此類方法在一定程度上彌補(bǔ)了TF—IDF方法的越高，在文檔集合C中出現(xiàn)的頻率越低，則該詞語的不足，但是引入詞位置權(quán)值及詞跨度權(quán)值列TF—IDFTF一1DF權(quán)重較高，說明其包含的信息熵較大，具有較進(jìn)行改進(jìn)的很少。好的代表性。筆者將考慮詞位置和詞跨度對關(guān)鍵詞權(quán)值的影2．2跨度權(quán)值一個(gè)詞的跨段落情況說明這個(gè)詞響。通過

8、對詞位置及詞跨度進(jìn)行量化，并將其引入到是描述局部的還是表達(dá)全文的?？缍螖?shù)越多，說明該傳統(tǒng)的TF—IDF算法中，對傳統(tǒng)TF—IDF算法進(jìn)行改詞越重要，全局性越強(qiáng)。顯然，局部關(guān)鍵詞不是我們需進(jìn)。然后，以此算法模型進(jìn)行實(shí)際的應(yīng)用，驗(yàn)證其可行要提取的目標(biāo)，

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 / 3



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法.pdf

基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法.pdf

相關(guān)文章

相關(guān)標(biāo)簽