資源描述:
《基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法.pdf》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、第33卷第4期情報(bào)雜志Vo1.33No.42014年4月JOURNALOFINTELLIGENCEApr.2014基于改進(jìn)TF—IDF算法的情報(bào)關(guān)鍵詞提取方法張瑾(鄭州輕工業(yè)學(xué)院鄭州450002)摘要傳統(tǒng)的TF—IDF完全基于詞頻,忽略了詞語的其它特征項(xiàng)對關(guān)鍵詞的影響。本文提出基于TF-IDF、詞位置和詞跨度的關(guān)鍵詞自動提取的方法。該方法通過在傳統(tǒng)的TF—IDF關(guān)鍵詞權(quán)重計(jì)算方法中,加入位置權(quán)值及詞跨度權(quán)值,避免單純采用TF—IDF算法產(chǎn)生的偏差。實(shí)驗(yàn)結(jié)果表明,該方法在情報(bào)關(guān)鍵詞提取中有廣泛的應(yīng)用價(jià)值,其準(zhǔn)確率、召回率及Fl值與傳
2、統(tǒng)方法相比有明顯提升。關(guān)鍵詞關(guān)鍵詞提取TF-IDF位置權(quán)值詞跨度值中圖分類號TP391文獻(xiàn)標(biāo)識碼A文章編號1002-1965(2014)04—0153-03DoI10.3969/j.issn.1002—1965.20l4.04.028AMethodofIntelligenceKeyWordsExtractionBasedonImprovedTF-IDFZhangJin(ZhengzhouUniversityofLightIndustry。Zhengzhou450002)AbstractBeingusuallyentirelybas
3、edonwordfrequency-TF-IDFneglectstheinfluenceofotherfeaturesofwordsonkeywords.TheessayproposesaautomatickeywordsextractingmethodbasedonTF-IDF,wordpositionandwordspan.WordpositionweightvalueandwordspanvaluealeaddedtOthetraditionalTF-IDFkeywordstermweighfingalgorithminor
4、dertoavoiddeviation.Theexperimentfind—ingsshowthattheproposedmethod。wjtllhigheraccuracy.1owerrecallrateandFIvalues。ismoreapplicableintheextractionofChineseintelligencekeywords.KeywordskeywordsextractionTF-IDFwordpositionweightvaluewordspanvalueTF表示詞語i在該文檔中出現(xiàn)的次數(shù),逆文本頻數(shù)0
5、引言IDF=log(N/N+13),其中J7、r表示文檔總數(shù),Ⅳl表示文隨著大數(shù)據(jù)時(shí)代的到來,信息和現(xiàn)實(shí)生活密不可檔中出現(xiàn)詞語i的文檔數(shù),為一個(gè)經(jīng)驗(yàn)值,一般取0.分,如此海量的數(shù)據(jù)使得尋找所需的情報(bào)的難度加大。01、0.1、1。以詞頻TF和逆文本頻數(shù)IDF的乘積作為因此,如何有效提取有用情報(bào)的主題內(nèi)容顯得十分重該詞語的權(quán)值,該方法簡單直觀,處理速度快。但該方要。關(guān)鍵詞自動抽取是一種抽取具有專指性且能反映法逆文本頻數(shù)作為詞語的權(quán)重度量,簡單認(rèn)為如果詞文檔主題的詞語或短語的自動化技術(shù)¨。關(guān)鍵詞自語出現(xiàn)在許多文檔中,其權(quán)值就低,造成將大
6、權(quán)重賦予動抽取是文本自動化處理的基礎(chǔ)與核心技術(shù)之一。稀有詞,從而導(dǎo)致關(guān)鍵詞提取的準(zhǔn)確率下降。1957年美國IBM公司的盧恩(H.P.Luhn)首次提20世紀(jì)90年代,國內(nèi)外學(xué)者開始關(guān)注TF—IDF在出的基于詞頻統(tǒng)計(jì)的抽詞標(biāo)引法標(biāo)志著關(guān)鍵詞自關(guān)鍵詞提取中的應(yīng)用,針對其缺陷進(jìn)行了改進(jìn)。比如動提取的研究的開始。在計(jì)算詞語的權(quán)值方法中使用沈志斌等提出的BOR—TFI—DF權(quán)重函數(shù),張瑜等較多的是Saltond在1989年提出的TF—IDF算法,該提出的WA—DI—SI算法,蘇丹等提出的TF—LDF方方法是近年來應(yīng)用較多且效果較好的方法之一
7、。詞頻法,李原等提出的引入信息熵IG來改進(jìn)TF—IDF算收稿日期:203—1I一27修回tt期:2013—12—30作者簡介:張瑾(1970一),女,碩士,館員,研究方向:文獻(xiàn)信息資源開發(fā)利用。·154-情報(bào)雜志第33卷法等,此類方法在一定程度上彌補(bǔ)了TF—IDF方法的越高,在文檔集合C中出現(xiàn)的頻率越低,則該詞語的不足,但是引入詞位置權(quán)值及詞跨度權(quán)值列TF—IDFTF一1DF權(quán)重較高,說明其包含的信息熵較大,具有較進(jìn)行改進(jìn)的很少。好的代表性。筆者將考慮詞位置和詞跨度對關(guān)鍵詞權(quán)值的影2.2跨度權(quán)值一個(gè)詞的跨段落情況說明這個(gè)詞響。通過
8、對詞位置及詞跨度進(jìn)行量化,并將其引入到是描述局部的還是表達(dá)全文的??缍螖?shù)越多,說明該傳統(tǒng)的TF—IDF算法中,對傳統(tǒng)TF—IDF算法進(jìn)行改詞越重要,全局性越強(qiáng)。顯然,局部關(guān)鍵詞不是我們需進(jìn)。然后,以此算法模型進(jìn)行實(shí)際的應(yīng)用,驗(yàn)證其可行要提取的目標(biāo),