基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf

ID:57974944

大小:338.02 KB

頁(yè)數(shù):4頁(yè)

時(shí)間:2020-04-18

基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf_第1頁(yè)
基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf_第2頁(yè)
基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf_第3頁(yè)
基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf_第4頁(yè)
資源描述:

《基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)

1、第31卷第1期計(jì)算機(jī)應(yīng)用與軟件Vo1.31No.12014年1月ComputerApplicationsandSoftwareJan.2014基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法戰(zhàn)學(xué)岡9吳強(qiáng)(遼寧科技大學(xué)軟件學(xué)院遼寧鞍山114051)摘要為了提高中文關(guān)鍵詞提取的準(zhǔn)確率和實(shí)用性,提出一種基于TF統(tǒng)計(jì)和語(yǔ)法分析相結(jié)合的中文關(guān)鍵詞提取算法。該算法在對(duì)文本進(jìn)行自動(dòng)分詞后,用TF統(tǒng)計(jì)和語(yǔ)法分析對(duì)每個(gè)詞進(jìn)行權(quán)重計(jì)算,然后根據(jù)計(jì)算結(jié)果提取文獻(xiàn)的關(guān)鍵詞。實(shí)驗(yàn)結(jié)果表明,該方法提高了關(guān)鍵詞提取的精度。關(guān)鍵詞關(guān)鍵詞提取權(quán)重計(jì)算語(yǔ)法分析中文分詞中圖分類號(hào)TP3文獻(xiàn)標(biāo)識(shí)碼ADOI:10

2、.3969/j.issn.1000·386x.2014.叭.013KEYWoRDEXTRACTIoNALGoRITHMBASEDONTFSTATISTICSANDSYNTACTICPARSINGZhanXuegangWuQiang(SchoolofSoftware,UniversityofScie~eandTechnologyLiaoning,Anshan114051,Liaoning,China)AbstractAimingatimprovingaccuracyandpracticalityofChinesekeywordextraction,thepaper

3、proposesaChinesekeywordextractionalgorithmbasedonTFstatisticsandsyntacticparsing.Afterautomaticsegmentationuponatext,itcalculatestheweightofeachwordbyTFstatisticsandsyntacticparsing.Thenitextractskeywordsfromdocumentsaccordingtocalculationresults.Experimentalresultsshowthatthepropose

4、dmethodimprovestheaccuracyforkeywordextraction.KeywordsKeywordextractionWeightcalculationSyntacticparsingChinesewordsegmentation在國(guó)內(nèi),利用基于統(tǒng)計(jì)方法的有鄭家桓采用非線性函數(shù)和0引言成對(duì)比較法相結(jié)合的方法,以詞頻和位置作為依據(jù)抽取關(guān)鍵詞”。基于機(jī)器學(xué)習(xí)的方法有程嵐嵐等人提出的基于樸素貝隨著網(wǎng)絡(luò)的不斷發(fā)展,每天都會(huì)有海量的信息呈現(xiàn)出來(lái)。葉斯模型的算法,訓(xùn)練模型,提取關(guān)鍵詞。基于語(yǔ)義的關(guān)鍵信息爆炸式的增長(zhǎng)是當(dāng)前計(jì)算機(jī)自然語(yǔ)言處理領(lǐng)域面臨的

5、一個(gè)詞自動(dòng)提取算法是在統(tǒng)計(jì)的基礎(chǔ)上,先對(duì)搜集的預(yù)料進(jìn)行語(yǔ)義重要問(wèn)題。如何有效地掌控海量數(shù)據(jù),并且準(zhǔn)確識(shí)別、區(qū)分是否分析,然后通過(guò)對(duì)詞的相似度、詞性或者一些其它語(yǔ)法分析、語(yǔ)是自己所關(guān)心信息,已經(jīng)成為當(dāng)今亟待解決的問(wèn)題。由此提出義分析來(lái)判斷短語(yǔ)的重要性。通過(guò)語(yǔ)義來(lái)提取關(guān)鍵詞,工作量關(guān)鍵詞提取這一課題,如果一篇文章的提取的關(guān)鍵詞的質(zhì)量很非常之大,不只是對(duì)計(jì)算機(jī)知識(shí)要求高,而且還要對(duì)文學(xué)有著很高,它將會(huì)有助于人們識(shí)別、區(qū)分這海量的信息。找到自己所真深的認(rèn)識(shí)和了解。正關(guān)心的信息。文本關(guān)鍵詞自動(dòng)提取的處理技術(shù)可以廣泛地應(yīng)用于許多領(lǐng)域,如文本分類,信息反饋系統(tǒng)、網(wǎng)絡(luò)信息過(guò)濾系

6、統(tǒng)、1具體實(shí)現(xiàn)方法信息檢索、數(shù)字圖書館,自動(dòng)文摘。自然語(yǔ)言處理有關(guān)中文關(guān)鍵詞的自動(dòng)提取方法的研究主要關(guān)鍵詞提取的整體流程如圖1。具體方法,過(guò)程如下:分為三個(gè)方向:基于統(tǒng)計(jì)的關(guān)鍵詞提取,包括詞頻,TF—IDF等統(tǒng)計(jì)信息。還有一些機(jī)器學(xué)習(xí)方法,包括遺傳算法、支持向量機(jī)、最大熵模型、條件隨機(jī)等。也有一些基于語(yǔ)義的研究工作,包括詞性、語(yǔ)法、句話、語(yǔ)義依存等。國(guó)內(nèi)外有很多已經(jīng)成熟的算法。國(guó)際上,由Turney?建立名字為Extractor的關(guān)鍵詞自動(dòng)提取系統(tǒng),算法核心是基于決策樹和遺傳算法構(gòu)建的;Witten等開發(fā)了系統(tǒng)KEA,它采用基于樸素貝葉斯模型,對(duì)短語(yǔ)離散的特征值

7、進(jìn)行訓(xùn)練,獲取特征值的權(quán)值,最后可以完成從文檔中提圖1關(guān)鍵詞提取流程圖取關(guān)鍵短語(yǔ)的任務(wù)。LiJuanzil123采用基于詞頻的方法,統(tǒng)計(jì)詞出現(xiàn)的次數(shù)占全文的比例,再計(jì)算權(quán)重,提取較高的作為關(guān)收稿日期:2012—09—20。戰(zhàn)學(xué)剛,副教授,主研領(lǐng)域:中文信息處鍵詞。理。吳強(qiáng),碩士生。48計(jì)算機(jī)應(yīng)用與軟件2014正1.1分詞1.2.2句法結(jié)構(gòu)1.2.2.1基于規(guī)則的方法首先采用中科院的自動(dòng)分詞系統(tǒng)進(jìn)行分詞?;旧?,90%在自然語(yǔ)言處理領(lǐng)域中,基于規(guī)則的方法主要通過(guò)人工整多都能準(zhǔn)確切分出來(lái),但由于一篇文章的關(guān)鍵詞有好多是新詞,很多識(shí)別不出來(lái)。因而對(duì)初次分詞結(jié)果加以改進(jìn)

8、,整體流程圖理語(yǔ)法規(guī)則、

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。
关闭