基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf

ID：57974944

大小：338.02 KB

頁(yè)數(shù)：4頁(yè)

時(shí)間：2020-04-18

基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf_第1頁(yè)

基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf_第2頁(yè)

基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf_第3頁(yè)

基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf_第4頁(yè)

資源描述：

《基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、第31卷第1期計(jì)算機(jī)應(yīng)用與軟件Vo1．31No．12014年1月ComputerApplicationsandSoftwareJan．2014基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法戰(zhàn)學(xué)岡9吳強(qiáng)(遼寧科技大學(xué)軟件學(xué)院遼寧鞍山114051)摘要為了提高中文關(guān)鍵詞提取的準(zhǔn)確率和實(shí)用性，提出一種基于TF統(tǒng)計(jì)和語(yǔ)法分析相結(jié)合的中文關(guān)鍵詞提取算法。該算法在對(duì)文本進(jìn)行自動(dòng)分詞后，用TF統(tǒng)計(jì)和語(yǔ)法分析對(duì)每個(gè)詞進(jìn)行權(quán)重計(jì)算，然后根據(jù)計(jì)算結(jié)果提取文獻(xiàn)的關(guān)鍵詞。實(shí)驗(yàn)結(jié)果表明，該方法提高了關(guān)鍵詞提取的精度。關(guān)鍵詞關(guān)鍵詞提取權(quán)重計(jì)算語(yǔ)法分析中文分詞中圖分類號(hào)TP3文獻(xiàn)標(biāo)識(shí)碼ADOI：10

2、．3969／j．issn．1000·386x．2014．叭．013KEYWoRDEXTRACTIoNALGoRITHMBASEDONTFSTATISTICSANDSYNTACTICPARSINGZhanXuegangWuQiang(SchoolofSoftware，UniversityofScie~eandTechnologyLiaoning，Anshan114051，Liaoning，China)AbstractAimingatimprovingaccuracyandpracticalityofChinesekeywordextraction，thepaper

3、proposesaChinesekeywordextractionalgorithmbasedonTFstatisticsandsyntacticparsing．Afterautomaticsegmentationuponatext，itcalculatestheweightofeachwordbyTFstatisticsandsyntacticparsing．Thenitextractskeywordsfromdocumentsaccordingtocalculationresults．Experimentalresultsshowthatthepropose

4、dmethodimprovestheaccuracyforkeywordextraction．KeywordsKeywordextractionWeightcalculationSyntacticparsingChinesewordsegmentation在國(guó)內(nèi)，利用基于統(tǒng)計(jì)方法的有鄭家桓采用非線性函數(shù)和0引言成對(duì)比較法相結(jié)合的方法，以詞頻和位置作為依據(jù)抽取關(guān)鍵詞”。基于機(jī)器學(xué)習(xí)的方法有程嵐嵐等人提出的基于樸素貝隨著網(wǎng)絡(luò)的不斷發(fā)展，每天都會(huì)有海量的信息呈現(xiàn)出來(lái)。葉斯模型的算法，訓(xùn)練模型，提取關(guān)鍵詞。基于語(yǔ)義的關(guān)鍵信息爆炸式的增長(zhǎng)是當(dāng)前計(jì)算機(jī)自然語(yǔ)言處理領(lǐng)域面臨的

5、一個(gè)詞自動(dòng)提取算法是在統(tǒng)計(jì)的基礎(chǔ)上，先對(duì)搜集的預(yù)料進(jìn)行語(yǔ)義重要問(wèn)題。如何有效地掌控海量數(shù)據(jù)，并且準(zhǔn)確識(shí)別、區(qū)分是否分析，然后通過(guò)對(duì)詞的相似度、詞性或者一些其它語(yǔ)法分析、語(yǔ)是自己所關(guān)心信息，已經(jīng)成為當(dāng)今亟待解決的問(wèn)題。由此提出義分析來(lái)判斷短語(yǔ)的重要性。通過(guò)語(yǔ)義來(lái)提取關(guān)鍵詞，工作量關(guān)鍵詞提取這一課題，如果一篇文章的提取的關(guān)鍵詞的質(zhì)量很非常之大，不只是對(duì)計(jì)算機(jī)知識(shí)要求高，而且還要對(duì)文學(xué)有著很高，它將會(huì)有助于人們識(shí)別、區(qū)分這海量的信息。找到自己所真深的認(rèn)識(shí)和了解。正關(guān)心的信息。文本關(guān)鍵詞自動(dòng)提取的處理技術(shù)可以廣泛地應(yīng)用于許多領(lǐng)域，如文本分類，信息反饋系統(tǒng)、網(wǎng)絡(luò)信息過(guò)濾系

6、統(tǒng)、1具體實(shí)現(xiàn)方法信息檢索、數(shù)字圖書館，自動(dòng)文摘。自然語(yǔ)言處理有關(guān)中文關(guān)鍵詞的自動(dòng)提取方法的研究主要關(guān)鍵詞提取的整體流程如圖1。具體方法，過(guò)程如下：分為三個(gè)方向：基于統(tǒng)計(jì)的關(guān)鍵詞提取，包括詞頻，TF—IDF等統(tǒng)計(jì)信息。還有一些機(jī)器學(xué)習(xí)方法，包括遺傳算法、支持向量機(jī)、最大熵模型、條件隨機(jī)等。也有一些基于語(yǔ)義的研究工作，包括詞性、語(yǔ)法、句話、語(yǔ)義依存等。國(guó)內(nèi)外有很多已經(jīng)成熟的算法。國(guó)際上，由Turney?建立名字為Extractor的關(guān)鍵詞自動(dòng)提取系統(tǒng)，算法核心是基于決策樹和遺傳算法構(gòu)建的；Witten等開發(fā)了系統(tǒng)KEA，它采用基于樸素貝葉斯模型，對(duì)短語(yǔ)離散的特征值

7、進(jìn)行訓(xùn)練，獲取特征值的權(quán)值，最后可以完成從文檔中提圖1關(guān)鍵詞提取流程圖取關(guān)鍵短語(yǔ)的任務(wù)。LiJuanzil123采用基于詞頻的方法，統(tǒng)計(jì)詞出現(xiàn)的次數(shù)占全文的比例，再計(jì)算權(quán)重，提取較高的作為關(guān)收稿日期：2012—09—20。戰(zhàn)學(xué)剛，副教授，主研領(lǐng)域：中文信息處鍵詞。理。吳強(qiáng)，碩士生。48計(jì)算機(jī)應(yīng)用與軟件2014正1．1分詞1．2．2句法結(jié)構(gòu)1．2．2．1基于規(guī)則的方法首先采用中科院的自動(dòng)分詞系統(tǒng)進(jìn)行分詞?；旧?，90％在自然語(yǔ)言處理領(lǐng)域中，基于規(guī)則的方法主要通過(guò)人工整多都能準(zhǔn)確切分出來(lái)，但由于一篇文章的關(guān)鍵詞有好多是新詞，很多識(shí)別不出來(lái)。因而對(duì)初次分詞結(jié)果加以改進(jìn)

8、，整體流程圖理語(yǔ)法規(guī)則、

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf

基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf

相關(guān)文章

相關(guān)標(biāo)簽