資源描述:
《基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法-論文.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第31卷第1期計(jì)算機(jī)應(yīng)用與軟件Vo1.31No.12014年1月ComputerApplicationsandSoftwareJan.2014基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法戰(zhàn)學(xué)岡9吳強(qiáng)(遼寧科技大學(xué)軟件學(xué)院遼寧鞍山114051)摘要為了提高中文關(guān)鍵詞提取的準(zhǔn)確率和實(shí)用性,提出一種基于TF統(tǒng)計(jì)和語(yǔ)法分析相結(jié)合的中文關(guān)鍵詞提取算法。該算法在對(duì)文本進(jìn)行自動(dòng)分詞后,用TF統(tǒng)計(jì)和語(yǔ)法分析對(duì)每個(gè)詞進(jìn)行權(quán)重計(jì)算,然后根據(jù)計(jì)算結(jié)果提取文獻(xiàn)的關(guān)鍵詞。實(shí)驗(yàn)結(jié)果表明,該方法提高了關(guān)鍵詞提取的精度。關(guān)鍵詞關(guān)鍵詞提取權(quán)重計(jì)算語(yǔ)法分析中文分詞中圖分類號(hào)TP3文獻(xiàn)標(biāo)識(shí)碼ADOI:10
2、.3969/j.issn.1000·386x.2014.叭.013KEYWoRDEXTRACTIoNALGoRITHMBASEDONTFSTATISTICSANDSYNTACTICPARSINGZhanXuegangWuQiang(SchoolofSoftware,UniversityofScie~eandTechnologyLiaoning,Anshan114051,Liaoning,China)AbstractAimingatimprovingaccuracyandpracticalityofChinesekeywordextraction,thepaper
3、proposesaChinesekeywordextractionalgorithmbasedonTFstatisticsandsyntacticparsing.Afterautomaticsegmentationuponatext,itcalculatestheweightofeachwordbyTFstatisticsandsyntacticparsing.Thenitextractskeywordsfromdocumentsaccordingtocalculationresults.Experimentalresultsshowthatthepropose
4、dmethodimprovestheaccuracyforkeywordextraction.KeywordsKeywordextractionWeightcalculationSyntacticparsingChinesewordsegmentation在國(guó)內(nèi),利用基于統(tǒng)計(jì)方法的有鄭家桓采用非線性函數(shù)和0引言成對(duì)比較法相結(jié)合的方法,以詞頻和位置作為依據(jù)抽取關(guān)鍵詞”。基于機(jī)器學(xué)習(xí)的方法有程嵐嵐等人提出的基于樸素貝隨著網(wǎng)絡(luò)的不斷發(fā)展,每天都會(huì)有海量的信息呈現(xiàn)出來(lái)。葉斯模型的算法,訓(xùn)練模型,提取關(guān)鍵詞。基于語(yǔ)義的關(guān)鍵信息爆炸式的增長(zhǎng)是當(dāng)前計(jì)算機(jī)自然語(yǔ)言處理領(lǐng)域面臨的
5、一個(gè)詞自動(dòng)提取算法是在統(tǒng)計(jì)的基礎(chǔ)上,先對(duì)搜集的預(yù)料進(jìn)行語(yǔ)義重要問(wèn)題。如何有效地掌控海量數(shù)據(jù),并且準(zhǔn)確識(shí)別、區(qū)分是否分析,然后通過(guò)對(duì)詞的相似度、詞性或者一些其它語(yǔ)法分析、語(yǔ)是自己所關(guān)心信息,已經(jīng)成為當(dāng)今亟待解決的問(wèn)題。由此提出義分析來(lái)判斷短語(yǔ)的重要性。通過(guò)語(yǔ)義來(lái)提取關(guān)鍵詞,工作量關(guān)鍵詞提取這一課題,如果一篇文章的提取的關(guān)鍵詞的質(zhì)量很非常之大,不只是對(duì)計(jì)算機(jī)知識(shí)要求高,而且還要對(duì)文學(xué)有著很高,它將會(huì)有助于人們識(shí)別、區(qū)分這海量的信息。找到自己所真深的認(rèn)識(shí)和了解。正關(guān)心的信息。文本關(guān)鍵詞自動(dòng)提取的處理技術(shù)可以廣泛地應(yīng)用于許多領(lǐng)域,如文本分類,信息反饋系統(tǒng)、網(wǎng)絡(luò)信息過(guò)濾系
6、統(tǒng)、1具體實(shí)現(xiàn)方法信息檢索、數(shù)字圖書館,自動(dòng)文摘。自然語(yǔ)言處理有關(guān)中文關(guān)鍵詞的自動(dòng)提取方法的研究主要關(guān)鍵詞提取的整體流程如圖1。具體方法,過(guò)程如下:分為三個(gè)方向:基于統(tǒng)計(jì)的關(guān)鍵詞提取,包括詞頻,TF—IDF等統(tǒng)計(jì)信息。還有一些機(jī)器學(xué)習(xí)方法,包括遺傳算法、支持向量機(jī)、最大熵模型、條件隨機(jī)等。也有一些基于語(yǔ)義的研究工作,包括詞性、語(yǔ)法、句話、語(yǔ)義依存等。國(guó)內(nèi)外有很多已經(jīng)成熟的算法。國(guó)際上,由Turney?建立名字為Extractor的關(guān)鍵詞自動(dòng)提取系統(tǒng),算法核心是基于決策樹和遺傳算法構(gòu)建的;Witten等開發(fā)了系統(tǒng)KEA,它采用基于樸素貝葉斯模型,對(duì)短語(yǔ)離散的特征值
7、進(jìn)行訓(xùn)練,獲取特征值的權(quán)值,最后可以完成從文檔中提圖1關(guān)鍵詞提取流程圖取關(guān)鍵短語(yǔ)的任務(wù)。LiJuanzil123采用基于詞頻的方法,統(tǒng)計(jì)詞出現(xiàn)的次數(shù)占全文的比例,再計(jì)算權(quán)重,提取較高的作為關(guān)收稿日期:2012—09—20。戰(zhàn)學(xué)剛,副教授,主研領(lǐng)域:中文信息處鍵詞。理。吳強(qiáng),碩士生。48計(jì)算機(jī)應(yīng)用與軟件2014正1.1分詞1.2.2句法結(jié)構(gòu)1.2.2.1基于規(guī)則的方法首先采用中科院的自動(dòng)分詞系統(tǒng)進(jìn)行分詞?;旧?,90%在自然語(yǔ)言處理領(lǐng)域中,基于規(guī)則的方法主要通過(guò)人工整多都能準(zhǔn)確切分出來(lái),但由于一篇文章的關(guān)鍵詞有好多是新詞,很多識(shí)別不出來(lái)。因而對(duì)初次分詞結(jié)果加以改進(jìn)
8、,整體流程圖理語(yǔ)法規(guī)則、