基于遺傳算法的中文多文檔自動(dòng)摘要方法研究

基于遺傳算法的中文多文檔自動(dòng)摘要方法研究

ID:22599253

大小:64.00 KB

頁(yè)數(shù):11頁(yè)

時(shí)間:2018-10-30

基于遺傳算法的中文多文檔自動(dòng)摘要方法研究_第1頁(yè)
基于遺傳算法的中文多文檔自動(dòng)摘要方法研究_第2頁(yè)
基于遺傳算法的中文多文檔自動(dòng)摘要方法研究_第3頁(yè)
基于遺傳算法的中文多文檔自動(dòng)摘要方法研究_第4頁(yè)
基于遺傳算法的中文多文檔自動(dòng)摘要方法研究_第5頁(yè)
資源描述:

《基于遺傳算法的中文多文檔自動(dòng)摘要方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、基于遺傳算法的中文多文檔自動(dòng)摘要方法研究:本文研究的重點(diǎn)是中文多文檔自動(dòng)的幾個(gè)關(guān)鍵技術(shù):包括子主題劃分、基于子主題的句子抽取等。在傳統(tǒng)的基于子主題的句子抽取方法的基礎(chǔ)上提出一種基于子主題的遺傳算法句子抽取方法,并對(duì)形成的句子采用新的排序方法。所實(shí)現(xiàn)的中文多文檔系統(tǒng)具有重點(diǎn)突出,可讀性強(qiáng)等特點(diǎn).論文關(guān)鍵詞:遺傳算法,多文檔,,句子抽取,聚類(lèi)隨著互聯(lián)X上信息的急劇膨脹,怎樣快速有效使用龐大而豐富的X上信息成為一個(gè)重要而緊迫的問(wèn)題。由于X上信息很大部分都是以文本形式存在,即通過(guò)自然語(yǔ)言描述的,因此通過(guò)使用自然語(yǔ)言理解技術(shù)對(duì)這些信息進(jìn)行提煉分析己經(jīng)成為近年來(lái)海量信息處理的一個(gè)熱點(diǎn)研究

2、方向,信息檢索、信息抽取、自動(dòng)文摘等自然語(yǔ)言處理的高層課題都吸引了很多研究者。多文檔自動(dòng)技術(shù)也是其中一個(gè)重要的研究課題。2預(yù)處理文本預(yù)處理模塊的主要任務(wù)是對(duì)文檔進(jìn)行章節(jié)、段落、句子等劃分,主要以標(biāo)點(diǎn)符號(hào)為劃分依據(jù)。符號(hào)對(duì)于語(yǔ)法或者語(yǔ)義的影響可能比較大,但是對(duì)于文本預(yù)處理而言,符號(hào)就是句子間隔,將輸入的原文本按照其所屬章節(jié)、段落和句子等信息進(jìn)行標(biāo)記。另外句的句式多為陳述句,象感嘆句、疑問(wèn)句等特殊句式一般不直接表達(dá)文章的中心主旨,考慮這些因素,因此在文檔預(yù)處理分析時(shí),不對(duì)該類(lèi)句式進(jìn)行處理。在進(jìn)行文檔劃分時(shí),還應(yīng)該考慮到全角半角標(biāo)點(diǎn)標(biāo)號(hào)的區(qū)別,為保證文本標(biāo)識(shí)的準(zhǔn)確性,還要處理文

3、本的各種標(biāo)點(diǎn)符號(hào),識(shí)別文本的結(jié)構(gòu),最終達(dá)到以句子為單位對(duì)文本進(jìn)行分隔的目的。預(yù)處理主要包括兩個(gè)部分:結(jié)構(gòu)預(yù)處理和統(tǒng)計(jì)兩部分。3句子分類(lèi)分類(lèi)模塊:將文檔簇中描述同類(lèi)問(wèn)題的句子進(jìn)行歸類(lèi)。即對(duì)文檔簇進(jìn)行句子聚類(lèi)。句子聚類(lèi):本文選擇K-means均值聚類(lèi)。選擇原因,由于其效率高,它的計(jì)算復(fù)雜度為O(nkt),其中n為樣本點(diǎn)的個(gè)數(shù),k為類(lèi)的個(gè)數(shù),t為循環(huán)次數(shù)。應(yīng)用K-means均值聚類(lèi)需先定義兩個(gè)句子間的距離。兩個(gè)句子的距離可定義為:,其中SIM(A,B)為句子A和句子B之間的相似度。聚類(lèi)算法:輸入:文檔簇的句子,聚類(lèi)個(gè)數(shù)k個(gè)輸出:k個(gè)類(lèi)①隨機(jī)選擇k個(gè)句子作為每個(gè)類(lèi)的中心;

4、②重復(fù)下面操作:----依據(jù)樣本到中心的距離,將每個(gè)向量分配到距它最近的類(lèi)中;----計(jì)算新的類(lèi)中心;③直到類(lèi)中心變化很小為止聚類(lèi)中k值的確定通常,用戶(hù)都不希望看到太長(zhǎng)的文摘,因此會(huì)限定文摘的最大長(zhǎng)度。如此一來(lái),當(dāng)限定了文摘的長(zhǎng)度后,類(lèi)的個(gè)數(shù)k值就可用文摘的長(zhǎng)度除以句子的平均長(zhǎng)度來(lái)確定:其中表示用戶(hù)指定的文摘最大長(zhǎng)度。表示原文檔簇中句子的平均長(zhǎng)度。4句子抽取通常一篇好的文摘應(yīng)該具有以下特點(diǎn):長(zhǎng)度符合用戶(hù)規(guī)定、盡可能多地覆蓋原文檔的要點(diǎn)、更忠實(shí)地保留原文檔中的重要信息、較少的冗余、可讀性好等,本節(jié)中評(píng)價(jià)函數(shù)的設(shè)計(jì)遵照上述的前四個(gè)特點(diǎn)。本節(jié)采用演化算法進(jìn)行句子抽

5、取。該算法在句子分類(lèi)的基礎(chǔ)上首先隨機(jī)產(chǎn)生一個(gè)文摘種群,再通過(guò)對(duì)文摘種群中的文摘個(gè)體進(jìn)行評(píng)價(jià)、選擇、雜交和變異生成新的種群,如此反復(fù)進(jìn)行,直至滿(mǎn)足一定的終止條件為止。基因的編碼方式:采用十進(jìn)制不定長(zhǎng)編碼。每一個(gè)代碼表示一個(gè)句子,一組編碼表示一個(gè)。編碼的長(zhǎng)度不能太長(zhǎng),也不能太短,長(zhǎng)度的范圍為用戶(hù)要求句子數(shù)的0.5倍至1.5倍。選擇方法:采用輪盤(pán)式選擇:這種選擇策略在遺傳算法中使用的最多,它也是先計(jì)算個(gè)體的相對(duì)適應(yīng)值記為Pi然后根據(jù)選擇概率把圓盤(pán)分成N份,其中第i扇形的中心角為。在進(jìn)行選擇時(shí),可以假想轉(zhuǎn)動(dòng)一下圓盤(pán),若某參照點(diǎn)落入第i個(gè)扇形內(nèi),則選擇個(gè)體i。這種選擇策略可以如下

6、實(shí)現(xiàn):先生成一個(gè)[0,1]內(nèi)的隨機(jī)數(shù)r,若則選擇個(gè)體i。易見(jiàn),這種選擇方式非常類(lèi)似輪盤(pán)賭中的轉(zhuǎn)盤(pán)。小扇區(qū)的面積越大,色子落入其中的概率也越大,即個(gè)體的適應(yīng)值越大,它被選擇到的機(jī)會(huì)也越多。從而,其基因結(jié)構(gòu)被遺傳到下一代的可能性也越大。交叉策略:采用單點(diǎn)雜交。即隨機(jī)選擇兩個(gè)親代的一部分作交換,形成新的子代。親代形式如下:Parent1(12548

7、96),Parent2(386

8、52)。交換的中間部分,去除重復(fù)句子得到子代形式如下:Child1(12548),Child2(3869)。變異策略:隨機(jī)選擇句的一個(gè)位置加入隨機(jī)不重復(fù)的一個(gè)句子。評(píng)價(jià)函數(shù)的定義為:,其中:S是種群

9、中的一個(gè)個(gè)體;5文摘句排序在獲得文摘句后,還需要考慮其在文摘中的先后順序。文摘句之間存在多種排列,如有n個(gè)文摘句,其排列共有n!種之多,這種排列會(huì)影響到文摘的質(zhì)量,特別是一致性、流暢性、邏輯性等,直接關(guān)系到文摘可讀性的好壞。在句聚類(lèi)的基礎(chǔ)上提出了將句按類(lèi)排序。即屬于同一類(lèi)的句排在一起。并且屬于同類(lèi)的句按句子分值高低排序。對(duì)于不同類(lèi)的句將類(lèi)內(nèi)句數(shù)多的句排在前列。6實(shí)驗(yàn)結(jié)果6.1測(cè)試語(yǔ)料集所選的測(cè)試語(yǔ)料包括10篇新聞文章,選自人民X的高校評(píng)估檢索的10篇文章。高校評(píng)估擬引入社會(huì)評(píng)價(jià)采

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。