基于遺傳算法的中文多文檔自動(dòng)摘要方法研究

ID：22599253

大小：64.00 KB

頁(yè)數(shù)：11頁(yè)

時(shí)間：2018-10-30

資源描述：

《基于遺傳算法的中文多文檔自動(dòng)摘要方法研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、基于遺傳算法的中文多文檔自動(dòng)摘要方法研究：本文研究的重點(diǎn)是中文多文檔自動(dòng)的幾個(gè)關(guān)鍵技術(shù)：包括子主題劃分、基于子主題的句子抽取等。在傳統(tǒng)的基于子主題的句子抽取方法的基礎(chǔ)上提出一種基于子主題的遺傳算法句子抽取方法，并對(duì)形成的句子采用新的排序方法。所實(shí)現(xiàn)的中文多文檔系統(tǒng)具有重點(diǎn)突出，可讀性強(qiáng)等特點(diǎn).論文關(guān)鍵詞：遺傳算法,多文檔,,句子抽取,聚類(lèi)隨著互聯(lián)X上信息的急劇膨脹，怎樣快速有效使用龐大而豐富的X上信息成為一個(gè)重要而緊迫的問(wèn)題。由于X上信息很大部分都是以文本形式存在，即通過(guò)自然語(yǔ)言描述的，因此通過(guò)使用自然語(yǔ)言理解技術(shù)對(duì)這些信息進(jìn)行提煉分析己經(jīng)成為近年來(lái)海量信息處理的一個(gè)熱點(diǎn)研究

2、方向，信息檢索、信息抽取、自動(dòng)文摘等自然語(yǔ)言處理的高層課題都吸引了很多研究者。多文檔自動(dòng)技術(shù)也是其中一個(gè)重要的研究課題。2預(yù)處理文本預(yù)處理模塊的主要任務(wù)是對(duì)文檔進(jìn)行章節(jié)、段落、句子等劃分，主要以標(biāo)點(diǎn)符號(hào)為劃分依據(jù)。符號(hào)對(duì)于語(yǔ)法或者語(yǔ)義的影響可能比較大，但是對(duì)于文本預(yù)處理而言，符號(hào)就是句子間隔，將輸入的原文本按照其所屬章節(jié)、段落和句子等信息進(jìn)行標(biāo)記。另外句的句式多為陳述句，象感嘆句、疑問(wèn)句等特殊句式一般不直接表達(dá)文章的中心主旨，考慮這些因素，因此在文檔預(yù)處理分析時(shí)，不對(duì)該類(lèi)句式進(jìn)行處理。在進(jìn)行文檔劃分時(shí)，還應(yīng)該考慮到全角半角標(biāo)點(diǎn)標(biāo)號(hào)的區(qū)別，為保證文本標(biāo)識(shí)的準(zhǔn)確性，還要處理文

3、本的各種標(biāo)點(diǎn)符號(hào)，識(shí)別文本的結(jié)構(gòu)，最終達(dá)到以句子為單位對(duì)文本進(jìn)行分隔的目的。預(yù)處理主要包括兩個(gè)部分：結(jié)構(gòu)預(yù)處理和統(tǒng)計(jì)兩部分。3句子分類(lèi)分類(lèi)模塊：將文檔簇中描述同類(lèi)問(wèn)題的句子進(jìn)行歸類(lèi)。即對(duì)文檔簇進(jìn)行句子聚類(lèi)。句子聚類(lèi)：本文選擇K-means均值聚類(lèi)。選擇原因，由于其效率高，它的計(jì)算復(fù)雜度為O(nkt)，其中n為樣本點(diǎn)的個(gè)數(shù)，k為類(lèi)的個(gè)數(shù)，t為循環(huán)次數(shù)。應(yīng)用K-means均值聚類(lèi)需先定義兩個(gè)句子間的距離。兩個(gè)句子的距離可定義為：，其中SIM(A,B)為句子A和句子B之間的相似度。聚類(lèi)算法：輸入：文檔簇的句子，聚類(lèi)個(gè)數(shù)k個(gè)輸出：k個(gè)類(lèi)①隨機(jī)選擇k個(gè)句子作為每個(gè)類(lèi)的中心；

4、②重復(fù)下面操作：----依據(jù)樣本到中心的距離，將每個(gè)向量分配到距它最近的類(lèi)中；----計(jì)算新的類(lèi)中心；③直到類(lèi)中心變化很小為止聚類(lèi)中k值的確定通常，用戶(hù)都不希望看到太長(zhǎng)的文摘，因此會(huì)限定文摘的最大長(zhǎng)度。如此一來(lái)，當(dāng)限定了文摘的長(zhǎng)度后，類(lèi)的個(gè)數(shù)k值就可用文摘的長(zhǎng)度除以句子的平均長(zhǎng)度來(lái)確定：其中表示用戶(hù)指定的文摘最大長(zhǎng)度。表示原文檔簇中句子的平均長(zhǎng)度。4句子抽取通常一篇好的文摘應(yīng)該具有以下特點(diǎn)：長(zhǎng)度符合用戶(hù)規(guī)定、盡可能多地覆蓋原文檔的要點(diǎn)、更忠實(shí)地保留原文檔中的重要信息、較少的冗余、可讀性好等，本節(jié)中評(píng)價(jià)函數(shù)的設(shè)計(jì)遵照上述的前四個(gè)特點(diǎn)。本節(jié)采用演化算法進(jìn)行句子抽

5、取。該算法在句子分類(lèi)的基礎(chǔ)上首先隨機(jī)產(chǎn)生一個(gè)文摘種群，再通過(guò)對(duì)文摘種群中的文摘個(gè)體進(jìn)行評(píng)價(jià)、選擇、雜交和變異生成新的種群，如此反復(fù)進(jìn)行，直至滿(mǎn)足一定的終止條件為止。基因的編碼方式：采用十進(jìn)制不定長(zhǎng)編碼。每一個(gè)代碼表示一個(gè)句子，一組編碼表示一個(gè)。編碼的長(zhǎng)度不能太長(zhǎng)，也不能太短，長(zhǎng)度的范圍為用戶(hù)要求句子數(shù)的0.5倍至1.5倍。選擇方法：采用輪盤(pán)式選擇：這種選擇策略在遺傳算法中使用的最多，它也是先計(jì)算個(gè)體的相對(duì)適應(yīng)值記為Pi然后根據(jù)選擇概率把圓盤(pán)分成N份，其中第i扇形的中心角為。在進(jìn)行選擇時(shí)，可以假想轉(zhuǎn)動(dòng)一下圓盤(pán)，若某參照點(diǎn)落入第i個(gè)扇形內(nèi)，則選擇個(gè)體i。這種選擇策略可以如下

6、實(shí)現(xiàn)：先生成一個(gè)[0，1]內(nèi)的隨機(jī)數(shù)r，若則選擇個(gè)體i。易見(jiàn)，這種選擇方式非常類(lèi)似輪盤(pán)賭中的轉(zhuǎn)盤(pán)。小扇區(qū)的面積越大，色子落入其中的概率也越大，即個(gè)體的適應(yīng)值越大，它被選擇到的機(jī)會(huì)也越多。從而，其基因結(jié)構(gòu)被遺傳到下一代的可能性也越大。交叉策略：采用單點(diǎn)雜交。即隨機(jī)選擇兩個(gè)親代的一部分作交換，形成新的子代。親代形式如下：Parent1(12548

7、96)，Parent2(386

8、52)。交換的中間部分，去除重復(fù)句子得到子代形式如下：Child1(12548)，Child2(3869)。變異策略：隨機(jī)選擇句的一個(gè)位置加入隨機(jī)不重復(fù)的一個(gè)句子。評(píng)價(jià)函數(shù)的定義為：，其中：S是種群

9、中的一個(gè)個(gè)體；5文摘句排序在獲得文摘句后，還需要考慮其在文摘中的先后順序。文摘句之間存在多種排列，如有n個(gè)文摘句，其排列共有n!種之多，這種排列會(huì)影響到文摘的質(zhì)量，特別是一致性、流暢性、邏輯性等，直接關(guān)系到文摘可讀性的好壞。在句聚類(lèi)的基礎(chǔ)上提出了將句按類(lèi)排序。即屬于同一類(lèi)的句排在一起。并且屬于同類(lèi)的句按句子分值高低排序。對(duì)于不同類(lèi)的句將類(lèi)內(nèi)句數(shù)多的句排在前列。6實(shí)驗(yàn)結(jié)果6.1測(cè)試語(yǔ)料集所選的測(cè)試語(yǔ)料包括10篇新聞文章，選自人民X的高校評(píng)估檢索的10篇文章。高校評(píng)估擬引入社會(huì)評(píng)價(jià)采

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 11



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳，版權(quán)歸屬用戶(hù)，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。

基于遺傳算法的中文多文檔自動(dòng)摘要方法研究

基于遺傳算法的中文多文檔自動(dòng)摘要方法研究

相關(guān)文章

相關(guān)標(biāo)簽