資源描述:
《基于遺傳算法的中文多文檔自動摘要方法研究》由會員上傳分享,免費在線閱讀,更多相關內容在工程資料-天天文庫。
1、基于遺傳算法的中文多文檔自動摘要方法研究:本文研究的重點是中文多文檔自動的幾個關鍵技術:包括子主題劃分、基于子主題的句子抽取等。在傳統(tǒng)的基于子主題的句子抽取方法的基礎上提出一種基于子主題的遺傳算法句子抽取方法,并對形成的句子采用新的排序方法。所實現(xiàn)的中文多文檔系統(tǒng)具有重點突出,可讀性強等特點.論文關鍵詞:遺傳算法,多文檔,,句子抽取,聚類隨著互聯(lián)X上信息的急劇膨脹,怎樣快速有效使用龐大而豐富的X上信息成為一個重要而緊迫的問題。由于X上信息很大部分都是以文本形式存在,即通過自然語言描述的,因此通過使用自然語言理解技術對這些信息進行提煉分析己經成為近年來海量信息處理的一個熱點研究
2、方向,信息檢索、信息抽取、自動文摘等自然語言處理的高層課題都吸引了很多研究者。多文檔自動技術也是其中一個重要的研究課題。2預處理文本預處理模塊的主要任務是對文檔進行章節(jié)、段落、句子等劃分,主要以標點符號為劃分依據(jù)。符號對于語法或者語義的影響可能比較大,但是對于文本預處理而言,符號就是句子間隔,將輸入的原文本按照其所屬章節(jié)、段落和句子等信息進行標記。另外句的句式多為陳述句,象感嘆句、疑問句等特殊句式一般不直接表達文章的中心主旨,考慮這些因素,因此在文檔預處理分析時,不對該類句式進行處理。在進行文檔劃分時,還應該考慮到全角半角標點標號的區(qū)別,為保證文本標識的準確性,還要處理文
3、本的各種標點符號,識別文本的結構,最終達到以句子為單位對文本進行分隔的目的。預處理主要包括兩個部分:結構預處理和統(tǒng)計兩部分。3句子分類分類模塊:將文檔簇中描述同類問題的句子進行歸類。即對文檔簇進行句子聚類。句子聚類:本文選擇K-means均值聚類。選擇原因,由于其效率高,它的計算復雜度為O(nkt),其中n為樣本點的個數(shù),k為類的個數(shù),t為循環(huán)次數(shù)。應用K-means均值聚類需先定義兩個句子間的距離。兩個句子的距離可定義為:,其中SIM(A,B)為句子A和句子B之間的相似度。聚類算法:輸入:文檔簇的句子,聚類個數(shù)k個輸出:k個類①隨機選擇k個句子作為每個類的中心;
4、②重復下面操作:----依據(jù)樣本到中心的距離,將每個向量分配到距它最近的類中;----計算新的類中心;③直到類中心變化很小為止聚類中k值的確定通常,用戶都不希望看到太長的文摘,因此會限定文摘的最大長度。如此一來,當限定了文摘的長度后,類的個數(shù)k值就可用文摘的長度除以句子的平均長度來確定:其中表示用戶指定的文摘最大長度。表示原文檔簇中句子的平均長度。4句子抽取通常一篇好的文摘應該具有以下特點:長度符合用戶規(guī)定、盡可能多地覆蓋原文檔的要點、更忠實地保留原文檔中的重要信息、較少的冗余、可讀性好等,本節(jié)中評價函數(shù)的設計遵照上述的前四個特點。本節(jié)采用演化算法進行句子抽
5、取。該算法在句子分類的基礎上首先隨機產生一個文摘種群,再通過對文摘種群中的文摘個體進行評價、選擇、雜交和變異生成新的種群,如此反復進行,直至滿足一定的終止條件為止。基因的編碼方式:采用十進制不定長編碼。每一個代碼表示一個句子,一組編碼表示一個。編碼的長度不能太長,也不能太短,長度的范圍為用戶要求句子數(shù)的0.5倍至1.5倍。選擇方法:采用輪盤式選擇:這種選擇策略在遺傳算法中使用的最多,它也是先計算個體的相對適應值記為Pi然后根據(jù)選擇概率把圓盤分成N份,其中第i扇形的中心角為。在進行選擇時,可以假想轉動一下圓盤,若某參照點落入第i個扇形內,則選擇個體i。這種選擇策略可以如下
6、實現(xiàn):先生成一個[0,1]內的隨機數(shù)r,若則選擇個體i。易見,這種選擇方式非常類似輪盤賭中的轉盤。小扇區(qū)的面積越大,色子落入其中的概率也越大,即個體的適應值越大,它被選擇到的機會也越多。從而,其基因結構被遺傳到下一代的可能性也越大。交叉策略:采用單點雜交。即隨機選擇兩個親代的一部分作交換,形成新的子代。親代形式如下:Parent1(12548
7、96),Parent2(386
8、52)。交換的中間部分,去除重復句子得到子代形式如下:Child1(12548),Child2(3869)。變異策略:隨機選擇句的一個位置加入隨機不重復的一個句子。評價函數(shù)的定義為:,其中:S是種群
9、中的一個個體;5文摘句排序在獲得文摘句后,還需要考慮其在文摘中的先后順序。文摘句之間存在多種排列,如有n個文摘句,其排列共有n!種之多,這種排列會影響到文摘的質量,特別是一致性、流暢性、邏輯性等,直接關系到文摘可讀性的好壞。在句聚類的基礎上提出了將句按類排序。即屬于同一類的句排在一起。并且屬于同類的句按句子分值高低排序。對于不同類的句將類內句數(shù)多的句排在前列。6實驗結果6.1測試語料集所選的測試語料包括10篇新聞文章,選自人民X的高校評估檢索的10篇文章。高校評估擬引入社會評價采