基于lle算法聚類句子的文檔摘要研究new

基于lle算法聚類句子的文檔摘要研究new

ID:34560654

大?。?.77 MB

頁數(shù):47頁

時間:2019-03-07

基于lle算法聚類句子的文檔摘要研究new_第1頁
基于lle算法聚類句子的文檔摘要研究new_第2頁
基于lle算法聚類句子的文檔摘要研究new_第3頁
基于lle算法聚類句子的文檔摘要研究new_第4頁
基于lle算法聚類句子的文檔摘要研究new_第5頁
資源描述:

《基于lle算法聚類句子的文檔摘要研究new》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、Mutual-reinforcementdocumentsummarizationusingembeddedgraphbasedsentenceclusteringforstorytellingJournal:InformationProcessingandManagement48(2012)767–778Keywords:DocumentsummarizationSentencerankingSpaceembeddingSentenceclusteringStorytelling1Abstract?本文提出一種故事型文檔(storytelling)摘要框架,通過句子聚類消

2、除冗余,識別公共信息,挖掘故事的潛在主題;通過詞-句-類別之間的相互關(guān)系,對句子排序打分,辨認重要信息,從而形成文摘。?本框架有三個階段:文檔建模,句子聚類以及句子排名。在句子聚類階段提出一種減少無關(guān)句子影響,優(yōu)化文檔模型的方法。2文本摘要的一般步驟:給定文本文摘輸出文本內(nèi)容的文摘的轉(zhuǎn)文本分析選取和泛化換和生成本文研究范圍文摘表示3引言1、INTRODUCTION4?文檔摘要的研究一般有兩種策略:基于抽取的方法和基于理解的方法。1、基于抽?。ㄕ浶晕恼?,一般用在單文檔摘要中。2、基于理解(理解型文摘),一般用在多文檔摘要中,基于自然語言處理技術(shù),既要避免信息的冗余,又要反

3、映不同信息的差異。?根據(jù)文摘的應(yīng)用劃分,也有兩種劃分:普通型摘要,面向用戶查詢的摘要。1、普通型:根據(jù)所給文檔,提供原文作者的主要觀點。2、面向用戶查詢:根據(jù)用戶提交的查詢,提供用戶感興趣的內(nèi)容。5?文本提出一種自動文摘框架:首先聚類句子尋找文檔子話題,利用聚類信息挖掘文檔中潛在的多個主題,并消除冗余信息。然后用互相增強的迭代算法計算句子的排名。最后形成文摘。?在句子聚類中加入優(yōu)化過程,達到削弱無關(guān)句子對聚類結(jié)果的消極影響。具體過程是:先構(gòu)建文檔矩陣和無向加權(quán)圖模型,矩陣的列向量和圖的頂點均表示文本的句子,根據(jù)句子間距離聚類句子。6相關(guān)工作2、RELATEDWORK7?對文

4、本表示一般有兩種表示:矩陣,圖模型。LSA、NMF是對矩陣的變形分析。?潛在語義分析(LSA):通過奇異值分解(SVD),將矩陣X分解為如下形式:?保留較大的奇異值,增強了文檔間相似性。8?非負矩陣分解(Non-negativematrixfactorizationNMF):也是一種數(shù)據(jù)降維方法。它的基本想法就是將一個非負矩陣近似分解為兩個非負矩陣的乘積:其分解的算法是一個帶約束的非線性規(guī)劃問題9?一般把SVD和NMF分解的U矩陣中的列稱為特征向量。?NMF的特征向量由于具有非負的特點,特征向量之間的內(nèi)積必大于零,不可能完全正交,說明NMF分解的特征向量存在信息冗余。?而S

5、VD分解的特征向量彼此正交,但失去了非負的特點,可解釋性變差。10?PageRank是基于圖模型的算法:在網(wǎng)頁排序中,構(gòu)建有向圖模型,網(wǎng)頁是圖上的節(jié)點,一個網(wǎng)頁對另一個網(wǎng)頁傳遞權(quán)重,通過鏈接關(guān)系排序網(wǎng)頁。在自動文摘中,權(quán)重定義為句子間的相似性,一個句子與重要的句子相似度越高,其得分就越高,據(jù)此排序所有句子,得到摘要。11?基于質(zhì)心的摘要方法(Thecentroid-basedsummarizationmethod):將文本表示成向量空間模型。質(zhì)心的構(gòu)建是通過統(tǒng)計文本中重要的詞,為整個文本提供一個原型向量,即質(zhì)心,對于文檔中的每個句子向量,計算其質(zhì)心向量的距離,距離最近的句子

6、可以作為文檔的摘要。?主題-特征(Thetopicsignature)采用更加復(fù)雜的特征表示文檔主題:wewouldreplacejointinstancesoftable,menu,waiter,order,eat,pay,tip,andsoon,bythesinglephraserestaurant-visit12?矩陣因式分解(factorizationtechnology)?基于圖的排序算法(Thegraph-basedranking)?機器學(xué)習(xí)算法(Machinelearningalgorithm)133、SENTENCERANKINGUSINGEMBEDDEDG

7、RAPHBASEDSENTENCECLUSTERING14?本文文檔摘要的基本步驟:?文檔建模:矩陣表示一篇文檔,列向量表示每個句子;構(gòu)建加權(quán)圖模型,頂點表示句子,邊的權(quán)重表示兩個句子之間的距離。?句子聚類:文檔中的句子聚到不同的類中,發(fā)現(xiàn)文檔中潛在的多個話題,其中嵌入一種降低低相似度的句子對聚類效果影響的算法。?句子排名:根據(jù)詞-句子-類別之間的互相影響,決定句子的排名。一個詞得分越高,包含該詞的句子得分就越高,句子所在的類別也越高。153.1Documentmodelingm?n?用矩陣D?[s,...s]?R

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。