資源描述:
《基于主題句語義融合的多文檔摘要算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、基于主題句語義融合的多文檔摘要算法研究重慶大學碩士學位論文(學術(shù)學位)學生姓名:劉子平劉子平指導教師:李學明教授李學明教授專業(yè):計算機軟件與理論學科門類:工學重慶大學計算機學院二O一六年四月StudyonMulti-DocumentSummarizationAlgorithmbasedonfusingtopicsentencessemanticAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMaster’sDegreeofEngineeringByLiuLiuZ
2、ipingZipingSupervisedbyProf.XuemingLiXuemingLiSpecialty:ComputerSoftwareandTheoryCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril2016重慶大學碩士學位論文中文摘要摘要隨著互聯(lián)網(wǎng)上的文本信息量呈指數(shù)式增長,自然語言處理作為計算機智能處理海量文本信息的關(guān)鍵,已成為目前的一個研究熱點。當前國際自然語言處理的研究熱點有機器翻譯,情感分析,語義分析,文檔摘要等,并且都取得了不錯的成績。其中,多文檔摘要技術(shù)為快速、有
3、效地組織大量信息提煉出至關(guān)重要的內(nèi)容,提供了一種良好的途徑。其旨在相似話題的文本中提煉出重要主題的內(nèi)容,生成簡短通順、可讀性好的短文本摘要,為用戶處理信息帶來了便利。關(guān)于多文檔摘要研究,主題關(guān)系和語義信息對文本信息理解至關(guān)重要。LDA模型是一種文檔隨機生成過程,它通過Gibbs采樣,把語料庫中的詞項和文檔映射到潛在主題的維度上,挖掘出文章中隱藏在詞匯背后的主題信息。摘要的句法分析有利于降低修飾詞的嵌套復雜度,融合新的結(jié)構(gòu)信息,豐富了摘要句的表達多樣性,對研究自動摘要的冗余消除有著積極推動作用。從主題關(guān)系和語義融合相結(jié)合的角度,本課題研究了多文檔摘要句生成方法,重點工作和
4、創(chuàng)新點如下:第一,設(shè)計了基于整數(shù)線性規(guī)劃的概括式自動摘要算法的框架,該算法優(yōu)選出每個主題下的重要主題語義信息,融合組裝成新的摘要句,并考慮了對候選摘要句的潤色加工,補齊句子主干成分的輔助信息,名詞短語和動詞短語的重寫,改善了生成概括式摘要的信息覆蓋和可讀性。第二,提出了基于改進LDA模型和K-means的主題句聚類算法T-means,利用了大規(guī)模文檔集的聚類數(shù)與拆為為句子集中潛在主題數(shù)目的一致性特點,解決了LDA模型的最佳主題數(shù)目的估計,設(shè)計出新的主題重要度可計算模型,選取n個主題所在維度上的重要句子作為初始聚類中心,完成主題句的聚類。第三,采用文本理解會議的公開數(shù)據(jù)集
5、DUC2003和DUC2004對比不同風格摘要算法,以及當前流行的摘要算法,本文提出的摘要算法在信息豐富度和可讀性上明顯好于抽取式摘要和壓縮摘要。關(guān)鍵詞:多文檔自動摘要,主題句聚類,潛在狄立克雷分布,信息融合I重慶大學碩士學位論文英文摘要ABSTRACTWiththeexponentialgrowthoftextinformationontheInternet,NaturalLanguageProcessinghasbecomeahotresearchtopicbecauseofcomputerintelligentprocessingofmasstextmessage
6、s.Currently,theinternationalresearchhotspotsofNaturalLanguageProcessing,MachineTranslation,SentimentAnalysis,SemanticAnalysis,DocumentSummary,etc,hasmadeabetterperformance.Amongthem,Multi-documentSummarizationtechnologyprovidesagoodwayforuserstoorganizealotofinformation,extractimportanti
7、nformationquicklyandeffectively.Itsefforttoextractanimportantthemecontentfromsomesimilartopictextsandpresentittotheuserintheformofashort,concise,readabletext.Itenhancestheuserinformationprocessingefficiency.AstoResearchonmulti-documentsummarization,thematicrelationsandsem