資源描述:
《基于淺層語義分析的文本摘要方法研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、4擊糾成*葦UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA碩:t學位淪文MASTERTHESIS尸.涼聲.尤/._如歧/u?^7.^漏\\讀謀.■■-■>:::::;:::;,:..,論文題目基于淺層語義分析的支本摘要方法妍究與實現(xiàn)…―—'……—…— ̄ ̄^學科專業(yè)計算機軟件與理論——….■—.一"^^201321060238.巧;學號.化者姓名李寶程、指導敷師劉貴松副教授'?
2、.......V苗'■■?:'o...c;.■<:/'1?;Vr:?排聽議議議議獨創(chuàng)性聲明本人聲明所呈交的學位論文是本人在導師指導下進行的研究工作及取得的研究成果,。據(jù)我所知除了文中特別加W標注和致謝的地方夕h論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學或其它教育機構(gòu)的學位或證書而使用過的材料。與我同王作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示謝意。作者簽名:殊雖日期:占年月么P日^Xw6論文使用授權(quán)了大有關(guān)
3、保留、使用學位論文本學位論文作者完全解電子科技學和磁盤,,有權(quán)保口構(gòu)送交論文的復印件的規(guī)定留并向國家有關(guān)部或機1^全^將的論文被查閱和借閱。本人授權(quán)電子科技大學可學位論文允許入有關(guān)數(shù)據(jù),、縮描或部分庫進索可臥采用影印印或掃部內(nèi)容編行檢等復制手段保存、匯編學位論文。此)(保密的學位論文在解密后應遵守規(guī)定.玄/;;導師簽名作者簽名釋f《:日年^日期月巧?分類號密級注1UDC學位論文基于淺層語義分析的文本摘要方法研究與實現(xiàn)李寶程指導教師劉貴松副教授電子科技大學成都申請學位級別碩士學科專業(yè)計算機軟件與理論提交論文日期2016.03論
4、文答辯日期2016.05學位授予單位和日期電子科技大學2016年6月答辯委員會主席評閱人注1:注明《國際十進分類法UDC》的類號。RESEARCHANDIMPLEMENTATIONOFAUTOMATICTEXTSUMMARIZATIONBASEDONSLIGHTSEMANTICAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerAppliedTechnologyAuthor:LiBaoChengAdvisor:AssociateProfessor
5、LiuGuiSongSchool:SchoolofComputerScience&Engineering摘要摘要當前,互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的快速普及使得信息資源爆炸性增長。豐富的信息資源一方面給人們帶來極大便利,同時也在有效資源的選擇上面臨諸多困難。從網(wǎng)絡信息資源的類型來看,非結(jié)構(gòu)化資源的比例呈現(xiàn)增長趨勢,所涉及的處理技術(shù)相比結(jié)構(gòu)化數(shù)據(jù)而言具備更大的難度。其中,文本類型信息具有典型的非結(jié)構(gòu)化特征,對其進行有效分析和處理在互聯(lián)網(wǎng)以及諸多行業(yè)中具有十分重要的理論價值和實踐意義。文本摘要是文本信息處理中的一個非常重要的組成部分。在實現(xiàn)方法上,本文使用的淺層語義特征區(qū)別于常用
6、的詞語特征,研究的重點不再是可以觀察到的構(gòu)成文章的詞語、句子等基本信息,而是隱藏在這些句子、詞語背后,更深層次的語義信息,稱之為主題特征。通過對文章主題特征的挖掘與分析,可以進一步得到主題-詞語的關(guān)聯(lián),主題-句子的關(guān)聯(lián)?;谶@種關(guān)聯(lián)關(guān)系衡量句子或者詞語表達文章主題的能力,從而選擇出能夠完整表達文章主題的句子作為文本摘要。本文在詳細闡述國內(nèi)外研究現(xiàn)狀的基礎上,首先基于主題對句子關(guān)聯(lián)度計算進行了針對性研究,提出一種新的衡量句子與句子相關(guān)性的方法,在語義層面,充分利用主題對文章的表達能力,基于主題在句子上的概率分布,使用相對熵來計算兩個句子上主題概率分布的差異性來確定句子
7、相關(guān)度,同時將文本歸結(jié)為三類內(nèi)容,作為摘要提取的依據(jù),并在NLPCC2015數(shù)據(jù)集上進行了實驗驗證。同時,論文基于主題和圖模型改進了文本摘要算法。通過LDA模型挖掘出文本語義層面的主題特征,分析文本中詞語和主題的對應關(guān)系,基于改進的圖模型進行文本摘要,改進其以往的建邊方式,使用主題關(guān)聯(lián)來確定不同節(jié)點之間是否建邊。并在DUC數(shù)據(jù)集上實驗驗證,其ROUGE分數(shù)在比較的幾種算法中得分最高。最后,在文本摘要關(guān)鍵技術(shù)基礎上搭建了一個文本摘要功能演示系統(tǒng)?;赟truts2、Hibernate框架,結(jié)合sitemesh、JQuery、CSS、JSP、HTML等技術(shù),可以通過