資源描述:
《基于仿射傳播算法的多文檔摘要方法.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、己口l4年日月第]]卷第日期理論與方法基于仿射傳播算法的多文檔摘要方法劉曉燕。黃宇尤紅建(1.中科院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室北京100190;2.中國科學(xué)院電子學(xué)研究所北京100190;3.中國科學(xué)院大學(xué)北京100190)摘要:大多現(xiàn)行的基于聚類的多文檔摘要方法存在對(duì)聚類算法初始設(shè)置敏感的問題。針對(duì)上述問題,提出了一種基于仿射傳播(affinitypropagation,AP)算法的中文多文檔摘要方法。AP算法無需選擇聚類初始點(diǎn),在迭代的過程中自動(dòng)確定聚類中心與聚類個(gè)數(shù)。解決了余弦相似矩陣與
2、AP算法輸入不匹配的問題。使用類MMR算法對(duì)類內(nèi)中心句進(jìn)行排序并按壓縮比抽取句子,對(duì)抽取句子并排序最終生成摘要?;谥形恼Z料的實(shí)驗(yàn)表明,該方法生成的摘要具有較高的信息覆蓋率。關(guān)鍵詞:AP算法;多文檔摘要;自動(dòng)文摘;信息獲取中圖分類號(hào):TN711文獻(xiàn)標(biāo)識(shí)碼:A國家標(biāo)準(zhǔn)學(xué)科分類代碼:520.6099Newmulti-documentsummarizationapproachbasedonaffinitypropagationalgorithmLiuXiaoyan··。HuangYu’YouHongjian’
3、(1.CASKeyLaboratoryofSpatialInformationProcessingandAppliedSystemTechnology,Beijing100190,China;2.InstituteofElectronics,ChineseAcademyofSciences,Beijing100190,China;3.UniversityofChineseAcademyofSciences,Beijing100190,China)Abstract:Clusteringbasedmulti
4、—documentsummarizationapproachesgenerallyaresensitivetotheinitializationofclusteralgorithms.Thispaperpresentsanextractivemulti—documentsummarizationmethodbasedonaffinitypropagation(AP)clusteringalgorithm,whichneedsnoinitializationsettingssuchasclusternum
5、berandclustercenter.Thecentralsen—tencesareautomaticallyfoundbytheAPalgorithmduringiterations.Toincreasetheratioofcompression,weapplyaMMRlikeaIgorithmtotheresultofAPtoremovetheredundantcentralsentences.Atlast,theremainedcentralsen—tencesaresortedchronolo
6、gicallytOformthefinalsummary.ExperimentswithChinesecorpusshowthatthegeneratedsummaryhashighinformationcoverageratio.Keywords:APalgorithm;multi—documentsummarization;automaticsummarization;informationacquisition所謂多文檔摘要,是指同一主題下的不同文檔的集合引言按照一定的壓縮比,抽取與該主題最相關(guān)內(nèi)
7、容組成一篇文計(jì)算機(jī)的迅速普及使得網(wǎng)絡(luò)相關(guān)研究不斷取得新進(jìn)本的自然語言處理技術(shù)。該技術(shù)的重點(diǎn)是去除冗余和抽展]。作為應(yīng)用層的研究,信息技術(shù)的快速發(fā)展使得海取最相關(guān)的信息。生成的摘要應(yīng)具備概括性、客觀性、簡量信息不斷涌現(xiàn),復(fù)雜化、多樣化和即時(shí)化使得人們獲取、潔H:、l可讀性的特點(diǎn)。理解信息的方式發(fā)生了巨大變化。如何快速有效地從—,{生成摘要方法的不同,多文檔摘要可以分為抽取Web上獲取有用信息已經(jīng)成為當(dāng)今研究的熱點(diǎn)。多文檔式摘叟(extract)和理解式摘要(abstract)。抽取式摘要直摘要技術(shù)綜合了文
8、本分析、數(shù)據(jù)挖掘、人工智能等學(xué)科的接從原始文檔中抽取最能反映文檔主題且句間冗余較小理論和方法,為人們理解復(fù)雜文本內(nèi)容背后潛藏的結(jié)構(gòu)和的句子組成摘要。理解式摘要需要在理解文檔集的基礎(chǔ)規(guī)律提供了一種有效的思路。收稿日期:2014—04中國科技核心期刊國外電子測(cè)量技術(shù)一29—己口I4年呂月理論與方法j第]]卷第呂期——_上使用信息融合、語句生成等自然語言處理技術(shù)生成滿足AP算法的輸人為數(shù)據(jù)點(diǎn)之間的相似矩陣S,表示樣要求的摘要。理解式摘要生成過程復(fù)