資源描述:
《一種基于向量詞序的句子相似度算法研究-論文.pdf》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在應用文檔-天天文庫。
1、第31卷第7期計算機仿真2014年7月文章編號:1006—9348(2014)07—0419—06一種基于向量詞序的句子相似度算法研究程志強,閔華松(1.武漢科技大學信息科學與工程學院,湖北武漢430081;2.武漢科技大學冶金自動化與檢測技術教育部工程研究中心,湖北武漢430081)摘要:針對傳統(tǒng)的句子相似度算法在句法結(jié)構等方面存在匹配率低的問題。為提高相似度計算的準確性,提出了一種改進的基于向量距離詞序的句子相似度算法,從特征領域權重和詞序方面進行改進,通過建立相應的領域特征集,對于相關領域的特征項給予更高的權重,同時,在向量空間模型的基礎上,引入詞序因子,計
2、算句子詞序相似度。使用包含6個領域的2651個句子作為語料庫,實驗結(jié)果表明,改進方法使特征領域內(nèi)句子相似度計算的準確度得到提高。關鍵詞:向量空間模型;特征領域權重;詞序中圖分類號:TP391文獻標識碼:BASentencesSimilarityAlgorithmBasedonWordOrderofVectorsDistanceCHENGZhi—qiang.MINHua—song,(1.CollegeofInformationScienceandEngineering,WuhanUniversityofScienceandTechnology,WuhanHubei4
3、30081,China;2.EngineeringResearchCenterofMetallurgicalAutomationandMeasurementTechnologyofMinistryofEducation,WuhanUniversityofScienceandTechnology,WuhanHubei430081,China)ABSTRACT:Traditionalsentencesimilarityalgorithmscannotachievehighaccuracyofsimilaritycalculationduetotheirlowmatch
4、ingrateinthesyntacticstructure.Thispaperproposesanimprovedsentencesimilarityalgorithmbasedonthewordorderofvectordistancetoimprovetheaccuracyofsimilaritycalculation.Itimprovesfromthetextfeature-weightandChinesewordordercalculation.Withtheestablishmentofcorrespondingdomainfeatureset,the
5、featureiteminthedomainwillbegivenahigherweight.AtthesalTletime,onthebasisofthevectorspacemodel,wordor-derfactorisintroducedforthesimilaritycalculationofChinesewordorder.Withthecorpuscontainingsixareasof2651sentences,theexperimentalresultshowsthattheproposedalgorithmcanincreasetheaccur
6、acyofsimilaritycal—culationwithinthedomain.KEYWORDS:Vectorspacemodel;Textfeature-weight;Chinesewordorder1引言特征詞為基礎,進行相似度計算,主要的方法有GerardSal-句子相似度計算在自然語言處理方面的各個領域都有ton提出向量空間法、潘謙紅、王炬、史忠植提出基于屬著廣泛的應用。例如在自動問答系統(tǒng)中常問問題庫的檢性論計算文本相似度方法等。基于特征詞的句子相似度計索,如何根據(jù)用戶的提問在知識庫中查找到對應的答案,通算方法只是在句子的特征結(jié)構方面進行計算,沒有考
7、慮詞語過計算提問的句子和知識庫中對應的句子之間相似度來解蘊含的語義信息,對于同義詞以及一詞多義情況計算效果不決的。在信息過濾技術中],通過句子相似度計算,可自動佳,使得相似度計算的準確度不高。過濾掉用戶可能并不想看到的信息。同樣,在機器翻譯基于語義信息的相似度計算方法通過計算句子的詞語中、自動文摘中均用到該技術,以獲取需要的信息。相似度來得到句子的相似度。句子詞語的相似度通過計算目前,主要的文本相似度方法有基于特征詞方法、基于詞語對應的概念在概念層次體系結(jié)構中的距離得到,概念間語義信息方法和基于句法結(jié)構方法,但是這些方法均存在一的距離又由概念的上下位、同義和反義關
8、系得到?;?/p>