基于改進編輯距離的中文相似句子檢索①

基于改進編輯距離的中文相似句子檢索①

ID:9229280

大小:367.13 KB

頁數(shù):6頁

時間:2018-04-24

基于改進編輯距離的中文相似句子檢索①_第1頁
基于改進編輯距離的中文相似句子檢索①_第2頁
基于改進編輯距離的中文相似句子檢索①_第3頁
基于改進編輯距離的中文相似句子檢索①_第4頁
基于改進編輯距離的中文相似句子檢索①_第5頁
資源描述:

《基于改進編輯距離的中文相似句子檢索①》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫

1、基于改進編輯距離的中文相似句子檢索①②車萬翔劉挺秦兵李生(哈爾濱工業(yè)大學計算機學院信息檢索研究室哈爾濱150001){car,tliu}@ir.hit.edu.cn摘要中文相似句子檢索的方法在基于實例的機器翻譯等中文信息處理領域,具有非常廣泛的應用背景。本文提出的基于改進編輯距離的中文相似句子檢索方法,在使用信息檢索技術(shù)提高檢索效率的同時,以普通編輯距離算法為基礎,加入了詞匯的語義信息,使之更加符合中文句子相似度計算的要求。改進編輯距離與單純基于語義辭典計算句子相似度的方法相比,具有便于擴展,準確率高等優(yōu)點。在基于大規(guī)模雙語句對檢索的英文輔助寫作系統(tǒng)中使用該

2、算法進行中文句子檢索,最后獲得了81.33%的查準率和95.31%的查全率。關鍵詞:改進編輯距離、相似句子檢索、英文輔助寫作義詞典的方法,可以很好的解決這一問題,但是單純的使用語義詞典的方法,并沒有考0引言慮到句子內(nèi)部的結(jié)構(gòu)和詞語之間的相互作用關系,準確率不高。相似句子檢索,在自然語言處理領域具編輯距離通常被用于句子的快速模糊有非常廣泛的應用背景,如信息過濾技術(shù)中匹配領域,但是其規(guī)定的編輯操作不夠靈的句子模糊匹配,基于實例機器翻譯的原語活,也沒有考慮詞語的同義替換。最后基于言檢索,自動問答技術(shù)中常問問題集的檢索統(tǒng)計的方法,需要構(gòu)造大量的訓練語料,工以及問題與

3、答案的匹配,基于雙語語料庫的作量是十分巨大的,而且還存在著數(shù)據(jù)稀疏英文輔助寫作等。因此長期以來,相似句子的問題。檢索問題,一直為人們所熱衷。我們所提出的改進編輯距離的方法,吸目前句子相似度計算一般分為三個等取了基于語義詞典的方法和編輯距離方法[1]級,分別為語法相似度、語義相似度和語的優(yōu)點,同時克服了它們的一些不足。與普用相似度。計算句子之間的語用相似度,一通編輯距離算法不同,改進編輯距離方法同直是人們的目標,但是其計算具有相當?shù)碾y[6][7]時使用了HowNet和《同義詞詞林》兩種度,效果還不盡如人意。而在一般的應用中,語義資源,計算詞匯之間的語義距離,同

4、時只計算句子的語義相似度就能夠達到我們賦予不同編輯操作不同的權(quán)重,在不用經(jīng)過的需要。句子的語義相似,指的是兩個句子詞義消歧和句法分析的情況下,兼顧了詞匯之間結(jié)構(gòu)類似并且詞匯使用同義或者近義的順序和語義等信息,最終獲得了81.33%詞代替。例如:“我喜歡吃蘋果”與“我愛的查準率和95.31%的查全率。本文的第1吃香蕉”就是一對語義相似的句子。部分描述了英文輔助寫作系統(tǒng)框架以及各目前對句子語義相似度計算的研究方個模塊的算法。第2部分給出了測試結(jié)果。[1]法主要有:基于相同詞匯的方法、第3部分討論該系統(tǒng)的優(yōu)點和缺點。第4部[2][3][4]使用語義詞典的方法、使用

5、編輯距離分給出了最后的結(jié)論。[5]的方法,以及基于統(tǒng)計的方法等。其中,基于相同詞匯的方法有很明顯的局限性,對于同義詞之間的替換則無能為力。而使用語1.相似句子檢索——————————————相似句子檢索過程如圖1所示。①863計劃(2002AA147020-11)、國家自然科學基金(60203020)資助項目。②男,1980年生,博士生;研究方向為自然語言處理,信息檢索;聯(lián)系人。表1.HowNet進行詞擴展示例候選句子粗匹配句子相似度計算原詞擴展詞語義相似度輸入分詞詞擴展快速檢索計算輸出結(jié)果俺本人鄙人我吾俺們我方我們吾吾儕咱咱們按按捺把持扼制管束收束HowN

6、et同義詞詞林壓壓制抑制制制約羈圖1.相似句子檢索流程圖按鍵按鈕電鍵核心的相似句子檢索算法由候選句子其次,為提高系統(tǒng)的效率,首先對整個粗匹配和句子相似度計算兩部分組成。其語料庫進行初步的篩選,確定數(shù)量不多但有中,候選句子粗匹配模塊首先到句庫中找到可能與用戶的需求相似的候選句,然后對這可能與輸入為相似句的候選句子,目的是提些候選句進行精確的語義相似度計算,得出高檢索效率。句子相似度計算模塊將每一個最終的結(jié)果。候選句子與輸入句進行仔細的相似度計算,選擇候選句的依據(jù)是,如果一個句子中并按照相似度的大小排序,獲得最終的輸出與用戶的需求相同或同義的詞越多,越有可結(jié)果。

7、能與用戶的需求相匹配,即權(quán)重越大。我們[8]采用信息檢索中常用的倒排文檔索引的1.1候選句子粗匹配方法進行檢索。在此,并不需要對用戶輸入句子中的詞進行詞義消歧,而直接對所有擴展后的詞進候選句子粗匹配由詞擴展和快速檢索行檢索。這是由于輸入的詞并非孤立,當與兩個子部分構(gòu)成。其余的詞共同檢索的時候,能達到消歧的目首先為了獲得較高的召回率,必須對分的。以“打”為例,當輸入“打毛衣”時,詞以后的各個詞匯進行適當?shù)耐x詞擴展?!按颉北粩U展為“打擊”,“編織”等。一個在此,對同義詞的定義即不能太寬泛,又不句子中同時含有“編織”和“毛衣”的可能能太嚴格。如果太寬泛,將檢索到

8、許多無關性很大,而“打擊”和“毛衣”幾乎不可能的句子

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。