基于改進(jìn)編輯距離的中文相似句子檢索①

基于改進(jìn)編輯距離的中文相似句子檢索①

ID:9229280

大?。?67.13 KB

頁數(shù):6頁

時(shí)間:2018-04-24

基于改進(jìn)編輯距離的中文相似句子檢索①_第1頁
基于改進(jìn)編輯距離的中文相似句子檢索①_第2頁
基于改進(jìn)編輯距離的中文相似句子檢索①_第3頁
基于改進(jìn)編輯距離的中文相似句子檢索①_第4頁
基于改進(jìn)編輯距離的中文相似句子檢索①_第5頁
資源描述:

《基于改進(jìn)編輯距離的中文相似句子檢索①》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、基于改進(jìn)編輯距離的中文相似句子檢索①②車萬翔劉挺秦兵李生(哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院信息檢索研究室哈爾濱150001){car,tliu}@ir.hit.edu.cn摘要中文相似句子檢索的方法在基于實(shí)例的機(jī)器翻譯等中文信息處理領(lǐng)域,具有非常廣泛的應(yīng)用背景。本文提出的基于改進(jìn)編輯距離的中文相似句子檢索方法,在使用信息檢索技術(shù)提高檢索效率的同時(shí),以普通編輯距離算法為基礎(chǔ),加入了詞匯的語義信息,使之更加符合中文句子相似度計(jì)算的要求。改進(jìn)編輯距離與單純基于語義辭典計(jì)算句子相似度的方法相比,具有便于擴(kuò)展,準(zhǔn)確率高等優(yōu)點(diǎn)。在基于大規(guī)模雙語句對檢索的英文輔助寫作系統(tǒng)中使用該

2、算法進(jìn)行中文句子檢索,最后獲得了81.33%的查準(zhǔn)率和95.31%的查全率。關(guān)鍵詞:改進(jìn)編輯距離、相似句子檢索、英文輔助寫作義詞典的方法,可以很好的解決這一問題,但是單純的使用語義詞典的方法,并沒有考0引言慮到句子內(nèi)部的結(jié)構(gòu)和詞語之間的相互作用關(guān)系,準(zhǔn)確率不高。相似句子檢索,在自然語言處理領(lǐng)域具編輯距離通常被用于句子的快速模糊有非常廣泛的應(yīng)用背景,如信息過濾技術(shù)中匹配領(lǐng)域,但是其規(guī)定的編輯操作不夠靈的句子模糊匹配,基于實(shí)例機(jī)器翻譯的原語活,也沒有考慮詞語的同義替換。最后基于言檢索,自動(dòng)問答技術(shù)中常問問題集的檢索統(tǒng)計(jì)的方法,需要構(gòu)造大量的訓(xùn)練語料,工以及問題與

3、答案的匹配,基于雙語語料庫的作量是十分巨大的,而且還存在著數(shù)據(jù)稀疏英文輔助寫作等。因此長期以來,相似句子的問題。檢索問題,一直為人們所熱衷。我們所提出的改進(jìn)編輯距離的方法,吸目前句子相似度計(jì)算一般分為三個(gè)等取了基于語義詞典的方法和編輯距離方法[1]級,分別為語法相似度、語義相似度和語的優(yōu)點(diǎn),同時(shí)克服了它們的一些不足。與普用相似度。計(jì)算句子之間的語用相似度,一通編輯距離算法不同,改進(jìn)編輯距離方法同直是人們的目標(biāo),但是其計(jì)算具有相當(dāng)?shù)碾y[6][7]時(shí)使用了HowNet和《同義詞詞林》兩種度,效果還不盡如人意。而在一般的應(yīng)用中,語義資源,計(jì)算詞匯之間的語義距離,同

4、時(shí)只計(jì)算句子的語義相似度就能夠達(dá)到我們賦予不同編輯操作不同的權(quán)重,在不用經(jīng)過的需要。句子的語義相似,指的是兩個(gè)句子詞義消歧和句法分析的情況下,兼顧了詞匯之間結(jié)構(gòu)類似并且詞匯使用同義或者近義的順序和語義等信息,最終獲得了81.33%詞代替。例如:“我喜歡吃蘋果”與“我愛的查準(zhǔn)率和95.31%的查全率。本文的第1吃香蕉”就是一對語義相似的句子。部分描述了英文輔助寫作系統(tǒng)框架以及各目前對句子語義相似度計(jì)算的研究方個(gè)模塊的算法。第2部分給出了測試結(jié)果。[1]法主要有:基于相同詞匯的方法、第3部分討論該系統(tǒng)的優(yōu)點(diǎn)和缺點(diǎn)。第4部[2][3][4]使用語義詞典的方法、使用

5、編輯距離分給出了最后的結(jié)論。[5]的方法,以及基于統(tǒng)計(jì)的方法等。其中,基于相同詞匯的方法有很明顯的局限性,對于同義詞之間的替換則無能為力。而使用語1.相似句子檢索——————————————相似句子檢索過程如圖1所示。①863計(jì)劃(2002AA147020-11)、國家自然科學(xué)基金(60203020)資助項(xiàng)目。②男,1980年生,博士生;研究方向?yàn)樽匀徽Z言處理,信息檢索;聯(lián)系人。表1.HowNet進(jìn)行詞擴(kuò)展示例候選句子粗匹配句子相似度計(jì)算原詞擴(kuò)展詞語義相似度輸入分詞詞擴(kuò)展快速檢索計(jì)算輸出結(jié)果俺本人鄙人我吾俺們我方我們吾吾儕咱咱們按按捺把持扼制管束收束HowN

6、et同義詞詞林壓壓制抑制制制約羈圖1.相似句子檢索流程圖按鍵按鈕電鍵核心的相似句子檢索算法由候選句子其次,為提高系統(tǒng)的效率,首先對整個(gè)粗匹配和句子相似度計(jì)算兩部分組成。其語料庫進(jìn)行初步的篩選,確定數(shù)量不多但有中,候選句子粗匹配模塊首先到句庫中找到可能與用戶的需求相似的候選句,然后對這可能與輸入為相似句的候選句子,目的是提些候選句進(jìn)行精確的語義相似度計(jì)算,得出高檢索效率。句子相似度計(jì)算模塊將每一個(gè)最終的結(jié)果。候選句子與輸入句進(jìn)行仔細(xì)的相似度計(jì)算,選擇候選句的依據(jù)是,如果一個(gè)句子中并按照相似度的大小排序,獲得最終的輸出與用戶的需求相同或同義的詞越多,越有可結(jié)果。

7、能與用戶的需求相匹配,即權(quán)重越大。我們[8]采用信息檢索中常用的倒排文檔索引的1.1候選句子粗匹配方法進(jìn)行檢索。在此,并不需要對用戶輸入句子中的詞進(jìn)行詞義消歧,而直接對所有擴(kuò)展后的詞進(jìn)候選句子粗匹配由詞擴(kuò)展和快速檢索行檢索。這是由于輸入的詞并非孤立,當(dāng)與兩個(gè)子部分構(gòu)成。其余的詞共同檢索的時(shí)候,能達(dá)到消歧的目首先為了獲得較高的召回率,必須對分的。以“打”為例,當(dāng)輸入“打毛衣”時(shí),詞以后的各個(gè)詞匯進(jìn)行適當(dāng)?shù)耐x詞擴(kuò)展?!按颉北粩U(kuò)展為“打擊”,“編織”等。一個(gè)在此,對同義詞的定義即不能太寬泛,又不句子中同時(shí)含有“編織”和“毛衣”的可能能太嚴(yán)格。如果太寬泛,將檢索到

8、許多無關(guān)性很大,而“打擊”和“毛衣”幾乎不可能的句子

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。