資源描述:
《基于改進(jìn)編輯距離的中文相似句子檢索①》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、基于改進(jìn)編輯距離的中文相似句子檢索①②車萬(wàn)翔劉挺秦兵李生(哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院信息檢索研究室哈爾濱150001){car,tliu}@ir.hit.edu.cn摘要中文相似句子檢索的方法在基于實(shí)例的機(jī)器翻譯等中文信息處理領(lǐng)域,具有非常廣泛的應(yīng)用背景。本文提出的基于改進(jìn)編輯距離的中文相似句子檢索方法,在使用信息檢索技術(shù)提高檢索效率的同時(shí),以普通編輯距離算法為基礎(chǔ),加入了詞匯的語(yǔ)義信息,使之更加符合中文句子相似度計(jì)算的要求。改進(jìn)編輯距離與單純基于語(yǔ)義辭典計(jì)算句子相似度的方法相比,具有便于擴(kuò)展,準(zhǔn)確率高等優(yōu)點(diǎn)。在基于大規(guī)模雙語(yǔ)句對(duì)檢索的英文輔助寫作系統(tǒng)中使用該算法進(jìn)行中文句
2、子檢索,最后獲得了81.33%的查準(zhǔn)率和95.31%的查全率。關(guān)鍵詞:改進(jìn)編輯距離、相似句子檢索、英文輔助寫作義詞典的方法,可以很好的解決這一問(wèn)題,但是單純的使用語(yǔ)義詞典的方法,并沒(méi)有考0引言慮到句子內(nèi)部的結(jié)構(gòu)和詞語(yǔ)之間的相互作用關(guān)系,準(zhǔn)確率不高。相似句子檢索,在自然語(yǔ)言處理領(lǐng)域具編輯距離通常被用于句子的快速模糊有非常廣泛的應(yīng)用背景,如信息過(guò)濾技術(shù)中匹配領(lǐng)域,但是其規(guī)定的編輯操作不夠靈的句子模糊匹配,基于實(shí)例機(jī)器翻譯的原語(yǔ)活,也沒(méi)有考慮詞語(yǔ)的同義替換。最后基于言檢索,自動(dòng)問(wèn)答技術(shù)中常問(wèn)問(wèn)題集的檢索統(tǒng)計(jì)的方法,需要構(gòu)造大量的訓(xùn)練語(yǔ)料,工以及問(wèn)題與答案的匹配,基于雙語(yǔ)語(yǔ)料庫(kù)的
3、作量是十分巨大的,而且還存在著數(shù)據(jù)稀疏英文輔助寫作等。因此長(zhǎng)期以來(lái),相似句子的問(wèn)題。檢索問(wèn)題,一直為人們所熱衷。我們所提出的改進(jìn)編輯距離的方法,吸目前句子相似度計(jì)算一般分為三個(gè)等取了基于語(yǔ)義詞典的方法和編輯距離方法[1]級(jí),分別為語(yǔ)法相似度、語(yǔ)義相似度和語(yǔ)的優(yōu)點(diǎn),同時(shí)克服了它們的一些不足。與普用相似度。計(jì)算句子之間的語(yǔ)用相似度,一通編輯距離算法不同,改進(jìn)編輯距離方法同直是人們的目標(biāo),但是其計(jì)算具有相當(dāng)?shù)碾y[6][7]時(shí)使用了HowNet和《同義詞詞林》兩種度,效果還不盡如人意。而在一般的應(yīng)用中,語(yǔ)義資源,計(jì)算詞匯之間的語(yǔ)義距離,同時(shí)只計(jì)算句子的語(yǔ)義相似度就能夠達(dá)到我們賦予
4、不同編輯操作不同的權(quán)重,在不用經(jīng)過(guò)的需要。句子的語(yǔ)義相似,指的是兩個(gè)句子詞義消歧和句法分析的情況下,兼顧了詞匯之間結(jié)構(gòu)類似并且詞匯使用同義或者近義的順序和語(yǔ)義等信息,最終獲得了81.33%詞代替。例如:“我喜歡吃蘋果”與“我愛(ài)的查準(zhǔn)率和95.31%的查全率。本文的第1吃香蕉”就是一對(duì)語(yǔ)義相似的句子。部分描述了英文輔助寫作系統(tǒng)框架以及各目前對(duì)句子語(yǔ)義相似度計(jì)算的研究方個(gè)模塊的算法。第2部分給出了測(cè)試結(jié)果。[1]法主要有:基于相同詞匯的方法、第3部分討論該系統(tǒng)的優(yōu)點(diǎn)和缺點(diǎn)。第4部[2][3][4]使用語(yǔ)義詞典的方法、使用編輯距離分給出了最后的結(jié)論。[5]的方法,以及基于統(tǒng)計(jì)的
5、方法等。其中,基于相同詞匯的方法有很明顯的局限性,對(duì)于同義詞之間的替換則無(wú)能為力。而使用語(yǔ)1.相似句子檢索——————————————相似句子檢索過(guò)程如圖1所示。①863計(jì)劃(2002AA147020-11)、國(guó)家自然科學(xué)基金(60203020)資助項(xiàng)目。②男,1980年生,博士生;研究方向?yàn)樽匀徽Z(yǔ)言處理,信息檢索;聯(lián)系人。1表1.HowNet進(jìn)行詞擴(kuò)展示例原詞擴(kuò)展詞俺本人鄙人我吾俺們我方我們吾吾儕咱咱們按按捺把持扼制管束收束壓壓制抑制制制約羈圖1.相似句子檢索流程圖按鍵按鈕電鍵核心的相似句子檢索算法由候選句子其次,為提高系統(tǒng)的效率,首先對(duì)整個(gè)粗匹配和句子相似度計(jì)算兩部分
6、組成。其語(yǔ)料庫(kù)進(jìn)行初步的篩選,確定數(shù)量不多但有中,候選句子粗匹配模塊首先到句庫(kù)中找到可能與用戶的需求相似的候選句,然后對(duì)這可能與輸入為相似句的候選句子,目的是提些候選句進(jìn)行精確的語(yǔ)義相似度計(jì)算,得出高檢索效率。句子相似度計(jì)算模塊將每一個(gè)最終的結(jié)果。候選句子與輸入句進(jìn)行仔細(xì)的相似度計(jì)算,選擇候選句的依據(jù)是,如果一個(gè)句子中并按照相似度的大小排序,獲得最終的輸出與用戶的需求相同或同義的詞越多,越有可結(jié)果。能與用戶的需求相匹配,即權(quán)重越大。我們[8]采用信息檢索中常用的倒排文檔索引的1.1候選句子粗匹配方法進(jìn)行檢索。在此,并不需要對(duì)用戶輸入句子中的詞進(jìn)行詞義消歧,而直接對(duì)所有擴(kuò)展
7、后的詞進(jìn)候選句子粗匹配由詞擴(kuò)展和快速檢索行檢索。這是由于輸入的詞并非孤立,當(dāng)與兩個(gè)子部分構(gòu)成。其余的詞共同檢索的時(shí)候,能達(dá)到消歧的目首先為了獲得較高的召回率,必須對(duì)分的。以“打”為例,當(dāng)輸入“打毛衣”時(shí),詞以后的各個(gè)詞匯進(jìn)行適當(dāng)?shù)耐x詞擴(kuò)展。“打”被擴(kuò)展為“打擊”,“編織”等。一個(gè)在此,對(duì)同義詞的定義即不能太寬泛,又不句子中同時(shí)含有“編織”和“毛衣”的可能能太嚴(yán)格。如果太寬泛,將檢索到許多無(wú)關(guān)性很大,而“打擊”和“毛衣”幾乎不可能的句子,降低了系統(tǒng)的準(zhǔn)確率和效率;而如同時(shí)出現(xiàn)在一個(gè)句子中。于是,含有“編織”果太嚴(yán)格,又可能漏掉