資源描述:
《全文檢索技術(shù)探究和應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、全文檢索技術(shù)探究和應(yīng)用 摘要:本文對(duì)中文全文檢索的有關(guān)技術(shù)進(jìn)行了較為深入的研究。其重點(diǎn)放在了全文檢索技術(shù)的應(yīng)用上,介紹了一種全文檢索引擎工具包一Lucerne。關(guān)鍵字:全文檢索;倒排文件;Lucerne;全文數(shù)據(jù)庫;自動(dòng)分詞中圖分類號(hào):[G257.5]文獻(xiàn)標(biāo)識(shí)碼:A一、全文檢索技術(shù)簡(jiǎn)介(一)什么是全文檢索全文檢索是指計(jì)算機(jī)索引程序通過掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶的檢索方式。這個(gè)過程類似于通過字典中的檢索字表查字的過程??傊?,全文檢索技術(shù)是現(xiàn)代信息檢索
2、的一項(xiàng)重要技術(shù)。(二)全文檢索需要解決的問題一套完整的全文檢索一般包括:1對(duì)不同文本的統(tǒng)一處理;2索引的建立;3對(duì)漢語詞語進(jìn)行正確的切分;4檢索問題;5排序問題5個(gè)問題進(jìn)行分析與研究。二、建立索引庫(一)索引文件分類91.順排檔結(jié)構(gòu)順排檔文檔是以Decide為主序的,每一文檔下存放各自出現(xiàn)的詞的ID及各詞所出現(xiàn)的次數(shù)和具體位置信息,各數(shù)據(jù)項(xiàng)的存儲(chǔ)長(zhǎng)度固定。2.倒排檔結(jié)構(gòu)(1)一級(jí)索引:一級(jí)索引文件屬于記錄式文件,每一記錄大小固定,共有三個(gè)數(shù)據(jù)項(xiàng)構(gòu)成,WordID、文檔數(shù)、第一個(gè)文檔開始位置。其中WordID是詞典中詞條的ID,文檔數(shù)是指這個(gè)詞總共在多少個(gè)文檔中出現(xiàn),文檔開始位置
3、是一個(gè)文件指針指向二級(jí)索引中出現(xiàn)當(dāng)前詞的文檔集中的第一個(gè)文檔存儲(chǔ)位置,這個(gè)指針是一個(gè)長(zhǎng)整形值相當(dāng)于指明了是二級(jí)索引文件中的第幾條記錄,因?yàn)楦饔涗涢L(zhǎng)度也是固定大小。通過這個(gè)指向可以直接定位到二級(jí)索引文件讀取位置,然后讀取nDocs個(gè)記錄即可,因?yàn)樗鼈兪谴娣旁谶B續(xù)的地址空間上。(2)二級(jí)索引:二級(jí)索引也是一種記錄式文件,每一記錄有三個(gè)數(shù)據(jù)項(xiàng)組成,DocID、出現(xiàn)次數(shù)、第一個(gè)Hit位置。其中DocID是文檔的ID,出現(xiàn)次數(shù)指的是當(dāng)前文檔中某一個(gè)詞出現(xiàn)的次數(shù),第一個(gè)Hit位置也是一個(gè)指針,指向Hits文件中的某一位置。通過這個(gè)指針就可以直接定位到Hits位置中的讀取位置,這樣連續(xù)讀取n
4、Hits9個(gè)記錄就可以將所有當(dāng)前詞在當(dāng)前文檔中的出現(xiàn)的位置信息都讀入。這些文件將屬于同一WordID下的所有文檔記錄按其詞在整個(gè)文檔的權(quán)值從大到小排列。(3)Hits位置信息文件:這些文件每一記錄只有一個(gè)數(shù)據(jù)項(xiàng),即Hit位置信息,只記錄了各詞在文檔中出現(xiàn)的位置。將同一詞在同一文檔中的出現(xiàn)位置按出現(xiàn)的先后排列。這樣在讀取文檔并提取摘要時(shí)只需對(duì)字符串從頭到尾掃描一邊即可,不需要來回掃描。(二)倒排索引壓縮1.Lucerne壓縮技術(shù)為了減小索引文件的大小,Lucene對(duì)索引也使用了壓縮技術(shù)。首先,對(duì)詞典文件中的關(guān)鍵詞進(jìn)行了壓縮,關(guān)鍵詞壓縮為,例如:當(dāng)前詞為“阿拉伯語”,上一個(gè)詞為“阿
5、拉伯”,那么“阿拉伯語”壓縮為。其次大量用到的是對(duì)數(shù)字的壓縮,數(shù)字只保存與上一個(gè)值的差值(這樣可以減小數(shù)字的長(zhǎng)度,進(jìn)而減少保存該數(shù)字需要的字節(jié)數(shù))。例如當(dāng)前文章號(hào)是16389(不壓縮要用3個(gè)字節(jié)保存),上一文章號(hào)是16382,壓縮后保存7(只用一個(gè)字節(jié))注意是”上一個(gè)詞”。。由于詞典詞典是按順序排列的,這種壓縮方法的效果會(huì)非常顯著。是按順序排列的2.動(dòng)態(tài)文本集的倒排索引壓縮方案我們考慮文本集動(dòng)態(tài)性時(shí),9將文本內(nèi)部的動(dòng)態(tài)調(diào)整用兩次文本層次的調(diào)整代替,即對(duì)一個(gè)文本作文字改動(dòng)視為刪除舊文本和增加新文本,因此一般只考慮文本層次的索引動(dòng)態(tài)同步調(diào)整。位置序列記錄的是某單詞在一個(gè)文本內(nèi)部的位
6、置,由于只考慮文本層次的增加、刪除,所以該序列內(nèi)部的值不會(huì)發(fā)生任何的改動(dòng),它是靜態(tài)的,可以采用壓縮率較高的任何壓縮方法。與文檔ID序列和詞頻序列相比,位置序列占用的索引空間往往多于二者,故而位置序列的壓縮對(duì)整個(gè)倒排索引的壓縮率起決定性作用。到目前為止,壓縮率最高的首推二進(jìn)制內(nèi)插編碼,雖然它的壓縮與解壓比較耗時(shí),但與由壓縮減少的I/O時(shí)間相比,可以忽略,因此我們可以對(duì)位置序列采用二進(jìn)制內(nèi)插編碼。三、中文分詞研究我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統(tǒng)計(jì)的分詞方法和基于知識(shí)理解的分詞方法。(一)基于字典、詞庫匹配的分詞方法9這種方法又叫做機(jī)械分詞方
7、法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下:1.最大正向匹配法 (MaximumMatchingMethod)通常簡(jiǎn)稱為MM法2.逆向最大匹配法