全文檢索技術(shù)探究和應(yīng)用

ID：5933416

大?。?1.00 KB

頁數(shù)：9頁

時(shí)間：2017-12-29

資源描述：

《全文檢索技術(shù)探究和應(yīng)用》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、全文檢索技術(shù)探究和應(yīng)用　　摘要:本文對(duì)中文全文檢索的有關(guān)技術(shù)進(jìn)行了較為深入的研究。其重點(diǎn)放在了全文檢索技術(shù)的應(yīng)用上，介紹了一種全文檢索引擎工具包一Lucerne。關(guān)鍵字：全文檢索；倒排文件；Lucerne；全文數(shù)據(jù)庫；自動(dòng)分詞中圖分類號(hào)：[G257.5]文獻(xiàn)標(biāo)識(shí)碼：A一、全文檢索技術(shù)簡(jiǎn)介（一）什么是全文檢索全文檢索是指計(jì)算機(jī)索引程序通過掃描文章中的每一個(gè)詞，對(duì)每一個(gè)詞建立一個(gè)索引，指明該詞在文章中出現(xiàn)的次數(shù)和位置，當(dāng)用戶查詢時(shí)，檢索程序就根據(jù)事先建立的索引進(jìn)行查找，并將查找的結(jié)果反饋給用戶的檢索方式。這個(gè)過程類似于通過字典中的檢索字表查字的過程?？傊?，全文檢索技術(shù)是現(xiàn)代信息檢索

2、的一項(xiàng)重要技術(shù)。（二）全文檢索需要解決的問題一套完整的全文檢索一般包括：1對(duì)不同文本的統(tǒng)一處理；2索引的建立；3對(duì)漢語詞語進(jìn)行正確的切分；4檢索問題；5排序問題5個(gè)問題進(jìn)行分析與研究。二、建立索引庫（一）索引文件分類91.順排檔結(jié)構(gòu)順排檔文檔是以Decide為主序的，每一文檔下存放各自出現(xiàn)的詞的ID及各詞所出現(xiàn)的次數(shù)和具體位置信息，各數(shù)據(jù)項(xiàng)的存儲(chǔ)長(zhǎng)度固定。2.倒排檔結(jié)構(gòu)（1）一級(jí)索引：一級(jí)索引文件屬于記錄式文件，每一記錄大小固定，共有三個(gè)數(shù)據(jù)項(xiàng)構(gòu)成，WordID、文檔數(shù)、第一個(gè)文檔開始位置。其中WordID是詞典中詞條的ID，文檔數(shù)是指這個(gè)詞總共在多少個(gè)文檔中出現(xiàn)，文檔開始位置

3、是一個(gè)文件指針指向二級(jí)索引中出現(xiàn)當(dāng)前詞的文檔集中的第一個(gè)文檔存儲(chǔ)位置，這個(gè)指針是一個(gè)長(zhǎng)整形值相當(dāng)于指明了是二級(jí)索引文件中的第幾條記錄，因?yàn)楦饔涗涢L(zhǎng)度也是固定大小。通過這個(gè)指向可以直接定位到二級(jí)索引文件讀取位置，然后讀取nDocs個(gè)記錄即可，因?yàn)樗鼈兪谴娣旁谶B續(xù)的地址空間上。（2）二級(jí)索引：二級(jí)索引也是一種記錄式文件，每一記錄有三個(gè)數(shù)據(jù)項(xiàng)組成，DocID、出現(xiàn)次數(shù)、第一個(gè)Hit位置。其中DocID是文檔的ID，出現(xiàn)次數(shù)指的是當(dāng)前文檔中某一個(gè)詞出現(xiàn)的次數(shù)，第一個(gè)Hit位置也是一個(gè)指針，指向Hits文件中的某一位置。通過這個(gè)指針就可以直接定位到Hits位置中的讀取位置，這樣連續(xù)讀取n

4、Hits9個(gè)記錄就可以將所有當(dāng)前詞在當(dāng)前文檔中的出現(xiàn)的位置信息都讀入。這些文件將屬于同一WordID下的所有文檔記錄按其詞在整個(gè)文檔的權(quán)值從大到小排列。（3）Hits位置信息文件：這些文件每一記錄只有一個(gè)數(shù)據(jù)項(xiàng)，即Hit位置信息，只記錄了各詞在文檔中出現(xiàn)的位置。將同一詞在同一文檔中的出現(xiàn)位置按出現(xiàn)的先后排列。這樣在讀取文檔并提取摘要時(shí)只需對(duì)字符串從頭到尾掃描一邊即可，不需要來回掃描。（二）倒排索引壓縮1.Lucerne壓縮技術(shù)為了減小索引文件的大小，Lucene對(duì)索引也使用了壓縮技術(shù)。首先，對(duì)詞典文件中的關(guān)鍵詞進(jìn)行了壓縮，關(guān)鍵詞壓縮為，例如：當(dāng)前詞為“阿拉伯語”，上一個(gè)詞為“阿

5、拉伯”，那么“阿拉伯語”壓縮為。其次大量用到的是對(duì)數(shù)字的壓縮，數(shù)字只保存與上一個(gè)值的差值（這樣可以減小數(shù)字的長(zhǎng)度，進(jìn)而減少保存該數(shù)字需要的字節(jié)數(shù)）。例如當(dāng)前文章號(hào)是16389（不壓縮要用3個(gè)字節(jié)保存），上一文章號(hào)是16382，壓縮后保存7（只用一個(gè)字節(jié)）注意是”上一個(gè)詞”。。由于詞典詞典是按順序排列的，這種壓縮方法的效果會(huì)非常顯著。是按順序排列的2.動(dòng)態(tài)文本集的倒排索引壓縮方案我們考慮文本集動(dòng)態(tài)性時(shí)，9將文本內(nèi)部的動(dòng)態(tài)調(diào)整用兩次文本層次的調(diào)整代替，即對(duì)一個(gè)文本作文字改動(dòng)視為刪除舊文本和增加新文本，因此一般只考慮文本層次的索引動(dòng)態(tài)同步調(diào)整。位置序列記錄的是某單詞在一個(gè)文本內(nèi)部的位

6、置，由于只考慮文本層次的增加、刪除，所以該序列內(nèi)部的值不會(huì)發(fā)生任何的改動(dòng)，它是靜態(tài)的，可以采用壓縮率較高的任何壓縮方法。與文檔ID序列和詞頻序列相比，位置序列占用的索引空間往往多于二者，故而位置序列的壓縮對(duì)整個(gè)倒排索引的壓縮率起決定性作用。到目前為止，壓縮率最高的首推二進(jìn)制內(nèi)插編碼，雖然它的壓縮與解壓比較耗時(shí)，但與由壓縮減少的I/O時(shí)間相比，可以忽略，因此我們可以對(duì)位置序列采用二進(jìn)制內(nèi)插編碼。三、中文分詞研究我們討論的分詞算法可分為三大類：基于字典、詞庫匹配的分詞方法；基于詞頻度統(tǒng)計(jì)的分詞方法和基于知識(shí)理解的分詞方法。（一）基于字典、詞庫匹配的分詞方法9這種方法又叫做機(jī)械分詞方

7、法，它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配，若在詞典中找到某個(gè)字符串，則匹配成功（識(shí)別出一個(gè)詞）。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長(zhǎng)度優(yōu)先匹配的情況，可以分為最大（最長(zhǎng)）匹配和最?。ㄗ疃蹋┢ヅ?；按照是否與詞性標(biāo)注過程相結(jié)合，又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下：1.最大正向匹配法 (MaximumMatchingMethod)通常簡(jiǎn)稱為ＭＭ法2.逆向最大匹配法

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 9



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

全文檢索技術(shù)探究和應(yīng)用

全文檢索技術(shù)探究和應(yīng)用

相關(guān)文章

相關(guān)標(biāo)簽