全文檢索技術(shù)

ID：24234503

大小：72.00 KB

頁數(shù)：4頁

時間：2018-11-13

資源描述：

《全文檢索技術(shù)》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、全文檢索技術(shù)1概述圖書情報界對于檢索語言的主流觀點(diǎn)：自然語言檢索是發(fā)展方向，信息檢索要走fl然語言道路；人工語言不適應(yīng)網(wǎng)絡(luò)環(huán)境；目前自然語言檢索技術(shù)雖有缺點(diǎn)，但人工智能發(fā)展可使其逐步達(dá)到完善，滿足檢索的要求。自然語言檢索技術(shù)包括：（1）關(guān)鍵詞索引及以關(guān)鍵詞為檢索標(biāo)識的文獻(xiàn)題錄數(shù)據(jù)庫;（2）全文數(shù)據(jù)庫；（3）搜索引擎及由搜索引擎自動建立的網(wǎng)絡(luò)資源數(shù)據(jù)庫；（4）自動標(biāo)弓I;（5）自動分類。在這5個主要方面中，只有關(guān)鍵詞索引及數(shù)據(jù)庫、企文檢索、搜索引擎己經(jīng)實(shí)現(xiàn)，但這3個方而的實(shí)質(zhì)都是關(guān)鍵詞檢索，所以可以說自然語言檢索目前僅在關(guān)鍵詞檢索的層次上

2、實(shí)現(xiàn)。0前關(guān)鍵詞檢索技術(shù)的最主要用途就是用來實(shí)現(xiàn)全文檢索，它是全文檢索的核心。并且關(guān)鍵詞檢索和全文檢索是密不可分的。2基本概念所謂全文檢索，是指直接以全文本信息作為主要處理對象，并根據(jù)數(shù)據(jù)資料的內(nèi)容而不是外在特征來實(shí)現(xiàn)的信息檢索手段。它的基本工作方式是能夠?qū)⑺邪瑱z索詞的文獻(xiàn)檢索出來，不管這個詞出現(xiàn)在文獻(xiàn)的什么位置，或者說文獻(xiàn)中的任意一個詞都可以作為檢索到該文獻(xiàn)的條件。企文檢索提供存取全文文本（指原始記錄）的空間，文本中任何字符和字符串均可作為檢索的入口點(diǎn),全文檢索是以原始記錄中的檢索詞、字間的特定位置為對象的運(yùn)算,對文獻(xiàn)不作標(biāo)引，故

3、沒有標(biāo)引用詞。因此，全文檢索是一種可以不依賴敘詞表而直接使用自由詞的檢索方法。3實(shí)現(xiàn)條件要實(shí)現(xiàn)全文檢索需要2個必要的條件：一是需要將最終信息本身輸入到計算機(jī)里，這個問題看似簡單，實(shí)際上它包含了極大的工作量；二是需要有相應(yīng)的軟件支持，全文信息不僅包括書刊的文字信息，而且包括圖片、聲咅、視頻信息等各種信息資料，即使只將書刊及各種資料的文字信息輸入計算機(jī)，其信息量就非常大了。因此，必須有專門的方法、專門的軟件來支持這種“最終信息”的檢索，這類軟件就是全文檢索軟件。3.1全文檢索的實(shí)現(xiàn)方式全文檢索目前主要通過以下方式來實(shí)現(xiàn)：①采用自由指定的檢索

4、項（如關(guān)鍵詞、字符串等）直接與全文文本的一次數(shù)據(jù)高速對照，進(jìn)行檢索：②對文本內(nèi)容中的每個檢索項進(jìn)行位置掃描，然后排序，建立以每個檢索項的離散碼為表目的倒排文檔；③采用超文本模型建立全文數(shù)據(jù)庫，實(shí)現(xiàn)超文本檢索。3.2全文檢索的核心技術(shù)全文檢索的核心技術(shù)是將源文檔屮所有的基本元素的出現(xiàn)信息記錄到索引庫屮。中文全文檢索技術(shù)在原理上同丙文全文檢索是一致的，但漢字本身的特點(diǎn)使中文系統(tǒng)的實(shí)現(xiàn)比兩文系統(tǒng)更為復(fù)雜。在西文中，文檔的基本元素是單詞，可以以單詞建立索引庫，而且單詞與單詞之間有天然的間隔符空格，所以索引文件的建立相對簡單。在中文系統(tǒng)中，基本元

5、素可以是單個漢字字符，也可以是詞。因此，存在2種基本的索引方法，即“詞索引”和“字索引”。3.2.1詞索引“詞索引”以能表達(dá)一定的意義的詞為單位，通過事先內(nèi)嵌的詞典對原始數(shù)據(jù)作索引，以詞為單位進(jìn)行匹配。詞索引適于大規(guī)模應(yīng)用，索引庫可以組織得比較小，檢索速度也比較快，而且還可以實(shí)現(xiàn)同義詞、反義詞的概念檢索，具有較高的查準(zhǔn)率。但其難點(diǎn)在于中文自動分詞，由于中文語言的復(fù)雜性使得計算機(jī)自動分詞工作具有相當(dāng)?shù)碾y度，分詞很容易出現(xiàn)歧義，從而導(dǎo)致在檢索一些詞時可以發(fā)生大量的漏檢或錯檢，查全率不高。并且在當(dāng)今社會，新的詞匯層出不窮，對詞表的更新也將是個

6、很大的工作量。3.2.2字索引“字索引”則以字為單位，把源文檔中的每一個字的出現(xiàn)位罝記錄到索引庫中，索引庫對每個不同的字符都保存了一個字表，記錄同一個字在文檔中的所有出現(xiàn)位置，無須詞典即可對原始數(shù)據(jù)做索引，匹配的時候，以關(guān)鍵詞中的每個漢字為單位向后匹配整個語料樣本。4全文索引技術(shù)全文索引技術(shù)是目前搜索引擎的關(guān)鍵技術(shù)。原理是先定義一個詞庫，然后在文章屮查找每個詞條出現(xiàn)的頻率和位罝，把這樣的頻率和位罝信息按照詞庫的順序歸納，這樣就相當(dāng)于對文件建立了一個以詞庫為0錄的索引，這樣查找某個詞的時候就能很快的定位到該詞出現(xiàn)的位置。問題是在處理英文文

7、檔的時候顯然這樣的方式是非常好的，因為英文自然的被空格分成若干同，只要我們宥足夠大的同匯庫就能很好的處理。但是中文字符因為沒有空格作為斷詞標(biāo)志，所以就很難判斷一個詞,而且人們使用的詞匯在不斷的變化，而維護(hù)一個可擴(kuò)展的詞匯庫的成本是很高的，所以問題出現(xiàn)了。解決出現(xiàn)這樣的問題使“分詞”成為全文索引的關(guān)鍵技術(shù)。目前有兩種基本的方法：*二元法:它把所有有可能的每兩兩漢字的組合看為一個詞組，這樣就沒有維護(hù)詞庫的開銷?！镌~庫法:它使使用詞庫中的詞作為切分的標(biāo)準(zhǔn)，這樣也出現(xiàn)了詞庫跟不上詞匯發(fā)展的問題，除非你維護(hù)詞庫。實(shí)際上現(xiàn)在很多著名的搜索引擎都使用

8、了多種分詞的辦法，比如“正向最大匹配”+“逆向最大匹配”，基于統(tǒng)計學(xué)的新詞識別，自動維護(hù)詞庫等技術(shù)，但是顯然這樣的技術(shù)還沒有做到7匕夫o5分詞算法中文全文檢索技術(shù)的研發(fā)始于1987年左右，主要使用的是中文分

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

全文檢索技術(shù)

全文檢索技術(shù)

相關(guān)文章

相關(guān)標(biāo)簽