全文檢索技術

全文檢索技術

ID:24234503

大小:72.00 KB

頁數(shù):4頁

時間:2018-11-13

全文檢索技術_第1頁
全文檢索技術_第2頁
全文檢索技術_第3頁
全文檢索技術_第4頁
資源描述:

《全文檢索技術》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在工程資料-天天文庫。

1、全文檢索技術1概述圖書情報界對于檢索語言的主流觀點:自然語言檢索是發(fā)展方向,信息檢索要走fl然語言道路;人工語言不適應網(wǎng)絡環(huán)境;目前自然語言檢索技術雖有缺點,但人工智能發(fā)展可使其逐步達到完善,滿足檢索的要求。自然語言檢索技術包括:(1)關鍵詞索引及以關鍵詞為檢索標識的文獻題錄數(shù)據(jù)庫;(2)全文數(shù)據(jù)庫;(3)搜索引擎及由搜索引擎自動建立的網(wǎng)絡資源數(shù)據(jù)庫;(4)自動標弓I;(5)自動分類。在這5個主要方面中,只有關鍵詞索引及數(shù)據(jù)庫、企文檢索、搜索引擎己經(jīng)實現(xiàn),但這3個方而的實質都是關鍵詞檢索,所以可以說自然語言檢索目前僅在關鍵詞檢索的層次上

2、實現(xiàn)。0前關鍵詞檢索技術的最主要用途就是用來實現(xiàn)全文檢索,它是全文檢索的核心。并且關鍵詞檢索和全文檢索是密不可分的。2基本概念所謂全文檢索,是指直接以全文本信息作為主要處理對象,并根據(jù)數(shù)據(jù)資料的內(nèi)容而不是外在特征來實現(xiàn)的信息檢索手段。它的基本工作方式是能夠將所有包含檢索詞的文獻檢索出來,不管這個詞出現(xiàn)在文獻的什么位置,或者說文獻中的任意一個詞都可以作為檢索到該文獻的條件。企文檢索提供存取全文文本(指原始記錄)的空間,文本中任何字符和字符串均可作為檢索的入口點,全文檢索是以原始記錄中的檢索詞、字間的特定位置為對象的運算,對文獻不作標引,故

3、沒有標引用詞。因此,全文檢索是一種可以不依賴敘詞表而直接使用自由詞的檢索方法。3實現(xiàn)條件要實現(xiàn)全文檢索需要2個必要的條件:一是需要將最終信息本身輸入到計算機里,這個問題看似簡單,實際上它包含了極大的工作量;二是需要有相應的軟件支持,全文信息不僅包括書刊的文字信息,而且包括圖片、聲咅、視頻信息等各種信息資料,即使只將書刊及各種資料的文字信息輸入計算機,其信息量就非常大了。因此,必須有專門的方法、專門的軟件來支持這種“最終信息”的檢索,這類軟件就是全文檢索軟件。3.1全文檢索的實現(xiàn)方式全文檢索目前主要通過以下方式來實現(xiàn):①采用自由指定的檢索

4、項(如關鍵詞、字符串等)直接與全文文本的一次數(shù)據(jù)高速對照,進行檢索:②對文本內(nèi)容中的每個檢索項進行位置掃描,然后排序,建立以每個檢索項的離散碼為表目的倒排文檔;③采用超文本模型建立全文數(shù)據(jù)庫,實現(xiàn)超文本檢索。3.2全文檢索的核心技術全文檢索的核心技術是將源文檔屮所有的基本元素的出現(xiàn)信息記錄到索引庫屮。中文全文檢索技術在原理上同丙文全文檢索是一致的,但漢字本身的特點使中文系統(tǒng)的實現(xiàn)比兩文系統(tǒng)更為復雜。在西文中,文檔的基本元素是單詞,可以以單詞建立索引庫,而且單詞與單詞之間有天然的間隔符空格,所以索引文件的建立相對簡單。在中文系統(tǒng)中,基本元

5、素可以是單個漢字字符,也可以是詞。因此,存在2種基本的索引方法,即“詞索引”和“字索引”。3.2.1詞索引“詞索引”以能表達一定的意義的詞為單位,通過事先內(nèi)嵌的詞典對原始數(shù)據(jù)作索引,以詞為單位進行匹配。詞索引適于大規(guī)模應用,索引庫可以組織得比較小,檢索速度也比較快,而且還可以實現(xiàn)同義詞、反義詞的概念檢索,具有較高的查準率。但其難點在于中文自動分詞,由于中文語言的復雜性使得計算機自動分詞工作具有相當?shù)碾y度,分詞很容易出現(xiàn)歧義,從而導致在檢索一些詞時可以發(fā)生大量的漏檢或錯檢,查全率不高。并且在當今社會,新的詞匯層出不窮,對詞表的更新也將是個

6、很大的工作量。3.2.2字索引“字索引”則以字為單位,把源文檔中的每一個字的出現(xiàn)位罝記錄到索引庫中,索引庫對每個不同的字符都保存了一個字表,記錄同一個字在文檔中的所有出現(xiàn)位置,無須詞典即可對原始數(shù)據(jù)做索引,匹配的時候,以關鍵詞中的每個漢字為單位向后匹配整個語料樣本。4全文索引技術全文索引技術是目前搜索引擎的關鍵技術。原理是先定義一個詞庫,然后在文章屮查找每個詞條出現(xiàn)的頻率和位罝,把這樣的頻率和位罝信息按照詞庫的順序歸納,這樣就相當于對文件建立了一個以詞庫為0錄的索引,這樣查找某個詞的時候就能很快的定位到該詞出現(xiàn)的位置。問題是在處理英文文

7、檔的時候顯然這樣的方式是非常好的,因為英文自然的被空格分成若干同,只要我們宥足夠大的同匯庫就能很好的處理。但是中文字符因為沒有空格作為斷詞標志,所以就很難判斷一個詞,而且人們使用的詞匯在不斷的變化,而維護一個可擴展的詞匯庫的成本是很高的,所以問題出現(xiàn)了。解決出現(xiàn)這樣的問題使“分詞”成為全文索引的關鍵技術。目前有兩種基本的方法:*二元法:它把所有有可能的每兩兩漢字的組合看為一個詞組,這樣就沒有維護詞庫的開銷。★詞庫法:它使使用詞庫中的詞作為切分的標準,這樣也出現(xiàn)了詞庫跟不上詞匯發(fā)展的問題,除非你維護詞庫。實際上現(xiàn)在很多著名的搜索引擎都使用

8、了多種分詞的辦法,比如“正向最大匹配”+“逆向最大匹配”,基于統(tǒng)計學的新詞識別,自動維護詞庫等技術,但是顯然這樣的技術還沒有做到7匕夫o5分詞算法中文全文檢索技術的研發(fā)始于1987年左右,主要使用的是中文分

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。