資源描述:
《全文檢索技術(shù)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、全文檢索技術(shù)1概述圖書情報界對于檢索語言的主流觀點(diǎn):自然語言檢索是發(fā)展方向,信息檢索要走fl然語言道路;人工語言不適應(yīng)網(wǎng)絡(luò)環(huán)境;目前自然語言檢索技術(shù)雖有缺點(diǎn),但人工智能發(fā)展可使其逐步達(dá)到完善,滿足檢索的要求。自然語言檢索技術(shù)包括:(1)關(guān)鍵詞索引及以關(guān)鍵詞為檢索標(biāo)識的文獻(xiàn)題錄數(shù)據(jù)庫;(2)全文數(shù)據(jù)庫;(3)搜索引擎及由搜索引擎自動建立的網(wǎng)絡(luò)資源數(shù)據(jù)庫;(4)自動標(biāo)弓I;(5)自動分類。在這5個主要方面中,只有關(guān)鍵詞索引及數(shù)據(jù)庫、企文檢索、搜索引擎己經(jīng)實(shí)現(xiàn),但這3個方而的實(shí)質(zhì)都是關(guān)鍵詞檢索,所以可以說自然語言檢索目前僅在關(guān)鍵詞檢索的層次上
2、實(shí)現(xiàn)。0前關(guān)鍵詞檢索技術(shù)的最主要用途就是用來實(shí)現(xiàn)全文檢索,它是全文檢索的核心。并且關(guān)鍵詞檢索和全文檢索是密不可分的。2基本概念所謂全文檢索,是指直接以全文本信息作為主要處理對象,并根據(jù)數(shù)據(jù)資料的內(nèi)容而不是外在特征來實(shí)現(xiàn)的信息檢索手段。它的基本工作方式是能夠?qū)⑺邪瑱z索詞的文獻(xiàn)檢索出來,不管這個詞出現(xiàn)在文獻(xiàn)的什么位置,或者說文獻(xiàn)中的任意一個詞都可以作為檢索到該文獻(xiàn)的條件。企文檢索提供存取全文文本(指原始記錄)的空間,文本中任何字符和字符串均可作為檢索的入口點(diǎn),全文檢索是以原始記錄中的檢索詞、字間的特定位置為對象的運(yùn)算,對文獻(xiàn)不作標(biāo)引,故
3、沒有標(biāo)引用詞。因此,全文檢索是一種可以不依賴敘詞表而直接使用自由詞的檢索方法。3實(shí)現(xiàn)條件要實(shí)現(xiàn)全文檢索需要2個必要的條件:一是需要將最終信息本身輸入到計算機(jī)里,這個問題看似簡單,實(shí)際上它包含了極大的工作量;二是需要有相應(yīng)的軟件支持,全文信息不僅包括書刊的文字信息,而且包括圖片、聲咅、視頻信息等各種信息資料,即使只將書刊及各種資料的文字信息輸入計算機(jī),其信息量就非常大了。因此,必須有專門的方法、專門的軟件來支持這種“最終信息”的檢索,這類軟件就是全文檢索軟件。3.1全文檢索的實(shí)現(xiàn)方式全文檢索目前主要通過以下方式來實(shí)現(xiàn):①采用自由指定的檢索
4、項(如關(guān)鍵詞、字符串等)直接與全文文本的一次數(shù)據(jù)高速對照,進(jìn)行檢索:②對文本內(nèi)容中的每個檢索項進(jìn)行位置掃描,然后排序,建立以每個檢索項的離散碼為表目的倒排文檔;③采用超文本模型建立全文數(shù)據(jù)庫,實(shí)現(xiàn)超文本檢索。3.2全文檢索的核心技術(shù)全文檢索的核心技術(shù)是將源文檔屮所有的基本元素的出現(xiàn)信息記錄到索引庫屮。中文全文檢索技術(shù)在原理上同丙文全文檢索是一致的,但漢字本身的特點(diǎn)使中文系統(tǒng)的實(shí)現(xiàn)比兩文系統(tǒng)更為復(fù)雜。在西文中,文檔的基本元素是單詞,可以以單詞建立索引庫,而且單詞與單詞之間有天然的間隔符空格,所以索引文件的建立相對簡單。在中文系統(tǒng)中,基本元
5、素可以是單個漢字字符,也可以是詞。因此,存在2種基本的索引方法,即“詞索引”和“字索引”。3.2.1詞索引“詞索引”以能表達(dá)一定的意義的詞為單位,通過事先內(nèi)嵌的詞典對原始數(shù)據(jù)作索引,以詞為單位進(jìn)行匹配。詞索引適于大規(guī)模應(yīng)用,索引庫可以組織得比較小,檢索速度也比較快,而且還可以實(shí)現(xiàn)同義詞、反義詞的概念檢索,具有較高的查準(zhǔn)率。但其難點(diǎn)在于中文自動分詞,由于中文語言的復(fù)雜性使得計算機(jī)自動分詞工作具有相當(dāng)?shù)碾y度,分詞很容易出現(xiàn)歧義,從而導(dǎo)致在檢索一些詞時可以發(fā)生大量的漏檢或錯檢,查全率不高。并且在當(dāng)今社會,新的詞匯層出不窮,對詞表的更新也將是個
6、很大的工作量。3.2.2字索引“字索引”則以字為單位,把源文檔中的每一個字的出現(xiàn)位罝記錄到索引庫中,索引庫對每個不同的字符都保存了一個字表,記錄同一個字在文檔中的所有出現(xiàn)位置,無須詞典即可對原始數(shù)據(jù)做索引,匹配的時候,以關(guān)鍵詞中的每個漢字為單位向后匹配整個語料樣本。4全文索引技術(shù)全文索引技術(shù)是目前搜索引擎的關(guān)鍵技術(shù)。原理是先定義一個詞庫,然后在文章屮查找每個詞條出現(xiàn)的頻率和位罝,把這樣的頻率和位罝信息按照詞庫的順序歸納,這樣就相當(dāng)于對文件建立了一個以詞庫為0錄的索引,這樣查找某個詞的時候就能很快的定位到該詞出現(xiàn)的位置。問題是在處理英文文
7、檔的時候顯然這樣的方式是非常好的,因為英文自然的被空格分成若干同,只要我們宥足夠大的同匯庫就能很好的處理。但是中文字符因為沒有空格作為斷詞標(biāo)志,所以就很難判斷一個詞,而且人們使用的詞匯在不斷的變化,而維護(hù)一個可擴(kuò)展的詞匯庫的成本是很高的,所以問題出現(xiàn)了。解決出現(xiàn)這樣的問題使“分詞”成為全文索引的關(guān)鍵技術(shù)。目前有兩種基本的方法:*二元法:它把所有有可能的每兩兩漢字的組合看為一個詞組,這樣就沒有維護(hù)詞庫的開銷?!镌~庫法:它使使用詞庫中的詞作為切分的標(biāo)準(zhǔn),這樣也出現(xiàn)了詞庫跟不上詞匯發(fā)展的問題,除非你維護(hù)詞庫。實(shí)際上現(xiàn)在很多著名的搜索引擎都使用
8、了多種分詞的辦法,比如“正向最大匹配”+“逆向最大匹配”,基于統(tǒng)計學(xué)的新詞識別,自動維護(hù)詞庫等技術(shù),但是顯然這樣的技術(shù)還沒有做到7匕夫o5分詞算法中文全文檢索技術(shù)的研發(fā)始于1987年左右,主要使用的是中文分