資源描述:
《web全文信息檢索技術》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、WEB全文信息檢索技術摘要:本文探索了在INTERNET網上實現全文檢索的技術。計論了從網上信息的標引、分類等預處理到組織信息檢索的過程,并就智能檢索技術的發(fā)展進行了闡述。關鍵詞:信息檢索因特網全文檢索一、前言Internet網是目前全球最大的、最有影響力的信息網絡,它將政府、學校、圖書館、商務場所、研究機構和其它組織中的局域網(LAN)集成為一個單一的、龐大的、跨越全球的通訊網絡。越來越多的人們利用這一網絡與世界各地的人進行交流。如何利用Internet網獲取有價值的信息,已成為科研人員必備的一項基本技能。因特網是一個開放型的巨大的信息資源庫,擁有上千萬臺以上的主機和過億的用戶;并且由于
2、因特網信息蘊含的無限豐富,信息組織、表達的直觀、生動以及信息服務的方便性和多樣性,愈來愈多的信息搜索者被其獨特的魅力所吸引。而在近幾年,因特網用戶的數量更是成倍地增長??梢?,因特網檢索已成為實際上最普及、最受關注、最常涉及的信息檢索領域。二、概述網上的信息具有數量大、形式多、內容廣、專業(yè)性不強等特點,給情報搜集、分類、檢索等工作帶來了新的問題和挑戰(zhàn)。如何充分利用因特網上的信息資源正成為情報科學研究者所關注的熱點。全文信息檢索就是概據Internet信息的特點而發(fā)展起來的一種檢索方式。它主要指研究對整個文檔信息的表示,存儲、組織和訪問,即根據用戶的查詢要求,從信息數據庫中檢索出相關信息資料。
3、全文檢索的中心環(huán)節(jié)是文件內容表達、信息查詢的獲得以及相關信息的匹配。一個好的全文信息檢索系統不僅要求將輸出信息進行相關性排列,還應該能夠根據用戶的意圖、興趣和特點自適應和智能化地調整匹配機制,獲得用戶滿意的檢索輸出。要實現全文檢索,首先必須對WEB信息進行預處理。三、WEB信息的預處理信息預處理的主要功能是過濾文件系統信息,為文件系統的表達提供一種滿意的索引輸出。其基本目的是為了獲取最優(yōu)的索引記錄,使用戶能很容易地檢索到所需信息。(1)格式過濾:信息預處理應該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。(2)語詞切
4、分:語詞是信息表達的最小單位,而漢語不同于西方語言,其句子的語詞間沒有分隔符因此需要進行語詞切分。常用的語詞切分方法有按詞典進行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯想-回溯法、全自動詞典切詞等。近年來,又出現了基于神經元網絡的和專家系統的分詞方法和基于統計和頻度分析的分詞方法。(3)詞法分析:漢語語詞切分中存在切分歧異,如句子“網球拍賣完了”,可以切分為“網球/拍賣完了”,也可以切分為“網球拍/賣完了”。因此需要利用各種上下文知識解決語詞切分歧異。此外,還需要對語詞進行詞法分析,識別出各個語詞的詞干,以便根據詞干建立信息索引。對于英語語詞,建立索引之前首先要去除一些停頓詞(如常見
5、的功能詞“a”,“the”,“it”等)和詞根(如“ing”,“ed”,“ly”等)。(4)詞性標注和短語識別:在切分的基礎上,利用基于規(guī)則和統計的方法進行詞性標注。在此基礎上,還要利用各種語法規(guī)則,識別出重要的短語結構。5(5)自動標引:從網頁文檔中提取出一組能最大程度上概括其內容特征、可作為用戶檢索入口的關鍵性信息,用該組信息對文文件進行標引,使用戶可以通過輸入關鍵信息檢索到該文文件的簡要信息,如標題、摘要、時間、作者和URL等,進一步點擊可查詢到該文檔.(6)自動分類:建立并維護一套完整的分類目錄體系,根據文文件的信息特征,計算出與其相關程度最大的一個或多個分類,將文檔劃歸到這些分類
6、中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔..四、檢索檢索包括文件信息表達和查詢信息表達以及相關信息預測過程。(1)信息表達:信息的表達有多種方式,如布爾表達、矢量空間表達、自然語言表達等,每種表達方式由應用系統服務者提出并由整個應用系統的目的和需求所決定,并對應于相應的存儲模式和檢索算法,信息查詢和組織的效率,也就是速度和存儲的空間在很大程度上決定了檢索服務系統的性能。(2)查詢分析:用戶端的查詢信息首先要進行分析處理,提取出查詢項索引、邏輯表達式或其它查詢特征描述。和文件信息索引不同的是:查詢索引處理是及時地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進行遠程數據的搜索
7、和獲取預先生成的本地索引。查詢索引和文件索引采取同樣的表達方式,因此能夠采取相似性估計算法檢索出相關文件。(3)查詢擴展:近年來,為了提高信息檢索的性能,將應用領域知識和索引、相關性、估計、查詢表達相結合實現查詢擴展,即查詢索引還包括不在用戶查詢中出現的查詢詞部分。典型的知識庫查詢擴展應用如圖1所示,知識庫中存儲的知識為原始查詢增添了相關詞,從而擴展了原始查詢。(4)查詢詞的選擇策略:·非獨立詞:非獨立詞指的是和查詢詞具