web全文信息檢索技術(shù)

ID：14458201

大?。?29.00 KB

頁數(shù)：5頁

時間：2018-07-28

資源描述：

《web全文信息檢索技術(shù)》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、WEB全文信息檢索技術(shù)摘要：本文探索了在INTERNET網(wǎng)上實現(xiàn)全文檢索的技術(shù)。計論了從網(wǎng)上信息的標引、分類等預處理到組織信息檢索的過程，并就智能檢索技術(shù)的發(fā)展進行了闡述。關(guān)鍵詞：信息檢索因特網(wǎng)全文檢索一、前言Ｉｎｔｅｒｎｅｔ網(wǎng)是目前全球最大的、最有影響力的信息網(wǎng)絡(luò)，它將政府、學校、圖書館、商務(wù)場所、研究機構(gòu)和其它組織中的局域網(wǎng)（ＬＡＮ）集成為一個單一的、龐大的、跨越全球的通訊網(wǎng)絡(luò)。越來越多的人們利用這一網(wǎng)絡(luò)與世界各地的人進行交流。如何利用Ｉｎｔｅｒｎｅｔ網(wǎng)獲取有價值的信息，已成為科研人員必備的一項基本技能。因特網(wǎng)是一個開放型的巨大的信

2、息資源庫，擁有上千萬臺以上的主機和過億的用戶；并且由于因特網(wǎng)信息蘊含的無限豐富，信息組織、表達的直觀、生動以及信息服務(wù)的方便性和多樣性，愈來愈多的信息搜索者被其獨特的魅力所吸引。而在近幾年，因特網(wǎng)用戶的數(shù)量更是成倍地增長。可見，因特網(wǎng)檢索已成為實際上最普及、最受關(guān)注、最常涉及的信息檢索領(lǐng)域。二、概述網(wǎng)上的信息具有數(shù)量大、形式多、內(nèi)容廣、專業(yè)性不強等特點，給情報搜集、分類、檢索等工作帶來了新的問題和挑戰(zhàn)。如何充分利用因特網(wǎng)上的信息資源正成為情報科學研究者所關(guān)注的熱點。全文信息檢索就是概據(jù)Ｉｎｔｅｒｎｅｔ信息的特點而發(fā)展起來的一種檢索方式。

3、它主要指研究對整個文檔信息的表示，存儲、組織和訪問，即根據(jù)用戶的查詢要求，從信息數(shù)據(jù)庫中檢索出相關(guān)信息資料。全文檢索的中心環(huán)節(jié)是文件內(nèi)容表達、信息查詢的獲得以及相關(guān)信息的匹配。一個好的全文信息檢索系統(tǒng)不僅要求將輸出信息進行相關(guān)性排列，還應該能夠根據(jù)用戶的意圖、興趣和特點自適應和智能化地調(diào)整匹配機制，獲得用戶滿意的檢索輸出。要實現(xiàn)全文檢索，首先必須對WEB信息進行預處理。三、WEB信息的預處理信息預處理的主要功能是過濾文件系統(tǒng)信息，為文件系統(tǒng)的表達提供一種滿意的索引輸出。其基本目的是為了獲取最優(yōu)的索引記錄，使用戶能很容易地檢索到所需信息。

4、（１）格式過濾：信息預處理應該能夠過濾不同格式的文檔，以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字，而且能夠檢索原始格式文件的所有信息。（２）語詞切分：語詞是信息表達的最小單位，而漢語不同于西方語言，其句子的語詞間沒有分隔符因此需要進行語詞切分。常用的語詞切分方法有按詞典進行最大詞組匹配、逆向最大詞組匹配、最佳匹配法，聯(lián)想－回溯法、全自動詞典切詞等。近年來，又出現(xiàn)了基于神經(jīng)元網(wǎng)絡(luò)的和專家系統(tǒng)的分詞方法和基于統(tǒng)計和頻度分析的分詞方法。（３）詞法分析：漢語語詞切分中存在切分歧異，如句子“網(wǎng)球拍賣完了”，可以切分為“網(wǎng)球／拍賣完

5、了”，也可以切分為“網(wǎng)球拍／賣完了”。因此需要利用各種上下文知識解決語詞切分歧異。此外，還需要對語詞進行詞法分析，識別出各個語詞的詞干，以便根據(jù)詞干建立信息索引。對于英語語詞，建立索引之前首先要去除一些停頓詞（如常見的功能詞“ａ”，“ｔｈｅ”，“ｉｔ”等）和詞根（如“ｉｎｇ”，“ｅｄ”，“ｌｙ”等）。（４）詞性標注和短語識別：在切分的基礎(chǔ)上，利用基于規(guī)則和統(tǒng)計的方法進行詞性標注。在此基礎(chǔ)上，還要利用各種語法規(guī)則，識別出重要的短語結(jié)構(gòu)。5（5）自動標引：從網(wǎng)頁文檔中提取出一組能最大程度上概括其內(nèi)容特征、可作為用戶檢索入口的關(guān)鍵性信息，用該

6、組信息對文文件進行標引，使用戶可以通過輸入關(guān)鍵信息檢索到該文文件的簡要信息，如標題、摘要、時間、作者和ＵＲＬ等，進一步點擊可查詢到該文檔．（6）自動分類：建立并維護一套完整的分類目錄體系，根據(jù)文文件的信息特征，計算出與其相關(guān)程度最大的一個或多個分類，將文檔劃歸到這些分類中去，使用戶可以通過瀏覽分類體系直接查詢到該文檔．．四、檢索檢索包括文件信息表達和查詢信息表達以及相關(guān)信息預測過程。（１）信息表達：信息的表達有多種方式，如布爾表達、矢量空間表達、自然語言表達等，每種表達方式由應用系統(tǒng)服務(wù)者提出并由整個應用系統(tǒng)的目的和需求所決定，并對應于

7、相應的存儲模式和檢索算法，信息查詢和組織的效率，也就是速度和存儲的空間在很大程度上決定了檢索服務(wù)系統(tǒng)的性能。（２）查詢分析：用戶端的查詢信息首先要進行分析處理，提取出查詢項索引、邏輯表達式或其它查詢特征描述。和文件信息索引不同的是：查詢索引處理是及時地提交處理形成索引，而文件信息索引是由搜索引擎按某種策略進行遠程數(shù)據(jù)的搜索和獲取預先生成的本地索引。查詢索引和文件索引采取同樣的表達方式，因此能夠采取相似性估計算法檢索出相關(guān)文件。（３）查詢擴展：近年來，為了提高信息檢索的性能，將應用領(lǐng)域知識和索引、相關(guān)性、估計、查詢表達相結(jié)合實現(xiàn)查詢擴展，

8、即查詢索引還包括不在用戶查詢中出現(xiàn)的查詢詞部分。典型的知識庫查詢擴展應用如圖１所示，知識庫中存儲的知識為原始查詢增添了相關(guān)詞，從而擴展了原始查詢。（４）查詢詞的選擇策略：·非獨立詞：非獨立詞指的是和查詢詞具

當前文檔最多預覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

web全文信息檢索技術(shù)

web全文信息檢索技術(shù)

相關(guān)文章

相關(guān)標簽