web全文信息檢索技術(shù)

web全文信息檢索技術(shù)

ID:14458201

大小:429.00 KB

頁(yè)數(shù):5頁(yè)

時(shí)間:2018-07-28

web全文信息檢索技術(shù)_第1頁(yè)
web全文信息檢索技術(shù)_第2頁(yè)
web全文信息檢索技術(shù)_第3頁(yè)
web全文信息檢索技術(shù)_第4頁(yè)
web全文信息檢索技術(shù)_第5頁(yè)
資源描述:

《web全文信息檢索技術(shù)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、WEB全文信息檢索技術(shù)摘要:本文探索了在INTERNET網(wǎng)上實(shí)現(xiàn)全文檢索的技術(shù)。計(jì)論了從網(wǎng)上信息的標(biāo)引、分類等預(yù)處理到組織信息檢索的過程,并就智能檢索技術(shù)的發(fā)展進(jìn)行了闡述。關(guān)鍵詞:信息檢索因特網(wǎng)全文檢索一、前言Internet網(wǎng)是目前全球最大的、最有影響力的信息網(wǎng)絡(luò),它將政府、學(xué)校、圖書館、商務(wù)場(chǎng)所、研究機(jī)構(gòu)和其它組織中的局域網(wǎng)(LAN)集成為一個(gè)單一的、龐大的、跨越全球的通訊網(wǎng)絡(luò)。越來越多的人們利用這一網(wǎng)絡(luò)與世界各地的人進(jìn)行交流。如何利用Internet網(wǎng)獲取有價(jià)值的信息,已成為科研人員必備的一項(xiàng)基本技能。因特網(wǎng)是一個(gè)開放型的巨大的信

2、息資源庫(kù),擁有上千萬(wàn)臺(tái)以上的主機(jī)和過億的用戶;并且由于因特網(wǎng)信息蘊(yùn)含的無(wú)限豐富,信息組織、表達(dá)的直觀、生動(dòng)以及信息服務(wù)的方便性和多樣性,愈來愈多的信息搜索者被其獨(dú)特的魅力所吸引。而在近幾年,因特網(wǎng)用戶的數(shù)量更是成倍地增長(zhǎng)??梢?,因特網(wǎng)檢索已成為實(shí)際上最普及、最受關(guān)注、最常涉及的信息檢索領(lǐng)域。二、概述網(wǎng)上的信息具有數(shù)量大、形式多、內(nèi)容廣、專業(yè)性不強(qiáng)等特點(diǎn),給情報(bào)搜集、分類、檢索等工作帶來了新的問題和挑戰(zhàn)。如何充分利用因特網(wǎng)上的信息資源正成為情報(bào)科學(xué)研究者所關(guān)注的熱點(diǎn)。全文信息檢索就是概據(jù)Internet信息的特點(diǎn)而發(fā)展起來的一種檢索方式。

3、它主要指研究對(duì)整個(gè)文檔信息的表示,存儲(chǔ)、組織和訪問,即根據(jù)用戶的查詢要求,從信息數(shù)據(jù)庫(kù)中檢索出相關(guān)信息資料。全文檢索的中心環(huán)節(jié)是文件內(nèi)容表達(dá)、信息查詢的獲得以及相關(guān)信息的匹配。一個(gè)好的全文信息檢索系統(tǒng)不僅要求將輸出信息進(jìn)行相關(guān)性排列,還應(yīng)該能夠根據(jù)用戶的意圖、興趣和特點(diǎn)自適應(yīng)和智能化地調(diào)整匹配機(jī)制,獲得用戶滿意的檢索輸出。要實(shí)現(xiàn)全文檢索,首先必須對(duì)WEB信息進(jìn)行預(yù)處理。三、WEB信息的預(yù)處理信息預(yù)處理的主要功能是過濾文件系統(tǒng)信息,為文件系統(tǒng)的表達(dá)提供一種滿意的索引輸出。其基本目的是為了獲取最優(yōu)的索引記錄,使用戶能很容易地檢索到所需信息。

4、(1)格式過濾:信息預(yù)處理應(yīng)該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。(2)語(yǔ)詞切分:語(yǔ)詞是信息表達(dá)的最小單位,而漢語(yǔ)不同于西方語(yǔ)言,其句子的語(yǔ)詞間沒有分隔符因此需要進(jìn)行語(yǔ)詞切分。常用的語(yǔ)詞切分方法有按詞典進(jìn)行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯(lián)想-回溯法、全自動(dòng)詞典切詞等。近年來,又出現(xiàn)了基于神經(jīng)元網(wǎng)絡(luò)的和專家系統(tǒng)的分詞方法和基于統(tǒng)計(jì)和頻度分析的分詞方法。(3)詞法分析:漢語(yǔ)語(yǔ)詞切分中存在切分歧異,如句子“網(wǎng)球拍賣完了”,可以切分為“網(wǎng)球/拍賣完

5、了”,也可以切分為“網(wǎng)球拍/賣完了”。因此需要利用各種上下文知識(shí)解決語(yǔ)詞切分歧異。此外,還需要對(duì)語(yǔ)詞進(jìn)行詞法分析,識(shí)別出各個(gè)語(yǔ)詞的詞干,以便根據(jù)詞干建立信息索引。對(duì)于英語(yǔ)語(yǔ)詞,建立索引之前首先要去除一些停頓詞(如常見的功能詞“a”,“the”,“it”等)和詞根(如“ing”,“ed”,“ly”等)。(4)詞性標(biāo)注和短語(yǔ)識(shí)別:在切分的基礎(chǔ)上,利用基于規(guī)則和統(tǒng)計(jì)的方法進(jìn)行詞性標(biāo)注。在此基礎(chǔ)上,還要利用各種語(yǔ)法規(guī)則,識(shí)別出重要的短語(yǔ)結(jié)構(gòu)。5(5)自動(dòng)標(biāo)引:從網(wǎng)頁(yè)文檔中提取出一組能最大程度上概括其內(nèi)容特征、可作為用戶檢索入口的關(guān)鍵性信息,用該

6、組信息對(duì)文文件進(jìn)行標(biāo)引,使用戶可以通過輸入關(guān)鍵信息檢索到該文文件的簡(jiǎn)要信息,如標(biāo)題、摘要、時(shí)間、作者和URL等,進(jìn)一步點(diǎn)擊可查詢到該文檔.(6)自動(dòng)分類:建立并維護(hù)一套完整的分類目錄體系,根據(jù)文文件的信息特征,計(jì)算出與其相關(guān)程度最大的一個(gè)或多個(gè)分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔..四、檢索檢索包括文件信息表達(dá)和查詢信息表達(dá)以及相關(guān)信息預(yù)測(cè)過程。(1)信息表達(dá):信息的表達(dá)有多種方式,如布爾表達(dá)、矢量空間表達(dá)、自然語(yǔ)言表達(dá)等,每種表達(dá)方式由應(yīng)用系統(tǒng)服務(wù)者提出并由整個(gè)應(yīng)用系統(tǒng)的目的和需求所決定,并對(duì)應(yīng)于

7、相應(yīng)的存儲(chǔ)模式和檢索算法,信息查詢和組織的效率,也就是速度和存儲(chǔ)的空間在很大程度上決定了檢索服務(wù)系統(tǒng)的性能。(2)查詢分析:用戶端的查詢信息首先要進(jìn)行分析處理,提取出查詢項(xiàng)索引、邏輯表達(dá)式或其它查詢特征描述。和文件信息索引不同的是:查詢索引處理是及時(shí)地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進(jìn)行遠(yuǎn)程數(shù)據(jù)的搜索和獲取預(yù)先生成的本地索引。查詢索引和文件索引采取同樣的表達(dá)方式,因此能夠采取相似性估計(jì)算法檢索出相關(guān)文件。(3)查詢擴(kuò)展:近年來,為了提高信息檢索的性能,將應(yīng)用領(lǐng)域知識(shí)和索引、相關(guān)性、估計(jì)、查詢表達(dá)相結(jié)合實(shí)現(xiàn)查詢擴(kuò)展,

8、即查詢索引還包括不在用戶查詢中出現(xiàn)的查詢?cè)~部分。典型的知識(shí)庫(kù)查詢擴(kuò)展應(yīng)用如圖1所示,知識(shí)庫(kù)中存儲(chǔ)的知識(shí)為原始查詢?cè)鎏砹讼嚓P(guān)詞,從而擴(kuò)展了原始查詢。(4)查詢?cè)~的選擇策略:·非獨(dú)立詞:非獨(dú)立詞指的是和查詢?cè)~具

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。