資源描述:
《網(wǎng)絡(luò)信息檢索的工具》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、網(wǎng)絡(luò)信息檢索的工具 一、搜索引擎的概念和及類型 搜索引擎又稱檢索引擎,是指運行在Inter上,以信息資源為對象,以信息檢索的方式為用戶提供所需數(shù)據(jù)的服務(wù)系統(tǒng),主要包括信息存取、信息管理和信息檢索三大部分。 目前,中文搜索引擎主要有三種類型:目錄式搜索引擎、機器人搜索引擎(又稱全文搜索引擎)和元搜索引擎。 1.目錄式搜索引擎。目錄式搜索引擎是以人工或半人工方式收集信息,建立數(shù)據(jù)庫,由編輯人員在訪問了某個web站點后,對該站點進(jìn)行描述,并根據(jù)站點的內(nèi)容和性質(zhì)將其歸為一個預(yù)先分好的類別。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,其搜索的準(zhǔn)確度較高,導(dǎo)航
2、質(zhì)量也不錯。但因其人工的介入,維護(hù)量大,信息量少,信息更新不及時都使得人們利用它的程度有限。國內(nèi)著名的新浪、搜狐、中文雅虎都屬于這種類型?! ?.機器人搜索引擎。這是一種目前運用較廣泛的搜索引擎。國內(nèi)以百度,google、天網(wǎng)為代表。它是使用自動采集軟件Robot,搜集和發(fā)現(xiàn)信息,并下載到本地文檔庫,再對文檔內(nèi)容進(jìn)行自動分析并建立索引。對于用戶提出的檢索要求,通過檢索模塊檢索索引,找出匹配文檔返回給用戶。 機器人搜索引擎具有龐大的全文索引數(shù)據(jù)庫。其優(yōu)點是信息量大,范圍廣,較適用于檢索難以查找的信息或一些較模糊的主題。缺點是缺乏清晰的層次結(jié)構(gòu),檢索結(jié)果重復(fù)較多,
3、需要用戶自己進(jìn)行篩選?! ?.元搜索引擎。元搜索引擎是一種調(diào)用其他搜索引擎的引擎。它是通過一個統(tǒng)一的用戶界面,幫助用戶在多個搜索引擎中選擇和利用合適的搜索引擎來實現(xiàn)檢索。中文元搜索引擎開發(fā)較少,較成熟的則更少,萬緯搜索是目前有一定影響的中文元搜索引擎。 二、現(xiàn)階段中文搜索引擎存在的主要問題 1.信息覆蓋面有限?,F(xiàn)階段搜索引擎所覆蓋的數(shù)據(jù)庫的規(guī)模是非常有限的,據(jù)美國科學(xué)期刊Natures一篇報告中稱,全球最大的搜索引擎也只能覆蓋現(xiàn)有網(wǎng)頁的16%。中文搜索引擎因起步慢、中文信息所占互聯(lián)網(wǎng)全部信息的比例?。ㄖ徽既烤W(wǎng)絡(luò)信息的5%)等原因在這方面尤為突出。 2.查
4、全率不高。查全率是指檢索出的相關(guān)信息量與存儲在檢索系統(tǒng)中的全部相關(guān)信息量的百分比,是判斷檢索系統(tǒng)質(zhì)量的度量之一?! 鴥?nèi)絕大多數(shù)的網(wǎng)站組織的信息大多都是通過瀏覽方式獲得內(nèi)容。即使是經(jīng)過精心組織、編排非常合理的網(wǎng)站,也會有70%~80%的網(wǎng)頁不能被搜索引擎檢索到。中文目錄式搜索引擎因需人工介入、維護(hù)量大,在這方面表現(xiàn)較明顯?! ?.查準(zhǔn)率較低。查準(zhǔn)率更是判斷檢索系統(tǒng)質(zhì)量的重要尺度。是指系統(tǒng)所檢索到的真正與查詢內(nèi)容相關(guān)的文檔占檢索出的所有文檔數(shù)的百分比?! ≡斐刹闇?zhǔn)率低的原因是,部分搜索引擎的分類體系與科學(xué)知識體系之間缺乏內(nèi)在聯(lián)系;類目之間邏輯關(guān)系模糊,導(dǎo)致檢索路徑
5、與搜索引擎類目錯位;信息加工深度不夠;檢索功能單一;檢索詞的專指性較差;大部分的檢索結(jié)果是題錄式而非全文式,其內(nèi)容簡單等等。機器人搜索引擎的分類和索引缺乏人工的參與,其查準(zhǔn)率不如目錄式搜索引擎,且檢索結(jié)果中還含有大量的重復(fù)、虛假的信息。 4.專業(yè)性的搜索引擎發(fā)展遲緩。專業(yè)性的搜索引擎是為專門收錄某一行業(yè),某一主題的信息而建立,能夠提供專題信息查詢服務(wù)的搜索引擎。目前中文搜索引擎大多是綜合性的,能同時收錄各行業(yè)、各學(xué)科的多種信息,但在反映某一行業(yè)或某一專題的信息方面很難做到全面、精確,不能給用戶提供特定的信息服務(wù)。這就使得專業(yè)人員,特別是某一領(lǐng)域的學(xué)者、專家不愿
6、意利用中文搜索引擎去查詢資料?! ?.檢索功能方面存在缺陷。一是檢索中符合布爾邏輯運算符的搜索引擎極為有限;二是關(guān)鍵詞檢索輸出的結(jié)果相關(guān)度排序方式雜亂,不能根據(jù)用戶需要來選擇信息輸出的方式;三是多數(shù)的搜索引擎是面向主題搜索不是面向用戶搜索,不能重復(fù)利用用戶檢索過的成果,更不能對特定的用戶進(jìn)行定題跟蹤服務(wù);四是檢索網(wǎng)站的主頁不規(guī)范,有些太簡,有些又太繁,而且廣告內(nèi)容太多,無法進(jìn)行有效檢索?! ?.提高查準(zhǔn)率。需解決以下幾個難關(guān):首先需提高搜索引擎的信息過濾功能。在對網(wǎng)絡(luò)信息進(jìn)行集中的搜集之后,搜索引擎還需對這些信息進(jìn)行鑒別和過濾,即剔除大量的無用信息,而把有效的信
7、息提煉出來并加以聚集;第二則是需對專家過濾后的信息進(jìn)行一定的檢索標(biāo)引,并給予相關(guān)的標(biāo)識符號,如關(guān)鍵詞、分類號、主題詞等各種標(biāo)識,其關(guān)鍵是利用智能檢索技術(shù),提高準(zhǔn)確性;把檢索的結(jié)果存儲在相應(yīng)的數(shù)據(jù)庫中,并由URL與Inter建立鏈接供用戶使用;還需注意信息定期更新,以保證信息的新穎性和鏈接的可靠性?! ?.建立垂直化專業(yè)領(lǐng)域的搜索引擎。網(wǎng)絡(luò)用戶所從事的職業(yè)千差萬別,不同的用戶對信息搜索往往有不同的要求。綜合性的搜索引擎收錄的范圍太廣、太大無法滿足某一特定的需求。垂直化專業(yè)搜索引擎則可解決這一難題。它只面向某一特定的領(lǐng)域,專注于自己的特長和核心技術(shù),能保證對該領(lǐng)域的
8、信息的收錄齊全與更新迅速