資源描述:
《internet的查詢工具使用論文 》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、Internet的查詢工具使用論文Internet的查詢工具使用論文Internet的查詢工具使用論文Internet的查詢工具使用論文Internet的查詢工具使用論文Internet的查詢工具使用論文Internet的查詢工具使用論文 Internet就像一個(gè)浩瀚的知識海洋,里面蘊(yùn)藏著取之不盡的信息寶藏。如何挖掘開采它,獲得人們需要的東西,目前還存在著兩方面的問題:首先,人們手頭的查詢工具太多,有WWW(WorldWideWeb)、Gopher、FTP以及不計(jì)其數(shù)的專題新聞組、消息表等等;其次,Internet網(wǎng)上的資源沒有確定的分類,人們
2、要查找的是一堆毫無組織、地址不唯一的信息。同時(shí),那些熱心的程序員、廠商、經(jīng)紀(jì)人還在源源不斷地往Internet上填充著他們的東西。這無形中給檢索工作帶來了很大難度,沒有一定的方法,在Internet上查詢信息猶如大海撈針。哪種情況 下該用什么樣的工具幫你簡便快捷地找到你想要的信息,看了本文以后,或許會對你有所幫助?! ∧夸泿椭 〖偃缒阋檎胰藗兤毡楦信d趣的題目,如內(nèi)戰(zhàn)或者熱線財(cái)經(jīng)一類的消息并找到其網(wǎng)絡(luò)地址,通常這類目錄會很大,而且有按專題組織的地址表。這種情況下,我們一般喜歡用Yahoo(地址:/)查找,它列出了8萬個(gè)網(wǎng)絡(luò)地址(包括Web頁、
3、Gophers、FTP地址以及Usenet新聞組),頂層又按藝術(shù)、計(jì)算機(jī)、衛(wèi)生、保健等分成14類子題目。用鼠標(biāo)點(diǎn)一下就可以選定子題目表,反復(fù)地查找子表,直到你找到需要的信息為止?! 〕薡ahoo一類人們普遍感興趣的目錄外,專題目錄則覆蓋了從古文物到青年工人等各方面的信息。找到這些專用目錄的最佳途徑是可以去密執(zhí)根大學(xué)(地址:http:///)查找那里的Clearinghouse,那里有面向?qū)n}的Internet資源指南。 查詢引擎 當(dāng)人們意欲查詢Web提供的信息時(shí),目錄項(xiàng)是非常有用的,用戶的問題越專有,待查的目錄項(xiàng)就越少。為了取得問題的答案,
4、人們必須使用查詢引擎。查詢引擎實(shí)際上是一些Web頁,你可以在其中輸入你想要查找的文本串。按一下按鈕,等一會兒,引擎就會識別出與輸入的關(guān)鍵字匹配的Web地址表。在最近的Web查詢掃描中,我們查到60個(gè)這樣的頁,其中只有10頁是我們覺得有用的工具,其余的用處不大,或者只有計(jì)算機(jī)科學(xué)專業(yè)的研究生對之感興趣。 每一個(gè)查詢引擎代表一個(gè)數(shù)據(jù)庫,里面含有Web頁的URL(UniversalResourceLocator或經(jīng)專門格式化后的Internet地址)地址以及其他網(wǎng)絡(luò)資源。大多數(shù)查詢引擎數(shù)據(jù)庫是由Crawler程序、漫游Web的軟件程序通過頁與頁的連接
5、順次查找新的地址搜集而來的。這里,Crawler又被稱為機(jī)器人或蜘蛛。當(dāng)蜘蛛找到新的頁時(shí),就把新頁增加到數(shù)據(jù)庫中?! ∵@些數(shù)據(jù)庫存有成千上萬個(gè)Web頁,在引擎頭的位置每天都在增加新的頁。其中,多數(shù)人感興趣的引擎如Lycos和Excite覆蓋面最廣,其中每個(gè)數(shù)據(jù)庫有150萬個(gè)索引Web頁,其次是OpenTextIndex,據(jù)稱也有130萬個(gè)Web頁?! ∶總€(gè)數(shù)據(jù)庫引擎的大小對查找是否成功起著很大的作用,例如,我們想用字符串recipewheatBeer(釀啤酒秘訣)查詢每一個(gè)引擎,其結(jié)果是:最大的Lycos數(shù)據(jù)庫引擎提供給我們437個(gè)匹配頁(hit
6、),InfoSeek和OpenTextIndex數(shù)據(jù)庫則每次提供200個(gè)頁,用其他數(shù)據(jù)庫則少于100頁,有幾種情況下,甚至查不到一個(gè)Web頁。通常的情形是,數(shù)據(jù)庫越小,查到的Web頁就越少?! 〈蠖鄶?shù)數(shù)據(jù)庫引擎嚴(yán)格限制其只能檢索Web本身,InfoSeek和Excite則比其他引擎更進(jìn)一步,它們增加了Usenet新聞組索引。InfoSeek還允許用戶查詢就近的一組非Internet數(shù)據(jù)庫的信息?! ∷饕械男畔ⅰ eb的蜘蛛程序比URL采集信息做得要多一些,它們還搜集有關(guān)每一頁的信息,一旦你提交一個(gè)查詢,查詢引擎的backend軟件就建立起一個(gè)
7、你所需信息的索引。從一個(gè)引擎到另外一個(gè)引擎,其索引技術(shù)是各不相同的,你不要因此感到奇怪。 在每個(gè)引擎中,都有一個(gè)頁的索引URL地址和題目。多數(shù)引擎還有每一段的索引標(biāo)題,其他的引擎則只是記錄了頻繁提到的詞或者文本的頭幾行。在OpenTextIndex數(shù)據(jù)庫引擎中,頁的每一個(gè)單詞都有索引,甚至包括and一類別的引擎忽略的詞也有。結(jié)果可想而知,它理所當(dāng)然成了唯一能在查找過程中返回是或者不是的查詢工具。即使不包含你所指定的關(guān)鍵字,Excite基于概念的索引也能夠幫助人們找到相關(guān)的頁?! ≌业狡ヅ漤摬⒉灰馕吨樵兂晒?。一方面,數(shù)據(jù)庫的大小確定了它查到的匹
8、配頁的多少,另一方面,索引質(zhì)量的好壞還要由有多少個(gè)匹配頁與你的查詢相關(guān)來確定。如我們通過每一個(gè)查詢引擎查找北卡羅來納三角地的房地產(chǎn)信息,