資源描述:
《搜索引擎及其應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第六章搜索引擎及其應(yīng)用http://user.qzone.qq.com/1975731184/infocenter#!app=2&via=QZ.HashRefresh&pos=1366384958信息檢索第六章搜索引擎及其發(fā)展搜索引擎概述1百度與谷歌2搜索引擎的使用技巧3主要內(nèi)容信息檢索1搜索引擎概述什么是搜索引擎?搜索引擎是根據(jù)一定的策略,運用特定的計算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。信息檢索搜索器索引器檢索器搜索引擎的組成1搜索引擎概述搜索引擎原理信息檢索抓取網(wǎng)頁建立索引數(shù)據(jù)庫檢索界面1搜索引擎概述搜索引擎原理
2、信息檢索利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。第一步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁因特網(wǎng)1搜索引擎概述搜索引擎原理信息檢索第二步:建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息,根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。1搜索引擎概述搜索引擎原理信息檢索搜索引擎的Spider還必須一同實現(xiàn)對索引數(shù)據(jù)庫的動態(tài)維護(hù),以保證索引數(shù)據(jù)庫
3、準(zhǔn)確反映網(wǎng)絡(luò)信息資源的當(dāng)前狀況。1搜索引擎概述搜索引擎原理信息檢索第三步:檢索界面的建立搜索引擎根據(jù)用戶輸入的檢索詞,在索引數(shù)據(jù)庫中快速地檢出文檔,進(jìn)行文檔與檢索的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序,并將檢索結(jié)果返回給用戶。1搜索引擎概述搜索引擎原理信息檢索每個搜索引擎都必須向用戶提供一個良好的信息查詢界面,一般包括分類目錄及關(guān)鍵詞兩種信息查詢途徑。1搜索引擎概述搜索引擎原理信息檢索抓取網(wǎng)頁建立索引數(shù)據(jù)庫檢索界面1搜索引擎概述搜索引擎原理搜索器索引器檢索器數(shù)據(jù)采集數(shù)據(jù)組織用戶檢索信息檢索搜索引擎的發(fā)展元搜索引擎1995Yahoo!1994Gopher1993
4、Archie1990第二代搜索目錄搜索Google1996Baidu1999……第三代搜索網(wǎng)頁搜索1搜索引擎概述信息檢索搜索引擎分類按工作方式分:(1)目錄式搜索引擎也叫“網(wǎng)址大全”,將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,可按關(guān)鍵詞搜索,也可按分類目錄逐層查找。如Yahoo!(雅虎)、hao123、新浪分類目錄搜索等1搜索引擎概述搜索引擎的分類信息檢索雅虎目錄式網(wǎng)址搜索引擎界面信息檢索搜索引擎分類按工作方式分(2)全文搜索引擎用戶可以搜索一篇文章的任何部分,不論是標(biāo)題還是正文。如百度、Google、必應(yīng)。1搜索引擎概述搜索引擎的分類信息檢索信息檢索搜索引擎分類按
5、工作方式分:(3)元搜索引擎指用戶同時利用多個引擎進(jìn)行網(wǎng)絡(luò)搜索的中介。元搜索引擎接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結(jié)果返回給用戶。目前世界上著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。1搜索引擎概述搜索引擎的分類信息檢索InfoSpace元搜索引擎界面信息檢索元搜索引擎——覓搜、Dogpile信息檢索指數(shù)確定結(jié)果排序信息檢索Dogplie信息檢索指明出處信息檢索常用搜索引擎信息檢索Google是目前最大的全球性搜索引擎之一。創(chuàng)始人:斯坦福大學(xué)博士生拉里·佩奇(LarryPage)和謝爾蓋·布林(SergEyBrin
6、)創(chuàng)立。2百度與google2百度與googleGoogle(谷歌)信息檢索名字由來源于數(shù)學(xué)名詞“Googol”,Googol表示一個1后面跟著100個零。GoogleInt.使用這一術(shù)語體現(xiàn)了公司整合網(wǎng)上海量信息的遠(yuǎn)大目標(biāo)。使命整合全球信息,使人人皆可訪問并從中受益。價值觀:Don’tbeevil不作惡2百度與googleGoogle(谷歌)信息檢索信息檢索信息檢索Google技術(shù)PageRankPageRank,網(wǎng)頁排名,又稱網(wǎng)頁級別、Google左側(cè)排名或佩奇排名,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計算的技術(shù)。Google用它來體現(xiàn)網(wǎng)頁的相關(guān)性和重
7、要性。2百度與google信息檢索Google技術(shù)PageRank通過網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來確定一個頁面的等級。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源(甚至來源的來源,即鏈接到A頁面的頁面)和投票目標(biāo)的等級來決定新的等級。簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。級別從1到10級,10級為滿分。PR值越高說明該網(wǎng)頁越受歡迎(越重要)。2百度與google信息檢索Google的PageRank技術(shù)鏈接1鏈接210053鏈接1鏈接2鏈接395033信息檢索Google技術(shù)超文本匹配分析技術(shù)(Hyper
8、tex-tMatchingAnalys