資源描述:
《《搜索引擎及其應(yīng)用》PPT課件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、KRNET'20001信息檢索第六章搜索引擎及其利用信息檢索第四章搜索引擎及其發(fā)展搜索引擎概述1百度與谷歌2搜索引擎的使用技巧3主要內(nèi)容信息檢索1搜索引擎概述什么是搜索引擎?搜索引擎是根據(jù)一定的策略,運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。信息檢索搜索器索引器檢索器搜索引擎的組成1搜索引擎概述搜索引擎原理信息檢索抓取網(wǎng)頁建立索引數(shù)據(jù)庫檢索界面1搜索引擎概述搜索引擎原理信息檢索利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁的Spider系統(tǒng)程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到
2、其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。第一步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁因特網(wǎng)1搜索引擎概述搜索引擎原理信息檢索第二步:建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息,根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對(duì)頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。1搜索引擎概述搜索引擎原理信息檢索搜索引擎的Spider還必須一同實(shí)現(xiàn)對(duì)索引數(shù)據(jù)庫的動(dòng)態(tài)維護(hù),以保證索引數(shù)據(jù)庫準(zhǔn)確反映網(wǎng)絡(luò)信息資源的當(dāng)前狀況。1搜索引擎概述搜索引擎原理信息檢索第三步:檢
3、索界面的建立搜索引擎根據(jù)用戶輸入的檢索詞,在索引數(shù)據(jù)庫中快速地檢出文檔,進(jìn)行文檔與檢索的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并將檢索結(jié)果返回給用戶。1搜索引擎概述搜索引擎原理信息檢索每個(gè)搜索引擎都必須向用戶提供一個(gè)良好的信息查詢界面,一般包括分類目錄及關(guān)鍵詞兩種信息查詢途徑。1搜索引擎概述搜索引擎原理信息檢索抓取網(wǎng)頁建立索引數(shù)據(jù)庫檢索界面1搜索引擎概述搜索引擎原理搜索器索引器檢索器數(shù)據(jù)采集數(shù)據(jù)組織用戶檢索信息檢索搜索引擎的發(fā)展元搜索引擎1995Yahoo!1994Gopher1993Archie1990第二代搜索目錄搜索Go
4、ogle1998Baidu1999……第三代搜索網(wǎng)頁搜索1搜索引擎概述信息檢索搜索引擎分類按工作方式分:(1)目錄式搜索引擎也叫“網(wǎng)址大全”,將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,可按關(guān)鍵詞搜索,也可按分類目錄逐層查找。如Yahoo?。ㄑ呕ⅲ?、hao123、新浪分類目錄搜索等1搜索引擎概述搜索引擎的分類信息檢索雅虎目錄式網(wǎng)址搜索引擎界面信息檢索搜索引擎分類按工作方式分(2)全文搜索引擎用戶可以搜索一篇文章的任何部分,不論是標(biāo)題還是正文。如百度、Google、必應(yīng)。1搜索引擎概述搜索引擎的分類信息檢索信息檢索搜索引擎分類按工作方式
5、分:(3)元搜索引擎指用戶同時(shí)利用多個(gè)引擎進(jìn)行網(wǎng)絡(luò)搜索的中介。元搜索引擎接受用戶查詢請(qǐng)求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶。目前世界上著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。1搜索引擎概述搜索引擎的分類信息檢索InfoSpace元搜索引擎界面信息檢索元搜索引擎——覓搜、Dogpile信息檢索指數(shù)確定結(jié)果排序信息檢索Dogplie信息檢索指明出處信息檢索常用搜索引擎信息檢索Google是目前最大的全球性搜索引擎之一。創(chuàng)始人:斯坦福大學(xué)博士生拉里·佩奇(LarryPage)和謝爾蓋·
6、布林(SergEyBrin)創(chuàng)立。2百度與googleGoogle(谷歌)信息檢索名字由來源于數(shù)學(xué)名詞“Googol”,Googol表示一個(gè)1后面跟著100個(gè)零。GoogleInt.使用這一術(shù)語體現(xiàn)了公司整合網(wǎng)上海量信息的遠(yuǎn)大目標(biāo)。使命整合全球信息,使人人皆可訪問并從中受益。價(jià)值觀:Don’tbeevil不作惡2百度與googleGoogle(谷歌)信息檢索信息檢索信息檢索Google技術(shù)PageRankPageRank,網(wǎng)頁排名,又稱網(wǎng)頁級(jí)別、Google左側(cè)排名或佩奇排名,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計(jì)算的技術(shù)
7、。Google用它來體現(xiàn)網(wǎng)頁的相關(guān)性和重要性。2百度與google信息檢索Google技術(shù)PageRank通過網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來確定一個(gè)頁面的等級(jí)。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源(甚至來源的來源,即鏈接到A頁面的頁面)和投票目標(biāo)的等級(jí)來決定新的等級(jí)。簡(jiǎn)單的說,一個(gè)高等級(jí)的頁面可以使其他低等級(jí)頁面的等級(jí)提升。級(jí)別從1到10級(jí),10級(jí)為滿分。PR值越高說明該網(wǎng)頁越受歡迎(越重要)。2百度與google信息檢索Google的PageRank技術(shù)鏈接1鏈接210053鏈接1鏈
8、接2鏈接395033信息檢索Google技術(shù)超文本匹配分析技術(shù)(Hypertex-tMatchingAnalysis)Google除了考慮檢索詞出現(xiàn)的次數(shù),還分析關(guān)鍵詞的字體、字號(hào)、以及字號(hào)以及關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的精確位置,并且對(duì)該網(wǎng)頁的鄰近網(wǎng)頁(包括鏈入網(wǎng)頁和鏈出網(wǎng)頁)的內(nèi)