搜索引擎鏈接分析算法之:HillTop算法

搜索引擎鏈接分析算法之:HillTop算法

ID:31807112

大小:199.50 KB

頁數(shù):16頁

時間:2019-01-18

搜索引擎鏈接分析算法之:HillTop算法_第1頁
搜索引擎鏈接分析算法之:HillTop算法_第2頁
搜索引擎鏈接分析算法之:HillTop算法_第3頁
搜索引擎鏈接分析算法之:HillTop算法_第4頁
搜索引擎鏈接分析算法之:HillTop算法_第5頁
資源描述:

《搜索引擎鏈接分析算法之:HillTop算法》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、Hilltop外鏈算法是由KrishnaBaharat在2000年左右研究的,于2001年申請專利,但是有很多人以為Hilltop算法是由谷歌研究的。只不過是KrishnaBaharat后來加入了Google成為了一名核心工程師,然后授權(quán)給Google使用的。?????在與PageRank算法相比之下,Google意識到這個算法的進(jìn)步會為他們的搜索排名帶來非常重要的功能。Google的HillTop算法現(xiàn)在已經(jīng)能更好的與舊的算法(PR算法)聯(lián)合起來工作。根據(jù)觀察HillTop算法比起它在2000年剛設(shè)計的時候已經(jīng)有了很大的進(jìn)步。顯然這也是2003

2、年11月16日“佛羅里達(dá)”更新中影響的一個最主要的算法。???????1.Hilltop算法基本思想????Hilltop融合了HITS和PageRank兩個算法的基本思想:????一方面,Hilltop是與用戶查詢請求相關(guān)的鏈接分析算法,吸收了HITS算法根據(jù)用戶查詢獲得高質(zhì)量相關(guān)網(wǎng)頁子集的思想,即主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計算的貢獻(xiàn)比主題不相關(guān)的鏈接價值要更高.符合“子集傳播模型”,是該模型的一個具體實(shí)例;???另一方面,在權(quán)值傳播過程中,Hilltop也采納了PageRank的基本指導(dǎo)思想,即通過頁面入鏈的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序

3、權(quán)重。?2.Hilltop算法的一些基本定義?非從屬組織頁面:????“非從屬組織頁面”(Non-affiliatedPages)是Hilltop算法的一個很重要的定義。要了解什么是非從屬組織頁面,先要搞明白什么是“從屬組織網(wǎng)站”,所謂“從屬組織網(wǎng)站”,即不同的網(wǎng)站屬于同一機(jī)構(gòu)或者其擁有者有密切關(guān)聯(lián)。具體而言,滿足如下任意一條判斷規(guī)則的網(wǎng)站會被認(rèn)為是從屬網(wǎng)站:???條件1:主機(jī)IP地址的前三個子網(wǎng)段相同,比如:IP地址分別為159.226.138.127和159.226.138.234的兩個網(wǎng)站會被認(rèn)為是從屬網(wǎng)站。???條件2:如果網(wǎng)站域名中的主

4、域名相同,比如:www.ibm.com和www.ibm.com.cn會被認(rèn)為是從屬組織網(wǎng)站。????“非從屬組織頁面”的含義是:如果兩個頁面不屬于從屬網(wǎng)站,則為非從屬組織頁面。圖6-22是相關(guān)示意圖,從圖中可以看出,頁面2和頁面3同屬于IBM的網(wǎng)頁,所以是“從屬組織頁面”,而頁面1和頁面5、頁面3和頁面6都是“非從屬組織頁面”。由此也可看出,“非從屬組織頁面”代表的是頁面的一種關(guān)系,單個一個頁面是無所謂從屬或者非從屬組織頁面的。?????????????????圖6-22“從屬組織頁面”與“非從屬組織頁面”專家頁面:???“專家頁面”(Expor

5、tSources)是Hilltop算法的另外一個重要定義。所謂“專家頁面”,即與某個主題相關(guān)的高質(zhì)量頁面,同時需要滿足以下要求:這些頁面的鏈接所指向的頁面相互之間都是“非從屬組織頁面”,且這些被指向的頁面大多數(shù)是與“專家頁面”主題相近的。目標(biāo)頁面集合:???Hilltop算法將互聯(lián)網(wǎng)頁面劃分為兩類子集合,最重要的子集合是由專家頁面構(gòu)成的互聯(lián)網(wǎng)頁面子集,不在這個子集里的剩下的互聯(lián)網(wǎng)頁面作為另外一個集合,這個集合稱作“目標(biāo)頁面集合”(TargetWebServers)。3.Hilltop算法???圖6-23是Hilltop算法的整體流程示意。???1

6、)建立專家頁面索引:首先從海量的互聯(lián)網(wǎng)網(wǎng)頁中通過一定規(guī)則篩選出“專家頁面”子集合,并單獨(dú)為這個頁面集合建立索引。???2)用戶查詢:Hilltop在接收到用戶發(fā)出的某個查詢請求時:???首先)根據(jù)用戶查詢的主題,從“專家頁面”子集合中找出部分相關(guān)性最強(qiáng)的“專家頁面”,并對每個專家頁面計算相關(guān)性得分,????然后)根據(jù)“目標(biāo)頁面”和這些“專家頁面”的鏈接關(guān)系來對目標(biāo)頁面進(jìn)行排序?;舅悸纷裱璓ageRank算法的鏈接數(shù)量假設(shè)和質(zhì)量原則,將專家頁面的得分通過鏈接關(guān)系傳遞給目標(biāo)頁面,并以此分?jǐn)?shù)作為目標(biāo)頁面與用戶查詢相關(guān)性的排序得分。????最后)系統(tǒng)整

7、合相關(guān)專家頁面和得分較高的目標(biāo)頁面作為搜索結(jié)果返回給用戶。?????????????????????????????????????????????圖6-23Hilltop算法流程???若在上述過程中,Hilltop無法得到一個足夠大的專家頁面集合,則返回搜索結(jié)果為空。由此可以看出,Hilltop算法更注重搜索結(jié)果的精度和準(zhǔn)確性,不太考慮搜索結(jié)果是否足夠多或者對大多數(shù)用戶查詢是否都有相應(yīng)的搜索結(jié)果,所以很多用戶發(fā)出的查詢的搜索結(jié)果為空。這意味著Hilltop可以與某個排序算法相結(jié)合,以提高排序準(zhǔn)確性,但并不適合作為一個獨(dú)立的網(wǎng)頁排序算法來使用。4

8、.Hilltop算法流程???從上述整體流程描述可看出,Hilltop算法主要包含兩個步驟:專家頁面搜索及目標(biāo)頁面排序。步驟一:專家頁面

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。