資源描述:
《鏈接分析算法之:hilltop算法》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處鏈接分析算法之:HillTop算法Hilltop算法是由KrishnaBaharat在2000年左右研究的,于2001年申請專利,但是有很多人以為Hilltop算法是由谷歌研究的。只不過是KrishnaBaharat后來加入了Google成為了一名核心工程師,然后授權(quán)給Google使用的。在與PageRank算法相比之下,Google意識到這個算法的進(jìn)步會為他們的搜索排名帶來非常重要的功能。Google的HillTop算法現(xiàn)在已經(jīng)能更好的與舊的算法(PR算法)聯(lián)合起來工作。根據(jù)觀察HillTop算法
2、比起它在2000年剛設(shè)計(jì)的時候已經(jīng)有了很大的進(jìn)步。顯然這也是2003年11月16日“佛羅里達(dá)”更新中影響的一個最主要的算法。1.Hilltop算法基本思想Hilltop融合了HITS和PageRank兩個算法的基本思想:一方面,Hilltop是與用戶查詢請求相關(guān)的鏈接分析算法,吸收了HITS算法根據(jù)用戶查詢獲得高質(zhì)量相關(guān)網(wǎng)頁子集的思想,即主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計(jì)算的貢獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高.符合“子集傳播模型”,是該模型的一個具體實(shí)例;另一方面,在權(quán)值傳播過程中,Hilltop也采納了PageRank的基本指導(dǎo)思想,即通過頁面入鏈的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重。本文由
3、西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)專科醫(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處2.Hilltop算法的一些基本定義非從屬組織頁面:“非從屬組織頁面”(Non-affiliatedPages)是Hilltop算法的一個很重要的定義。要了解什么是非從屬組織頁面,先要搞明白什么是“從屬組織網(wǎng)站”,所謂“從屬組織網(wǎng)站”,即不同的網(wǎng)站屬于同一機(jī)構(gòu)或者其擁有者有密切關(guān)聯(lián)。具體而言,滿足如下任意一條判斷規(guī)則的網(wǎng)站會被認(rèn)為是從屬網(wǎng)站:條件1:主機(jī)IP地址的前三個子網(wǎng)段相同,比如:IP地址分別為159.226
4、.138.127和159.226.138.234的兩個網(wǎng)站會被認(rèn)為是從屬網(wǎng)站。條件2:如果網(wǎng)站域名中的主域名相同,比如:www.ibm.com和www.ibm.com.cn會被認(rèn)為是從屬組織網(wǎng)站?!胺菑膶俳M織頁面”的含義是:如果兩個頁面不屬于從屬網(wǎng)站,則為非從屬組織頁面。圖6-22是相關(guān)示意圖,從圖中可以看出,頁面2和頁面3同屬于IBM的網(wǎng)頁,所以是“從屬組織頁面”,而頁面1和頁面5、頁面3和頁面6都是“非從屬組織頁面”。由此也可看出,“非從屬組織頁面”代表的是頁面的一種關(guān)系,單個一個頁面是無所謂從屬或者非從屬組織頁面的。本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.co
5、m/收集,轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)專科醫(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處圖6-22“從屬組織頁面”與“非從屬組織頁面”專家頁面:“專家頁面”(ExportSources)是Hilltop算法的另外一個重要定義。所謂“專家頁面”,即與某個主題相關(guān)的高質(zhì)量頁面,同時需要滿足以下要求:這些頁面的鏈接所指向的頁面相互之間都是“非從屬組織頁面”,且這些被指向的頁面大多數(shù)是與“專家頁面”主題相近的。目標(biāo)頁面集合:Hilltop算法將互聯(lián)網(wǎng)頁面劃分為兩類子集合,最重要的子集合是由專家頁面構(gòu)成的互聯(lián)網(wǎng)頁面子集,不在這個子集里的剩下的互聯(lián)網(wǎng)頁面作為另外一個集合,這
6、個集合稱作“目標(biāo)頁面集合”(TargetWebServers)。本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處3.Hilltop算法圖6-23是Hilltop算法的整體流程示意。1)建立專家頁面索引:首先從海量的互聯(lián)網(wǎng)網(wǎng)頁中通過一定規(guī)則篩選出“專家頁面”子集合,并單獨(dú)為這個頁面集合建立索引。2)用戶查詢:Hilltop在接收到用戶發(fā)出的某個查詢請求時:首先)根據(jù)用戶查詢的主題,從“專家頁面”子集合中找出部分相關(guān)性最強(qiáng)的“專家頁面”,并對每個專家頁面計(jì)算相
7、關(guān)性得分,然后)根據(jù)“目標(biāo)頁面”和這些“專家頁面”的鏈接關(guān)系來對目標(biāo)頁面進(jìn)行排序?;舅悸纷裱璓ageRank算法的鏈接數(shù)量假設(shè)和質(zhì)量原則,將專家頁面的得分通過鏈接關(guān)系傳遞給目標(biāo)頁面,并以此分?jǐn)?shù)作為目標(biāo)頁面與用戶查詢相關(guān)性的排序得分。最后)系統(tǒng)整合相關(guān)專家頁面和得分較高的目標(biāo)頁面作為搜索結(jié)果返回給用戶。本文由西安白癜風(fēng)專科醫(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)??漆t(yī)院ht