鏈接分析算法之：hilltop算法

ID：34612259

大?。?63.70 KB

頁數(shù)：13頁

時間：2019-03-08

資源描述：

《鏈接分析算法之：hilltop算法》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、本文由西安白癜風(fēng)?？漆t(yī)院http://www.xapfb120.com/收集，轉(zhuǎn)載請注明出處鏈接分析算法之：HillTop算法Hilltop算法是由KrishnaBaharat在2000年左右研究的，于2001年申請專利，但是有很多人以為Hilltop算法是由谷歌研究的。只不過是KrishnaBaharat后來加入了Google成為了一名核心工程師，然后授權(quán)給Google使用的。在與PageRank算法相比之下，Google意識到這個算法的進(jìn)步會為他們的搜索排名帶來非常重要的功能。Google的HillTop算法現(xiàn)在已經(jīng)能更好的與舊的算法(PR算法)聯(lián)合起來工作。根據(jù)觀察HillTop算法

2、比起它在2000年剛設(shè)計(jì)的時候已經(jīng)有了很大的進(jìn)步。顯然這也是2003年11月16日“佛羅里達(dá)”更新中影響的一個最主要的算法。1.Hilltop算法基本思想Hilltop融合了HITS和PageRank兩個算法的基本思想：一方面，Hilltop是與用戶查詢請求相關(guān)的鏈接分析算法，吸收了HITS算法根據(jù)用戶查詢獲得高質(zhì)量相關(guān)網(wǎng)頁子集的思想，即主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計(jì)算的貢獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高.符合“子集傳播模型”，是該模型的一個具體實(shí)例；另一方面，在權(quán)值傳播過程中，Hilltop也采納了PageRank的基本指導(dǎo)思想，即通過頁面入鏈的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重。本文由

3、西安白癜風(fēng)?？漆t(yī)院http://www.xapfb120.com/收集，轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)專科醫(yī)院http://www.xapfb120.com/收集，轉(zhuǎn)載請注明出處2.Hilltop算法的一些基本定義非從屬組織頁面：“非從屬組織頁面”（Non-affiliatedPages）是Hilltop算法的一個很重要的定義。要了解什么是非從屬組織頁面，先要搞明白什么是“從屬組織網(wǎng)站”，所謂“從屬組織網(wǎng)站”，即不同的網(wǎng)站屬于同一機(jī)構(gòu)或者其擁有者有密切關(guān)聯(lián)。具體而言，滿足如下任意一條判斷規(guī)則的網(wǎng)站會被認(rèn)為是從屬網(wǎng)站：條件1：主機(jī)IP地址的前三個子網(wǎng)段相同，比如：IP地址分別為159.226

4、.138.127和159.226.138.234的兩個網(wǎng)站會被認(rèn)為是從屬網(wǎng)站。條件2：如果網(wǎng)站域名中的主域名相同，比如:www.ibm.com和www.ibm.com.cn會被認(rèn)為是從屬組織網(wǎng)站?！胺菑膶俳M織頁面”的含義是：如果兩個頁面不屬于從屬網(wǎng)站，則為非從屬組織頁面。圖6-22是相關(guān)示意圖，從圖中可以看出，頁面2和頁面3同屬于IBM的網(wǎng)頁，所以是“從屬組織頁面”，而頁面1和頁面5、頁面3和頁面6都是“非從屬組織頁面”。由此也可看出，“非從屬組織頁面”代表的是頁面的一種關(guān)系，單個一個頁面是無所謂從屬或者非從屬組織頁面的。本文由西安白癜風(fēng)?？漆t(yī)院http://www.xapfb120.co

5、m/收集，轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)專科醫(yī)院http://www.xapfb120.com/收集，轉(zhuǎn)載請注明出處圖6-22“從屬組織頁面”與“非從屬組織頁面”專家頁面：“專家頁面”(ExportSources)是Hilltop算法的另外一個重要定義。所謂“專家頁面”，即與某個主題相關(guān)的高質(zhì)量頁面，同時需要滿足以下要求：這些頁面的鏈接所指向的頁面相互之間都是“非從屬組織頁面”，且這些被指向的頁面大多數(shù)是與“專家頁面”主題相近的。目標(biāo)頁面集合：Hilltop算法將互聯(lián)網(wǎng)頁面劃分為兩類子集合，最重要的子集合是由專家頁面構(gòu)成的互聯(lián)網(wǎng)頁面子集，不在這個子集里的剩下的互聯(lián)網(wǎng)頁面作為另外一個集合，這

6、個集合稱作“目標(biāo)頁面集合”（TargetWebServers）。本文由西安白癜風(fēng)?？漆t(yī)院http://www.xapfb120.com/收集，轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)?？漆t(yī)院http://www.xapfb120.com/收集，轉(zhuǎn)載請注明出處3.Hilltop算法圖6-23是Hilltop算法的整體流程示意。1)建立專家頁面索引：首先從海量的互聯(lián)網(wǎng)網(wǎng)頁中通過一定規(guī)則篩選出“專家頁面”子集合，并單獨(dú)為這個頁面集合建立索引。2）用戶查詢:Hilltop在接收到用戶發(fā)出的某個查詢請求時:首先)根據(jù)用戶查詢的主題，從“專家頁面”子集合中找出部分相關(guān)性最強(qiáng)的“專家頁面”，并對每個專家頁面計(jì)算相

7、關(guān)性得分，然后)根據(jù)“目標(biāo)頁面”和這些“專家頁面”的鏈接關(guān)系來對目標(biāo)頁面進(jìn)行排序?；舅悸纷裱璓ageRank算法的鏈接數(shù)量假設(shè)和質(zhì)量原則，將專家頁面的得分通過鏈接關(guān)系傳遞給目標(biāo)頁面，并以此分?jǐn)?shù)作為目標(biāo)頁面與用戶查詢相關(guān)性的排序得分。最后)系統(tǒng)整合相關(guān)專家頁面和得分較高的目標(biāo)頁面作為搜索結(jié)果返回給用戶。本文由西安白癜風(fēng)專科醫(yī)院http://www.xapfb120.com/收集，轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)?？漆t(yī)院ht

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 13



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

鏈接分析算法之：hilltop算法

鏈接分析算法之：hilltop算法

相關(guān)文章

相關(guān)標(biāo)簽