比較pagerank算法和hits算法的優(yōu)缺點

比較pagerank算法和hits算法的優(yōu)缺點

ID:15855906

大?。?6.50 KB

頁數(shù):4頁

時間:2018-08-06

比較pagerank算法和hits算法的優(yōu)缺點_第1頁
比較pagerank算法和hits算法的優(yōu)缺點_第2頁
比較pagerank算法和hits算法的優(yōu)缺點_第3頁
比較pagerank算法和hits算法的優(yōu)缺點_第4頁
資源描述:

《比較pagerank算法和hits算法的優(yōu)缺點》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、題目:請比較PageRank算法和HITS算法的優(yōu)缺點,除此之外,請再介紹2種用于搜索引擎檢索結(jié)果的排序算法,并舉例說明。答:1998年,SergeyBrin和LawrencePage[1]提出了PageRank算法。該算法基于“從許多優(yōu)質(zhì)的網(wǎng)頁鏈接過來的網(wǎng)頁,必定還是優(yōu)質(zhì)網(wǎng)頁”的回歸關(guān)系,來判定網(wǎng)頁的重要性。該算法認為從網(wǎng)頁A導向網(wǎng)頁B的鏈接可以看作是頁面A對頁面B的支持投票,根據(jù)這個投票數(shù)來判斷頁面的重要性。當然,不僅僅只看投票數(shù),還要對投票的頁面進行重要性分析,越是重要的頁面所投票的評價也就越高。根據(jù)這樣的分析,得到了高評價的重要頁面會被給予較高的PageRank值,在檢索結(jié)果內(nèi)的名次

2、也會提高。PageRank是基于對“使用復雜的算法而得到的鏈接構(gòu)造”的分析,從而得出的各網(wǎng)頁本身的特性。HITS算法是由康奈爾大學(CornellUniversity)的JonKleinberg博士于1998年首先提出。Kleinberg認為既然搜索是開始于用戶的檢索提問,那么每個頁面的重要性也就依賴于用戶的檢索提問。他將用戶檢索提問分為如下三種:特指主題檢索提問(specificqueries,也稱窄主題檢索提問)、泛指主題檢索提問(Broad-topicqueries,也稱寬主題檢索提問)和相似網(wǎng)頁檢索提問(Similar-pagequeries)。HITS算法專注于改善泛指主題檢索的結(jié)

3、果。Kleinberg將網(wǎng)頁(或網(wǎng)站)分為兩類,即hubs和authorities,而且每個頁面也有兩個級別,即hubs(中心級別)和authorities(權(quán)威級別)。Authorities是具有較高價值的網(wǎng)頁,依賴于指向它的頁面;hubs為指向較多authorities的網(wǎng)頁,依賴于它指向的頁面。HITS算法的目標就是通過迭代計算得到針對某個檢索提問的排名最高的authority的網(wǎng)頁。通常HITS算法是作用在一定范圍的,例如一個以程序開發(fā)為主題的網(wǎng)頁,指向另一個以程序開發(fā)為主題的網(wǎng)頁,則另一個網(wǎng)頁的重要性就可能比較高,但是指向另一個購物類的網(wǎng)頁則不一定。在限定范圍之后根據(jù)網(wǎng)頁的出度和入

4、度建立一個矩陣,通過矩陣的迭代運算和定義收斂的閾值不斷對兩個向量authority和hub值進行更新直至收斂。從上面的分析可見,PageRank算法和HITS算法都是基于鏈接分析的搜索引擎排序算法,并且在算法中兩者都利用了特征向量作為理論基礎和收斂性依據(jù)。雖然兩種算法均為鏈接分析算法,但兩者之間還是有明顯的區(qū)別的。HITS算法計算的authority值只是相對于某個檢索主題的權(quán)重,因此HITS算法也常被稱為Query-dependent算法;而PageRank算法是獨立于檢索主題,因此也常被稱為Query-independent算法。PageRank算法的優(yōu)點在于它對互聯(lián)網(wǎng)上的網(wǎng)頁給出了一個

5、全局的重要性排序,并且算法的計算過程是可以離線完成的,這樣有利于迅速響應用戶的請求。不過,其缺點在于主題無關(guān)性,沒有區(qū)分頁面內(nèi)的導航鏈接、廣告鏈接和功能鏈接等,容易對廣告頁面有過高評價;另外,PageRank算法的另一弊端是,舊的頁面等級會比新頁面高,因為新頁面,即使是非常好的頁面,也不會有很多鏈接,除非他是一個站點的子站點。這就是PageRank需要多項算法結(jié)合的原因。HITS算法的優(yōu)點在于它能更好地描述互聯(lián)網(wǎng)的組織特點,由于它只是對互聯(lián)網(wǎng)中的很小的一個子集進行分析,所以它需要的迭代次數(shù)更少,收斂速度更快,減少了時間復雜度。但HITS算法也存在如下缺點:中心網(wǎng)頁之間的相互引用以增加其網(wǎng)頁評

6、價,當一個網(wǎng)站上的多篇網(wǎng)頁指向一個相同的鏈接,或者一個網(wǎng)頁指向另一個網(wǎng)站上的多個文件時會引起評分的不正常增加,這會導致易受“垃圾鏈接”的影響;網(wǎng)頁中存在自動生成的鏈接;主題漂移,在鄰接圖中經(jīng)常包括一些和搜索主題無關(guān)的鏈接,如果這些鏈接自身也是中心網(wǎng)頁或權(quán)威網(wǎng)頁就會引起主題漂移:對于每個不同的查詢算法都需要重新運行一次來獲取結(jié)果。這使得它不可能用于實時系統(tǒng),因為對于上千萬次的并發(fā)查詢這樣的開銷實在太大。PageRank算法和HITS算法都是客觀的描述了網(wǎng)頁之間的本質(zhì)特征,但是它們都很少考慮到用戶瀏覽習慣時的主題相關(guān)性。Hilltop算法:HillTop,是一項搜索引擎結(jié)果排序的專利,是Goog

7、le的一個工程師Bharat在2001年獲得的專利。HillTop算法的指導思想和PageRank是一致的,即都通過反向鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重。但HillTop認為只計算來自具有相同主題的相關(guān)文檔鏈接對于搜索者的價值會更大,即主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計算的貢獻比主題不相關(guān)的鏈接價值要更高。在1999-2000年,當這個算法被Bharat與其他Google開發(fā)人員開發(fā)出來的時候,他們稱這

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。