基于pagerank和hits的web搜索

基于pagerank和hits的web搜索

ID:34556209

大小:182.08 KB

頁數(shù):3頁

時間:2019-03-07

基于pagerank和hits的web搜索_第1頁
基于pagerank和hits的web搜索_第2頁
基于pagerank和hits的web搜索_第3頁
資源描述:

《基于pagerank和hits的web搜索》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。

1、維普資訊http://www.cqvip.com第18卷.第7期計算機技術與發(fā)展Vo1.18No.72008年7月.COMPUTERTECHNOLOGYANDDEVELOPMENTJu1.2008基于PageRank和HITS的Web搜索常慶,周明全,耿國華(西北大學可視化研究所,陜西西安710127)摘要:介紹了目前應用較為廣泛的兩種算法——PageRaIlk算法和HITS算法。PageRank算法是基于用戶隨機的向前瀏覽網頁的直覺知識,HITS算法考慮的是Authoritive網頁和Hub網頁間的加強

2、關系。PageRank算法的基本思想是:如果一個頁面被許多其他頁面引用,則這個頁面很可能是重要頁面;一個頁面盡管沒有被多次引用,但被一個重要頁面引用,那么這個頁面很可能也是重要頁面;一個頁面的重要性被均分并傳遞到它所引用的頁面。而HITS算法則專注于改善泛指主題檢索的結果,通過一定的計算(迭代計算)方法以得到針對某個檢索提問的最具價值的網頁,即排名最高的authority。關鍵詞:PageRank;HITS;特征向量;檢索主題;鏈按分析中圖分類號:11P3O1.6文獻標識碼:A文章編號:1673—629X

3、(2008)07—0077一O3PageRankandHITS。-’BasedWebSearchCHANGQing,ZHOUMing-quan,GENGGuo-hua(InstituteofVisualizationTechnology,NorthwestUniversity,Xi’an710127,China)Abstract:Introducethewiderapplicationofthepresenttwoalgorithms:PageRankalgorithmandHITSalgorithm.P

4、ageRanka~orithmisbasedonrand~userSbrowsethewebsiteaheadofintuitiveknowledge.HITSalgorithmconsideredisAuthoritiveandHubwebsiteh)r】嘲ethestrengtheningofrehtiom.PageRankalgorithm’Sbasicidea:ifapageisusedinmanyotherpages,thispageislikelytObeimport~tP~es;althou

5、ghnoonepage吣repeatedlyquoted,butitwasanimportantquotepages,thispagemayalsobeimportantpage;theimportanceofapagearetransferedtothepageswhichitcites.HITSalgorithmfocusonimprovingthegenericthemeofthesearchresults,throughsomecaledation(iterative)methodinordert

6、Ogetaresponsetoasearchofthemostvaluablepages,theh~hestn~angauthority.Keywords:PageRank;HITS;eigenveetor;searchtheme;linkanalysis1PageRank算法PageRank值,這可以用迭代方法計算[¨。PageRank算法描述如下:U是一個網頁,F(xiàn)(U)是如果有兩個相互指向的網頁a,b,它們不指向其U指向的網頁集合,B(U)是指向U的網頁集合,N(U)它任何網頁,另外有某個網頁C,指向

7、a,b中的某一是U指向外的鏈接數(shù),顯然N(U)=IF(U)I,C是一個,比如a,那么在迭代計算中,a,b的rank值因為不個用于規(guī)范化的因子(Google通常取O.85,這種表示法分布出去而不斷地累計,如下圖:也適用于以后介紹的算法),則U的Rank值計算如下:、R(“)=cR()/N()口∈B(q)這就是算法的形式化描述,也可以用矩陣來描述為了解決這個問題,SergeyBrin和LawrencePage此算法,設A為一個方陣,行和列對應網頁集的網頁。改進了算法,引入了衰退因子E(“)[,E(U)是對應如

8、果網頁有指向網頁的一個鏈接,則A=1/Ni,網頁集的某一向量,對應rank的初始值,算法改進如否則A=o設是對應網頁集的一個向量,有V=下:cAV,V為A的特征根為C的特征向量。實際上,只需要R(“)=c∑R()()+cE(“)求出最大特征根的特征向量,就是網頁集對應的最終其中,IIR,JJl=1,對應的矩陣形式為V’=c(AV’+E)。收稿日期:2007—1O一11基金項目:國家自然科學基金(F020503)作者簡介:常慶(

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。