資源描述:
《基于pagerank和hits的web搜索》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、維普資訊http://www.cqvip.com第18卷.第7期計算機技術與發(fā)展Vo1.18No.72008年7月.COMPUTERTECHNOLOGYANDDEVELOPMENTJu1.2008基于PageRank和HITS的Web搜索常慶,周明全,耿國華(西北大學可視化研究所,陜西西安710127)摘要:介紹了目前應用較為廣泛的兩種算法——PageRaIlk算法和HITS算法。PageRank算法是基于用戶隨機的向前瀏覽網頁的直覺知識,HITS算法考慮的是Authoritive網頁和Hub網頁間的加強
2、關系。PageRank算法的基本思想是:如果一個頁面被許多其他頁面引用,則這個頁面很可能是重要頁面;一個頁面盡管沒有被多次引用,但被一個重要頁面引用,那么這個頁面很可能也是重要頁面;一個頁面的重要性被均分并傳遞到它所引用的頁面。而HITS算法則專注于改善泛指主題檢索的結果,通過一定的計算(迭代計算)方法以得到針對某個檢索提問的最具價值的網頁,即排名最高的authority。關鍵詞:PageRank;HITS;特征向量;檢索主題;鏈按分析中圖分類號:11P3O1.6文獻標識碼:A文章編號:1673—629X
3、(2008)07—0077一O3PageRankandHITS。-’BasedWebSearchCHANGQing,ZHOUMing-quan,GENGGuo-hua(InstituteofVisualizationTechnology,NorthwestUniversity,Xi’an710127,China)Abstract:Introducethewiderapplicationofthepresenttwoalgorithms:PageRankalgorithmandHITSalgorithm.P
4、ageRanka~orithmisbasedonrand~userSbrowsethewebsiteaheadofintuitiveknowledge.HITSalgorithmconsideredisAuthoritiveandHubwebsiteh)r】嘲ethestrengtheningofrehtiom.PageRankalgorithm’Sbasicidea:ifapageisusedinmanyotherpages,thispageislikelytObeimport~tP~es;althou
5、ghnoonepage吣repeatedlyquoted,butitwasanimportantquotepages,thispagemayalsobeimportantpage;theimportanceofapagearetransferedtothepageswhichitcites.HITSalgorithmfocusonimprovingthegenericthemeofthesearchresults,throughsomecaledation(iterative)methodinordert
6、Ogetaresponsetoasearchofthemostvaluablepages,theh~hestn~angauthority.Keywords:PageRank;HITS;eigenveetor;searchtheme;linkanalysis1PageRank算法PageRank值,這可以用迭代方法計算[¨。PageRank算法描述如下:U是一個網頁,F(xiàn)(U)是如果有兩個相互指向的網頁a,b,它們不指向其U指向的網頁集合,B(U)是指向U的網頁集合,N(U)它任何網頁,另外有某個網頁C,指向
7、a,b中的某一是U指向外的鏈接數(shù),顯然N(U)=IF(U)I,C是一個,比如a,那么在迭代計算中,a,b的rank值因為不個用于規(guī)范化的因子(Google通常取O.85,這種表示法分布出去而不斷地累計,如下圖:也適用于以后介紹的算法),則U的Rank值計算如下:、R(“)=cR()/N()口∈B(q)這就是算法的形式化描述,也可以用矩陣來描述為了解決這個問題,SergeyBrin和LawrencePage此算法,設A為一個方陣,行和列對應網頁集的網頁。改進了算法,引入了衰退因子E(“)[,E(U)是對應如
8、果網頁有指向網頁的一個鏈接,則A=1/Ni,網頁集的某一向量,對應rank的初始值,算法改進如否則A=o設是對應網頁集的一個向量,有V=下:cAV,V為A的特征根為C的特征向量。實際上,只需要R(“)=c∑R()()+cE(“)求出最大特征根的特征向量,就是網頁集對應的最終其中,IIR,JJl=1,對應的矩陣形式為V’=c(AV’+E)。收稿日期:2007—1O一11基金項目:國家自然科學基金(F020503)作者簡介:常慶(