資源描述:
《pagerank--網(wǎng)頁排序的里程碑式算法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、Pagerank--網(wǎng)頁排序的里程碑式算法隨著網(wǎng)絡(luò)管制的逐漸嚴(yán)格,似乎網(wǎng)絡(luò)環(huán)境越來越純凈而且安全了,而越來越多的域外內(nèi)容也被干干凈凈的屏蔽,搜索引擎中充斥著根據(jù)相關(guān)法律法規(guī)和政策,部分搜索結(jié)果未予顯示,和上百條重復(fù)累贅照抄照搬的鏈接?,F(xiàn)在似乎只知百度不知google,當(dāng)年的那個(gè)徹底改觀了整個(gè)互聯(lián)網(wǎng)的生態(tài)的公司,也許很快就徹底消失在下一代的眼中了。2011年9月27日google推出了newdoodle慶祝自己的13歲生日。2014年11月寫此文紀(jì)念國內(nèi)嚴(yán)格的網(wǎng)絡(luò)管制“獲得成功”。提到google就不的不提到它的搜索引擎,一個(gè)推動(dòng)整個(gè)互聯(lián)網(wǎng)向前跨越一個(gè)年代的產(chǎn)品,那么一個(gè)由網(wǎng)頁排名
2、和搜索算法構(gòu)成的搜索引擎,其核心功能是什么呢?自然是網(wǎng)頁搜索,。而搜索出的鏈接是該散亂放置隨機(jī)分配位置還是按照某些順序決定其“重要程度”而進(jìn)行排序放置呢?答案顯而易見是后者??墒侨绾螌?duì)網(wǎng)頁排序才是最好的方式,一直是各個(gè)搜索引擎最最頭疼的事情。搜索的最好方式就是有一個(gè)明確的排序,字典中按字母順序排列,圖書館按照書的類別分類,商店的商品按種類分配,而且他們有很多共通特點(diǎn);1.數(shù)量有限2.類別明顯3.重復(fù)度很低4.及時(shí)性不強(qiáng)(不需要很快的速度更新)而互聯(lián)網(wǎng)信息很任性的沒有滿足以上的任何一條,而在google推出Pagerank算法之前,主流的網(wǎng)頁算法排序都基本差不多,就是對(duì)PageVi
3、ew(基本可以理解為訪問量、點(diǎn)擊量、鏈接量直接的意思)進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)所有包含詞條的鏈接,然后進(jìn)行數(shù)理統(tǒng)計(jì)。那么問題來了:統(tǒng)計(jì)工作哪家強(qiáng)?統(tǒng)計(jì)速度哪加快?其實(shí)讀到這里大家已經(jīng)可以看出這個(gè)方法的邏輯問題了:首先、必須對(duì)所有的每一種每一個(gè)相關(guān)詞條進(jìn)行數(shù)量統(tǒng)計(jì),而且是抽樣統(tǒng)計(jì),還要建立在如此大的網(wǎng)絡(luò)波動(dòng)性的基礎(chǔ)上?!段伨印废氡卮蠹叶伎催^,宋思明說:但凡能用錢解決的問題就不是大問題!只要擁有龐大的儲(chǔ)存空間和一個(gè)具有強(qiáng)大的云計(jì)算能力的算法似乎這個(gè)問題就可以用資金搞定,但是我們需要想一想每毫秒都會(huì)產(chǎn)生成百萬上千萬的信息詞條,那么我們需要多龐大的儲(chǔ)存空間和計(jì)算能力的算法能持續(xù)解決這個(gè)問題呢。第二
4、這個(gè)方法可以讓無孔不入的網(wǎng)絡(luò)廣告商們可以睡覺睡到自然醒,數(shù)錢數(shù)到手抽筋,他們只要把自己代理的廣告植入一些公共引用類鏈接就可以收錢了,因?yàn)榫W(wǎng)民會(huì)幫他把訪問量刷上去,都不用他自己動(dòng)手,一段時(shí)間后,各大詞條的置頂鏈接一定是他們的廣告,不用多花一分錢的版費(fèi),最搞笑的是,在google之前的網(wǎng)絡(luò)四大巨頭的搜索引擎中搜索他們自己公司的名字,只有一個(gè)能出現(xiàn)在前十里,其他的都被我們強(qiáng)大的廣告商們牢牢地占據(jù)了領(lǐng)先位置不可撼動(dòng)。那這么說來似乎我們進(jìn)入了一個(gè)死循環(huán),這個(gè)問題難道就沒有辦法解決了?不,任何的事情都有解決辦法,其實(shí)這個(gè)問題并沒有想象的那么恐怖。1999年LarryPage和SergeyBr
5、in發(fā)表了一篇論文,文中介紹了一種叫做“Pagerank”的算法,介紹了一個(gè)新的概念,什么是:“網(wǎng)頁的重要程度”。利用了一個(gè)網(wǎng)頁即一個(gè)sub-system其鏈接被其他“重要”網(wǎng)頁所鏈接的次數(shù)來計(jì)算的算法。這一思想來源于學(xué)術(shù)界評(píng)判學(xué)術(shù)論文重要性的通用方法,就是看這篇論文被引用的次數(shù)和引用者地位,一篇論文被諾貝爾獎(jiǎng)獲得者引用和被小學(xué)生引用肯定不一樣。而按照上文的思路和定義決定一個(gè)網(wǎng)頁(設(shè)為Ri)的排序時(shí)決定他地位因素有兩點(diǎn)1.多少網(wǎng)頁鏈接了Ri2.鏈接他的網(wǎng)頁(Rx)的排序那么問題又來了,我們進(jìn)入了一個(gè)“先有雞還是先有蛋”的循環(huán)。其實(shí)這個(gè)問題并不難解決,Page和Brin又引進(jìn)了一個(gè)
6、第四維度的變量,即分析一個(gè)虛擬用戶在互聯(lián)網(wǎng)上的漫游過程。他們假定:虛擬用戶一旦訪問了一個(gè)網(wǎng)頁后,下一步將有相同的幾率訪問被該網(wǎng)頁所鏈接的任何一個(gè)其它網(wǎng)頁。換句話說,如果網(wǎng)頁Ri有Ni個(gè)對(duì)外鏈接,則虛擬用戶在訪問了Ri之后,下一步點(diǎn)擊那些鏈接當(dāng)中的任何一個(gè)的幾率均為1/Ni。初看起來,這一假設(shè)并不合理,因?yàn)槿魏斡脩舳加衅?,怎么可能以相同的幾率訪問一個(gè)網(wǎng)頁的所有鏈接呢?但如果我們考慮到佩奇和布林的虛擬用戶實(shí)際上是對(duì)互聯(lián)網(wǎng)上全體用戶的一種平均意義上的代表,這條假設(shè)就不象初看起來那么不合理了。那么網(wǎng)頁的排序由什么來決定呢?是由該用戶在漫游了很長(zhǎng)時(shí)間——理論上為無窮長(zhǎng)時(shí)間——后訪問各網(wǎng)頁
7、的幾率分布來決定,訪問幾率越大的網(wǎng)頁排序就越靠前。、為了將這一分析數(shù)學(xué)化,我們用pi(n)表示虛擬用戶在進(jìn)行第n次瀏覽時(shí)訪問網(wǎng)頁Ri的幾率。接下來我們把這個(gè)問題化簡(jiǎn)然后一步一步由簡(jiǎn)變繁,先建立一個(gè)最小的模型,一個(gè)擁有XYZ三個(gè)單元的模型,最開始給定XYZ三個(gè)變量均等的Pagerank值m,然后按照箭頭的方向?qū)⒆陨淼闹稻秩缓蟀凑占^方向進(jìn)行數(shù)值交換,最后數(shù)值會(huì)穩(wěn)定在某個(gè)數(shù)上。例如:設(shè)m=1第一次交換時(shí)X’=X/3+Y/2Y’=X/3+Y/2+Z/2Z’=X/3+Z/2利用平穩(wěn)馬爾