pagerank--網(wǎng)頁排序的里程碑式算法

ID：34725221

大?。?33.63 KB

頁數(shù)：7頁

時(shí)間：2019-03-10

資源描述：

《pagerank--網(wǎng)頁排序的里程碑式算法》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、Pagerank--網(wǎng)頁排序的里程碑式算法隨著網(wǎng)絡(luò)管制的逐漸嚴(yán)格，似乎網(wǎng)絡(luò)環(huán)境越來越純凈而且安全了，而越來越多的域外內(nèi)容也被干干凈凈的屏蔽，搜索引擎中充斥著根據(jù)相關(guān)法律法規(guī)和政策，部分搜索結(jié)果未予顯示，和上百條重復(fù)累贅照抄照搬的鏈接?，F(xiàn)在似乎只知百度不知google，當(dāng)年的那個(gè)徹底改觀了整個(gè)互聯(lián)網(wǎng)的生態(tài)的公司，也許很快就徹底消失在下一代的眼中了。2011年9月27日google推出了newdoodle慶祝自己的13歲生日。2014年11月寫此文紀(jì)念國內(nèi)嚴(yán)格的網(wǎng)絡(luò)管制“獲得成功”。提到google就不的不提到它的搜索引擎，一個(gè)推動(dòng)整個(gè)互聯(lián)網(wǎng)向前跨越一個(gè)年代的產(chǎn)品，那么一個(gè)由網(wǎng)頁排名

2、和搜索算法構(gòu)成的搜索引擎，其核心功能是什么呢？自然是網(wǎng)頁搜索，。而搜索出的鏈接是該散亂放置隨機(jī)分配位置還是按照某些順序決定其“重要程度”而進(jìn)行排序放置呢？答案顯而易見是后者?？墒侨绾螌?duì)網(wǎng)頁排序才是最好的方式，一直是各個(gè)搜索引擎最最頭疼的事情。搜索的最好方式就是有一個(gè)明確的排序，字典中按字母順序排列，圖書館按照書的類別分類，商店的商品按種類分配，而且他們有很多共通特點(diǎn);1.數(shù)量有限2.類別明顯3.重復(fù)度很低4.及時(shí)性不強(qiáng)（不需要很快的速度更新）而互聯(lián)網(wǎng)信息很任性的沒有滿足以上的任何一條，而在google推出Pagerank算法之前，主流的網(wǎng)頁算法排序都基本差不多，就是對(duì)PageVi

3、ew（基本可以理解為訪問量、點(diǎn)擊量、鏈接量直接的意思）進(jìn)行統(tǒng)計(jì)，統(tǒng)計(jì)所有包含詞條的鏈接，然后進(jìn)行數(shù)理統(tǒng)計(jì)。那么問題來了：統(tǒng)計(jì)工作哪家強(qiáng)？統(tǒng)計(jì)速度哪加快？其實(shí)讀到這里大家已經(jīng)可以看出這個(gè)方法的邏輯問題了：首先、必須對(duì)所有的每一種每一個(gè)相關(guān)詞條進(jìn)行數(shù)量統(tǒng)計(jì)，而且是抽樣統(tǒng)計(jì)，還要建立在如此大的網(wǎng)絡(luò)波動(dòng)性的基礎(chǔ)上?！段伨印废氡卮蠹叶伎催^，宋思明說:但凡能用錢解決的問題就不是大問題！只要擁有龐大的儲(chǔ)存空間和一個(gè)具有強(qiáng)大的云計(jì)算能力的算法似乎這個(gè)問題就可以用資金搞定，但是我們需要想一想每毫秒都會(huì)產(chǎn)生成百萬上千萬的信息詞條，那么我們需要多龐大的儲(chǔ)存空間和計(jì)算能力的算法能持續(xù)解決這個(gè)問題呢。第二

4、這個(gè)方法可以讓無孔不入的網(wǎng)絡(luò)廣告商們可以睡覺睡到自然醒，數(shù)錢數(shù)到手抽筋，他們只要把自己代理的廣告植入一些公共引用類鏈接就可以收錢了，因?yàn)榫W(wǎng)民會(huì)幫他把訪問量刷上去，都不用他自己動(dòng)手，一段時(shí)間后，各大詞條的置頂鏈接一定是他們的廣告，不用多花一分錢的版費(fèi)，最搞笑的是，在google之前的網(wǎng)絡(luò)四大巨頭的搜索引擎中搜索他們自己公司的名字，只有一個(gè)能出現(xiàn)在前十里，其他的都被我們強(qiáng)大的廣告商們牢牢地占據(jù)了領(lǐng)先位置不可撼動(dòng)。那這么說來似乎我們進(jìn)入了一個(gè)死循環(huán)，這個(gè)問題難道就沒有辦法解決了？不，任何的事情都有解決辦法，其實(shí)這個(gè)問題并沒有想象的那么恐怖。1999年LarryPage和SergeyBr

5、in發(fā)表了一篇論文，文中介紹了一種叫做“Pagerank”的算法，介紹了一個(gè)新的概念，什么是：“網(wǎng)頁的重要程度”。利用了一個(gè)網(wǎng)頁即一個(gè)sub-system其鏈接被其他“重要”網(wǎng)頁所鏈接的次數(shù)來計(jì)算的算法。這一思想來源于學(xué)術(shù)界評(píng)判學(xué)術(shù)論文重要性的通用方法，就是看這篇論文被引用的次數(shù)和引用者地位，一篇論文被諾貝爾獎(jiǎng)獲得者引用和被小學(xué)生引用肯定不一樣。而按照上文的思路和定義決定一個(gè)網(wǎng)頁（設(shè)為Ri）的排序時(shí)決定他地位因素有兩點(diǎn)1.多少網(wǎng)頁鏈接了Ri2.鏈接他的網(wǎng)頁（Rx）的排序那么問題又來了，我們進(jìn)入了一個(gè)“先有雞還是先有蛋”的循環(huán)。其實(shí)這個(gè)問題并不難解決，Page和Brin又引進(jìn)了一個(gè)

6、第四維度的變量，即分析一個(gè)虛擬用戶在互聯(lián)網(wǎng)上的漫游過程。他們假定：虛擬用戶一旦訪問了一個(gè)網(wǎng)頁后，下一步將有相同的幾率訪問被該網(wǎng)頁所鏈接的任何一個(gè)其它網(wǎng)頁。換句話說，如果網(wǎng)頁Ri有Ni個(gè)對(duì)外鏈接，則虛擬用戶在訪問了Ri之后，下一步點(diǎn)擊那些鏈接當(dāng)中的任何一個(gè)的幾率均為1/Ni。初看起來，這一假設(shè)并不合理，因?yàn)槿魏斡脩舳加衅?，怎么可能以相同的幾率訪問一個(gè)網(wǎng)頁的所有鏈接呢？但如果我們考慮到佩奇和布林的虛擬用戶實(shí)際上是對(duì)互聯(lián)網(wǎng)上全體用戶的一種平均意義上的代表，這條假設(shè)就不象初看起來那么不合理了。那么網(wǎng)頁的排序由什么來決定呢？是由該用戶在漫游了很長(zhǎng)時(shí)間——理論上為無窮長(zhǎng)時(shí)間——后訪問各網(wǎng)頁

7、的幾率分布來決定，訪問幾率越大的網(wǎng)頁排序就越靠前。、為了將這一分析數(shù)學(xué)化，我們用pi(n)表示虛擬用戶在進(jìn)行第n次瀏覽時(shí)訪問網(wǎng)頁Ri的幾率。接下來我們把這個(gè)問題化簡(jiǎn)然后一步一步由簡(jiǎn)變繁，先建立一個(gè)最小的模型，一個(gè)擁有XYZ三個(gè)單元的模型，最開始給定XYZ三個(gè)變量均等的Pagerank值m，然后按照箭頭的方向?qū)⒆陨淼闹稻秩缓蟀凑占^方向進(jìn)行數(shù)值交換，最后數(shù)值會(huì)穩(wěn)定在某個(gè)數(shù)上。例如：設(shè)m=1第一次交換時(shí)X’=X/3+Y/2Y’=X/3+Y/2+Z/2Z’=X/3+Z/2利用平穩(wěn)馬爾

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 7



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

pagerank--網(wǎng)頁排序的里程碑式算法

pagerank--網(wǎng)頁排序的里程碑式算法

相關(guān)文章

相關(guān)標(biāo)簽