資源描述:
《鏈接分析算法之:主題敏感pagerank》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處鏈接分析算法之:主題敏感PageRank前面的討論提到。PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低,對于不同的用戶,甚至有很大的差別。例如,當搜索“蘋果”時,一個數(shù)碼愛好者可能是想要看iphone的信息,一個果農(nóng)可能是想看蘋果的價格走勢和種植技巧,而一個小朋友可能在找蘋果的簡筆畫。理想情況下,應(yīng)該為每個用戶維護一套專用向量,但面對海量用戶這種方法顯然不可行。所以搜索引擎一般會選擇一種稱為主題敏感Pa
2、geRank(Topic-SensitivePageRank)的折中方案。主題敏感PageRank的做法是預(yù)定義幾個話題類別,例如體育、娛樂、科技等等,為每個話題單獨維護一個向量,然后想辦法關(guān)聯(lián)用戶的話題傾向,根據(jù)用戶的話題傾向排序結(jié)果。主題敏感PageRank是PageRank算法的改進版本,該算法已被Google使用在個性化搜索服務(wù)中。1.基本思想基本思想:通過離線計算出一個與某一主題相關(guān)的PageRank向量集合,即計算某個頁面關(guān)于不同主題的得分。主要分為兩個階段:主題相關(guān)的PageRank向量集合的計
3、算和在線查詢時主題的確定(即在線相似度的計算)。2.主題敏感PageRank計算流程1、確定話題分類主題敏感PageRank參考ODP網(wǎng)站(www.dmoz.org),定義了16個大的主題類別,包括體育、商業(yè)、科技等。ODP(OpenDirectoryProject)是人工整理的多層級網(wǎng)頁分類導(dǎo)航站點(參見圖1),在頂級的16個大分類下還有更細致的小本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com
4、/收集,轉(zhuǎn)載請注明出處圖1ODP首頁粒度分類結(jié)構(gòu),在最底層目錄下,人工收集了符合該目錄主題的精選高質(zhì)量網(wǎng)頁地址,以供互聯(lián)網(wǎng)用戶導(dǎo)航尋址。主題敏感PageRank采用了ODP最高級別的16個分類類別作為事先定義的主題類型。2、網(wǎng)頁topic歸屬這一步需要將每個頁面歸入最合適的分類,具體歸類有很多算法,例如可以使用TF-IDF基于詞素歸類,也可以聚類后人工歸類。這一步最終的結(jié)果是每個網(wǎng)頁被歸到其中一個topic。3、分topic向量計算在PageRank的向量迭代公式:本文由西安白癜風(fēng)??漆t(yī)院http://www
5、.xapfb120.com/收集,轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處即R=q×P*R+(1一q)*e/N(e單位向量)而在主題敏感PageRank中,向量迭代公式為:首先是單位向量e變?yōu)榱藄。而s是這樣一個向量:對于某topic的s,如果網(wǎng)頁k在此topic中,則s中第k個元素為1,否則為0。注意對于每一個topic都有一個不同的s。而
6、s
7、表示s中1的數(shù)量。假設(shè)有頁面A,B,C,D,假設(shè)頁面A歸為Arts,B歸為Computers,C歸
8、為Computers,D歸為Sports。那么對于Computers這個topic,s就是:假設(shè)我們設(shè)置阻尼系數(shù)q=0.8,而
9、s
10、=2,因此,迭代公式為:本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處最后算出的向量就是Computers這個topic的rank。如果實際計算一下,會發(fā)現(xiàn)B、C頁在這個topic下的權(quán)重相比上面非Topic-Sensitive的rank會升高
11、,這說明如果用戶是一個傾向于Computerstopic的人(例如程序員),那么在給他呈現(xiàn)的結(jié)果中B、C會更重要,因此可能排名更靠前。4.在線相似度計算最后一步就是在用戶提交搜索時,確定用戶的topic傾向,以選擇合適的rank向量。主要方法有兩種:一種是列出所有topic讓用戶自己選擇感興趣的項目,這種方法在一些社交問答網(wǎng)站注冊時經(jīng)常使用;另外一種方法利用“用戶查詢分類器”對查詢進行分類,即搜索引擎會通過某種手段(如cookie跟蹤)跟蹤用戶的行為,進行數(shù)據(jù)分析判斷用戶的傾向。如圖2,假設(shè)用戶輸入了查詢請求
12、“喬丹”,查詢詞“喬丹”隸屬于體育類別的概率為0.6,娛樂類別的概率為0.1,商業(yè)類別的概率為0.3。圖2在線相似度計算本文由西安白癜風(fēng)??漆t(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處本文由西安白癜風(fēng)專科醫(yī)院http://www.xapfb120.com/收集,轉(zhuǎn)載請注明出處在進行上述用戶查詢分類計算的同時,搜索系統(tǒng)讀取索引,找出包含了用戶查詢“喬丹”的所有網(wǎng)頁,并獲得已