基于潛在語義索引的超鏈接分析模型

ID：5385277

大?。?58.00 KB

頁數(shù)：5頁

時間：2017-12-08

資源描述：

《基于潛在語義索引的超鏈接分析模型》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、http://www.paper.edu.cn基于潛在語義索引的超鏈接分析模型劉華生，劉剛，呂玉琴北京郵電大學(xué)電子工程學(xué)院，北京(100876)E-mail：liuhuasheng@sohu.com摘要：為了更合理的排名Web文檔本文提出了一個新的鏈接分析模型。該模型結(jié)合了基[1,2]于馬爾科夫鏈的鏈接分析技術(shù)和基于潛在語義索引以及文檔聚類分析的內(nèi)容分析技術(shù)，能很好的適應(yīng)新增Web頁面，并且能用來解決基于鏈接和基于內(nèi)容的搜索引擎作弊以及上下文搜索和主題相關(guān)搜索問題。關(guān)鍵詞：鏈接分析模型；潛在語義索引；搜索

2、引擎中圖分類號：TP1．引言信息檢索理論在搜索引擎中的應(yīng)用并沒有達到預(yù)期的效果，主要是因為以下原因：（1）Web文檔量非常大而用戶輸入的查詢通常是很短的幾個關(guān)鍵詞，因此檢索到的文檔太多以至于很難滿足用戶的需求；（2）Web文檔的質(zhì)量參差不齊并且變化頻繁，有的Web文檔作者為了提升自己網(wǎng)頁在檢索結(jié)果中的位置故意重復(fù)與文檔內(nèi)容無關(guān)但是用戶普遍查詢的關(guān)鍵字，這也就是搜索引擎作弊（spamming）的一個方面。因此僅僅基于關(guān)鍵字的文本檢索技術(shù)不能很好的應(yīng)用于Web搜索。隨著Web鏈接分析技術(shù)的出現(xiàn)情況有所改觀，尤

3、其是PageRank算法給商業(yè)搜索引擎Google帶來巨大的成功更直接說明超鏈接分析技術(shù)能有效地給Web頁面帶來權(quán)威的評價以滿足用戶的信息需求。[3,4]比較成功的鏈接分析算法主要是PageRank和HITS，他們的基本思想都是如果一個頁面被引用的越多說明其價值越高，因此被檢索到的時候應(yīng)該排在前面。自從PageRank算法被提出之后，有很多文章提出了不少的改進方法，而且實驗也表明這些改進算法較之PageRank算法非常有效。尤其是內(nèi)容分析與鏈接分析的結(jié)合，機器學(xué)習(xí)算法在鏈接分析中的應(yīng)用，主題相關(guān)的動態(tài)權(quán)重

4、計算方法等更為有效的改善頁面權(quán)重的準確度和可靠度。本文主要從這些方面出發(fā)提出一種新的頁面質(zhì)量評測模型——基于潛在語義索引的鏈接分析模型。2．PageRank算法和存在的問題[3,4]PageRank鏈接分析算法基于以下事實：（1）鏈接意味著文檔的權(quán)值從源頁面轉(zhuǎn)移到目的頁面，因此如果一個頁面被很多頁面鏈接則其權(quán)重就很高；（2）如果一個頁面有很高的權(quán)重，則被它鏈接的頁面相應(yīng)的權(quán)重也應(yīng)該很高；（3）一個頁面有很多指向其它頁面的鏈接，該頁面的權(quán)重應(yīng)該被這些北至想的頁面所共享。如果O表示指向頁面i的鏈接數(shù)，(i,)

5、jE?表示頁面j有指向頁面i的鏈接，pi()表j示頁面i的PageRank權(quán)值，則可表示為：pj()pi()=?（1）(i,)jE?Oj可以用矩陣形式來表示所有頁面的權(quán)值，假設(shè)共有n個頁面，n維列向量P表示所有頁T面的權(quán)值，即P=(p(1),p(2),...,pn())，-1-http://www.paper.edu.cn矩陣A表示頁面間歸一化的鄰接矩陣：ì1?,ifi(,)jE?Aij=íOi（2）??0,if(i,)jE?T則整個系統(tǒng)可表示為：P=AP。該公式是循環(huán)定義的，因此可以用迭代的辦法求解。但

6、這里有幾個問題，首先Web的有向圖表示并不一定是連同的，其次有很多的頁面沒有向外的鏈接，因此矩陣A中有很多行值是全零。為了使其適應(yīng)Web隨機沖浪模型，做出了如下的修改：ETP=((1-+d))dAP（3）n1其中，E為全1的n維方陣，表示頁面間隨機跳轉(zhuǎn)的概率，d為衰減因子取值在0和1之n間，即d?[0,1]，經(jīng)驗值為d=0.85。矩陣的求解可以用迭代的方式求解：PageRank-Iterate(G)P?en/0k?1RepeatTP?(1)-+dedAPk1k-kk?+1Until

7、

8、PP-<

9、

10、ekk-

11、1ReturnPk從增強的PageRank計算公式可以看出，方陣E為全1矩陣，意味著所有頁面之間的跳轉(zhuǎn)是完全隨機的，這與事實不符，實際上網(wǎng)上沖浪者在獲取信息時更關(guān)注內(nèi)容相關(guān)的頁面，因此等概率模型不準確。另外，矩陣A中每一行表示所有被鏈接的頁面共享原頁面的所有權(quán)重分值，并且也是均分，這也是不合理的。本文主要從這兩方面改進PageRank算法，提出基于內(nèi)容的潛在語義索引的鏈接分析模型，該模型的主要思想仍然是社會網(wǎng)絡(luò)分析的應(yīng)用。3．基于內(nèi)容的鏈接分析模型T根據(jù)馬爾科夫鏈模型P=AP，A表示從狀態(tài)i跳轉(zhuǎn)到狀態(tài)j的

12、概率，可以得到描kk-1ij述頁面之間鏈接關(guān)系的模型：TP=((1-+d))EdAP（4）kk-1TP=(p,pp,...,)表示在狀態(tài)k時所有頁面的權(quán)重，n表示頁面集合的大小，矩陣A中kk12kkn的元素A表示頁面i和頁面j間的鏈接關(guān)系。避免沒有向外的鏈接的頁面影響隨機矩陣A，ij1對A進行特殊處理，如果頁面i沒有向外的鏈接，則有A=。為了使P能收斂，結(jié)合ijijkn-2-http://www.paper.edu.cnWeb

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于潛在語義索引的超鏈接分析模型

基于潛在語義索引的超鏈接分析模型

相關(guān)文章

相關(guān)標簽