ｗｅｂ結構挖掘在電子商務網(wǎng)站結構優(yōu)化中的應用

ID：26726882

大?。?6.00 KB

頁數(shù)：7頁

時間：2018-11-28

資源描述：

《ｗｅｂ結構挖掘在電子商務網(wǎng)站結構優(yōu)化中的應用》由會員上傳分享，免費在線閱讀，更多相關內(nèi)容在工程資料-天天文庫。

1、Ｗｅｂ結構挖掘在電子商務網(wǎng)站結構優(yōu)化中的應用[摘要]本文概述了ining）則是判斷網(wǎng)站結構是否合理的一個有效方法。使用ining）、ining）及ining）。其中L，XML表示的樹形結構，以及文檔URL中的目錄路徑結構等。Web頁面之間的鏈接結構中包含了許多有用的信息，Web結構挖掘是從Web結構中推導知識，即對Web文檔的結構進行挖掘，挖掘Web潛在的鏈接結構模式，通過分析網(wǎng)頁間鏈接數(shù)量及對象來建立網(wǎng)站自身的鏈接結構模式。　　Web結構挖掘的基本思想是將Web看成是一個巨大的以Web頁面為節(jié)點、頁面之間超鏈接為有向邊所構成的一個

2、網(wǎng)狀結構的有向圖，然后利用圖論對Web的拓撲結構進行分析，從而確定其網(wǎng)站結構的合理性。　　Web結構挖掘的算法一般可分為查詢相關算法和查詢無關算法兩類。HITS(HypertextInducedTopicSearch)和PageRank分別是查詢相關算法和查詢無關算法的代表。這些算法已經(jīng)在實際的系統(tǒng)中實現(xiàn)和使用，并且取得了良好的效果?！　∪?、Web結構挖掘算法描述　　基于超鏈接分析的思想，SergeyBrin和LawrencePage在1998年提出了PageRank算法，同年J.Kleinberg提出了HITS算法，其他一些學者也

3、相繼提出了另外的鏈接分析算法，如SALSA，PHITS，Bayesian等算法。對超鏈接進行挖掘的兩個典型的算法是：PageRank算法及HITS算法。　　1.PageRank算法　　PageRank算法是Web超鏈接結構分析中最成功的代表之一，該算法是評價網(wǎng)頁權威性的一種重要工具。Google、Yahoo、Baidu等都是基于該算法的搜索引擎。PageRank算法基于2個前提，一是若網(wǎng)頁A被多次引用，則A重要；若A被重要網(wǎng)頁B引用，則A重要；B的重要性被平均的傳遞到它所引用的網(wǎng)頁。二是若用戶訪問網(wǎng)頁A，然后跟隨A的導出鏈接向后瀏覽

4、網(wǎng)頁B而不退回A，那么瀏覽B的概率就是B的PageRank值。　　PageRank在具體實現(xiàn)時會忽略掉頁面的文本和其他內(nèi)容，只考慮頁面間的超鏈接。但由于網(wǎng)頁的鏈接范圍領域很廣，鏈接的頁面價值參差不齊，所以僅以簡單的鏈接數(shù)量來判斷網(wǎng)頁的重要性是不真實客觀的，所以其他研究者對PageRank算法提出了改進。改進的PageRank算法不僅考慮了網(wǎng)頁引用數(shù)量，還根據(jù)頁面的導入鏈接的權重來計算頁面的重要性。頁面導入鏈接的權重由鏈接提供頁面的重要性所決定，即當前頁面的重要性主要由其他頁面的重要性來決定，PageRank算法就是從鏈接結構中獲取網(wǎng)

5、頁的重要性。　　簡單PageRank算法描述如下：　　PR(A)=(1-d)/N+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn))　　其中：PR(A)：頁面A的PR值,　　PR(Ti)：頁面Ti的PR值，頁面Ti鏈向頁面A　　C(Ti)：頁面Ti鏈出的鏈接數(shù)量　　d：阻尼系數(shù)，取值在0－1之間　　N：互聯(lián)網(wǎng)上所有網(wǎng)頁的數(shù)量　　由此可見，PageRank算法不以站點排序，頁面PR值由獨立的頁面決定。頁面的PR值由鏈向它的頁面的PR值決定，但每個鏈入頁面的貢獻值是不同的。如果Ti頁面中鏈出越多，它對當前頁面A的貢獻就越小

6、。A的鏈入頁面越多，其PR值也越高。阻尼系數(shù)的使用，減少了其他頁面對當前頁面A的排序貢獻。所有頁面的PR值形成了一個概率分布，所有頁面的PR值之和為1?！　『唵蜳ageRank算法也可以用矩陣來描述，設T為一個矩陣，T的行和列對應頁面集的頁面。PageRank的算法是將T的行和列互換后得到的矩陣A。為了將各列矢量的總和變成1(全概率),把各個列矢量除以各自的鏈接數(shù)(非零要素數(shù))，即如果網(wǎng)頁i有指向網(wǎng)頁j的一個鏈接，則Aij=1/Ni，否則Aij=0，就形成了一個“推移概率行列”，各個行矢量表示頁面間的推移概率。由T倒置得到A的理由是

7、，PageRank并非重視“鏈接到多少地方”而是重視“被多少地方鏈接”。PR值的計算，就是求屬于這個推移概率行列最大特性值的固有矢量?！　?.HITS算法　　HITS算法綜合權衡了查詢內(nèi)容與頁面鏈接的關系。HITS算法認為網(wǎng)頁的重要性依賴于用戶提出的查詢請求。HITS算法通過兩個評價權值——內(nèi)容權威度（Authority）和鏈接權威度（Hub）來對網(wǎng)頁質(zhì)量進行評估。內(nèi)容權威度與網(wǎng)頁自身直接提供內(nèi)容信息的質(zhì)量相關，被越多網(wǎng)頁所引用的網(wǎng)頁，其內(nèi)容權威度越高；鏈接權威度與網(wǎng)頁提供的超鏈接頁面的質(zhì)量相關，引用越多高質(zhì)量頁面的網(wǎng)頁，其鏈接權威

8、度越高。HITS算法認為對每一個網(wǎng)頁應該將其內(nèi)容權威度和鏈接權威度分開來考慮，在對網(wǎng)頁內(nèi)容權威度做出評價的基礎上再對頁面的鏈接權威度進行評價，然后給出該頁面的綜合評價?！　ITS算法是一個“迭代—收斂”的過程，在獲取了一個與查詢主題

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 7



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

ｗｅｂ結構挖掘在電子商務網(wǎng)站結構優(yōu)化中的應用

ｗｅｂ結構挖掘在電子商務網(wǎng)站結構優(yōu)化中的應用

相關文章

相關標簽