基于用戶訪問序列挖掘站點路徑優(yōu)化研究

ID：6074874

大小：27.50 KB

頁數(shù)：6頁

時間：2018-01-02

資源描述：

《基于用戶訪問序列挖掘站點路徑優(yōu)化研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于用戶訪問序列挖掘站點路徑優(yōu)化研究　　【文章摘要】本文利用Web挖掘的方法和技術(shù)對用戶所訪問的頁面序列進行挖掘，構(gòu)建路徑優(yōu)化的模型，實現(xiàn)對當前站點排序方式的優(yōu)化，從而最大限度地優(yōu)化用戶訪問體驗，提高當前站點信息獲取的整體效率?！娟P(guān)鍵詞】路徑優(yōu)化；Web挖掘；訪問序列傳統(tǒng)的Web網(wǎng)站以系統(tǒng)自身為中心，為了容納大量的信息，以圖結(jié)構(gòu)組織網(wǎng)站，頁面之間存在著比較復(fù)雜的層次關(guān)系。這些預(yù)先設(shè)計好的瀏覽路徑（網(wǎng)站的結(jié)構(gòu)）嚴格按照設(shè)計者編輯好的層次返回頁面，因此，為了獲取特定的信息，從同一頁面出發(fā)的所有用戶都不得不重復(fù)地經(jīng)過很多與自己毫無關(guān)系的、不希望看到的中間

2、鏈接頁面，使得用戶為了獲取少量的信息付出較大的代價。如果在確保網(wǎng)頁內(nèi)容的前提下，實現(xiàn)網(wǎng)站物理結(jié)構(gòu)的調(diào)整和再組織，就可以避免混亂。站點路徑優(yōu)化實際上就是站點管理者優(yōu)化其站點結(jié)構(gòu)，它的出現(xiàn)就是為了提高用戶的訪問效率以及用戶對站點的忠誠度。1站點個性化與路徑優(yōu)化6所謂站點個性化實質(zhì)上就是為站點用戶提供個性化的站點訪問體驗。對于一般站點而言，站點管理者進行路徑優(yōu)化的直接目的就是提高用戶點擊行為的效用度，最終目的是提高用戶滿意度與忠誠度。站點路徑的優(yōu)化實際上就是優(yōu)化站點結(jié)構(gòu)，消除站點實際安排與用戶期望之間差異的過程，它為站點個性化提供了一種思路，即用戶一系列

3、的瀏覽行為所遍及的頁面序列就是用戶針對目標頁面的尋找過程，此時站點設(shè)計可以考慮調(diào)整網(wǎng)站的結(jié)構(gòu)、在頻繁訪問路徑處添加指向目標頁面的鏈接，或者是將常見瀏覽路徑加入緩存。網(wǎng)站的頻繁瀏覽路徑體現(xiàn)了特定的用戶在特定時期內(nèi)的活動規(guī)律，是站點路徑優(yōu)化的依據(jù)。它包括兩個方面的內(nèi)容：首先是個體用戶在其瀏覽歷史區(qū)域中多次重復(fù)出現(xiàn)的瀏覽路徑，另一方面即用戶群體在一定時期中瀏覽歷史區(qū)域內(nèi)出現(xiàn)的瀏覽重復(fù)行為，即瀏覽模式。前者可以為用戶提供“一對一”的具備自適應(yīng)性的在線動態(tài)智能個性化服務(wù)，這種智能個性化服務(wù)可大大縮短用戶在網(wǎng)絡(luò)上的訪問延遲，使得提供給用戶的網(wǎng)絡(luò)信息服務(wù)質(zhì)量得到

4、最大限度的提高。后者則通過離線修改實施改進，用以優(yōu)化用戶瀏覽體驗，提高當前站點信息獲取的整體效率，同時提高用戶滿意度和忠誠度。2基于Web挖掘的路徑優(yōu)化模型6Web挖掘從數(shù)據(jù)挖掘發(fā)展而來，但Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨特之處。首先，Web挖掘的對象是大量、不同和分散型的Web文件；其次，Web文件本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的，因此Web挖掘所得到的模式可能是關(guān)于內(nèi)容的，也可能是關(guān)于結(jié)構(gòu)的；最后，有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘，即使可以用也需要建立在對Web文件進行預(yù)先處理的基礎(chǔ)之上。2.1訪問序列挖掘?qū)崿F(xiàn)過程的理論分析Web挖掘技術(shù)以W

5、eb日志為數(shù)據(jù)源。因為每當用戶在點擊鏈接向站點發(fā)出頁面瀏覽請求時，該用戶的IP地址、瀏覽日期和時間、瀏覽頁面URL及引用頁面等信息會被記錄在Web日志中，用戶瀏覽點擊頁面就按照時間順序以頁面URL序列的形式隱藏在Web日志中。用戶訪問序列挖掘即通過對Web日志進行系統(tǒng)的分析和預(yù)處理，將用戶以往的瀏覽序列從日志中提取及表示出來，并采用各種Web挖掘方法和算法從不同的角度獲得各類用戶可能的網(wǎng)頁瀏覽順序，探索總結(jié)出用戶瀏覽網(wǎng)頁的規(guī)則和模式。從服務(wù)器的角度分析，挖掘發(fā)現(xiàn)的是提供服務(wù)的網(wǎng)站的信息，挖掘結(jié)果可以幫助改善網(wǎng)站的設(shè)計。從用戶的點擊序列分析，可以發(fā)現(xiàn)

6、一個（或者一組）用戶的信息，可幫助實現(xiàn)網(wǎng)頁的預(yù)存取和緩存。2.2站點路徑優(yōu)化的模型構(gòu)建以Web日志6為數(shù)據(jù)源進行的站點路徑優(yōu)化的挖掘模型，采用了數(shù)據(jù)挖掘及Web日志挖掘的相關(guān)技術(shù)和算法獲取用戶瀏覽規(guī)則與模式，為網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、站點重構(gòu)提供參考及個性化服務(wù)推薦設(shè)計提供了依據(jù)。據(jù)此站點路徑優(yōu)化的模型可分為數(shù)據(jù)預(yù)處理和站點路徑優(yōu)化實現(xiàn)兩個部分，站點路徑優(yōu)化部分可從兩個方面來考慮：一是通過對Web日志的挖掘，發(fā)現(xiàn)用戶的期望位置。如果在期望位置的訪問頻率高于實際位置的訪問頻率，可考慮在期望位置和實際位置之間建立導(dǎo)航鏈接，從而實現(xiàn)對Web站點的優(yōu)化。二是通過對W

7、eb日志的挖掘，發(fā)現(xiàn)用戶訪問頁面的相關(guān)性，從而對密切聯(lián)系的頁面之間增加鏈接，方便用戶使用。3站點路徑優(yōu)化的實現(xiàn)3.1Web日志數(shù)據(jù)收集Web服務(wù)系統(tǒng)是一個多層次的邏輯結(jié)構(gòu)，包括客戶端、代理服務(wù)器端、Web服務(wù)器端。本文挖掘的是本站點用戶的頻繁訪問路徑、用戶聚類等，因此適合采用Web服務(wù)器端的用戶訪問模式挖掘。Web服務(wù)器日志由三部分組成：訪問日志、引用日志和代理日志，包括用戶訪問Web站點時，所訪問的頁面、時間、用戶ID等信息。3.2站點數(shù)據(jù)預(yù)處理6Web站點及訪問數(shù)據(jù)預(yù)處理部分主要包括站點結(jié)構(gòu)數(shù)據(jù)預(yù)處理、內(nèi)容數(shù)據(jù)預(yù)處理和Web日志數(shù)據(jù)預(yù)處理。其中

8、，結(jié)構(gòu)數(shù)據(jù)預(yù)處理的任務(wù)是描述站點的拓撲結(jié)構(gòu)圖、站點頁面文件鏈接有向圖，并明確站點各個頁面文件鏈接的請求（Request）方

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 6



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于用戶訪問序列挖掘站點路徑優(yōu)化研究

基于用戶訪問序列挖掘站點路徑優(yōu)化研究

相關(guān)文章

相關(guān)標簽