資源描述:
《基于用戶訪問序列挖掘站點路徑優(yōu)化研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于用戶訪問序列挖掘站點路徑優(yōu)化研究 【文章摘要】本文利用Web挖掘的方法和技術(shù)對用戶所訪問的頁面序列進行挖掘,構(gòu)建路徑優(yōu)化的模型,實現(xiàn)對當前站點排序方式的優(yōu)化,從而最大限度地優(yōu)化用戶訪問體驗,提高當前站點信息獲取的整體效率?!娟P(guān)鍵詞】路徑優(yōu)化;Web挖掘;訪問序列傳統(tǒng)的Web網(wǎng)站以系統(tǒng)自身為中心,為了容納大量的信息,以圖結(jié)構(gòu)組織網(wǎng)站,頁面之間存在著比較復(fù)雜的層次關(guān)系。這些預(yù)先設(shè)計好的瀏覽路徑(網(wǎng)站的結(jié)構(gòu))嚴格按照設(shè)計者編輯好的層次返回頁面,因此,為了獲取特定的信息,從同一頁面出發(fā)的所有用戶都不得不重復(fù)地經(jīng)過很多與自己毫無關(guān)系的、不希望看到的中間
2、鏈接頁面,使得用戶為了獲取少量的信息付出較大的代價。如果在確保網(wǎng)頁內(nèi)容的前提下,實現(xiàn)網(wǎng)站物理結(jié)構(gòu)的調(diào)整和再組織,就可以避免混亂。站點路徑優(yōu)化實際上就是站點管理者優(yōu)化其站點結(jié)構(gòu),它的出現(xiàn)就是為了提高用戶的訪問效率以及用戶對站點的忠誠度。1站點個性化與路徑優(yōu)化6所謂站點個性化實質(zhì)上就是為站點用戶提供個性化的站點訪問體驗。對于一般站點而言,站點管理者進行路徑優(yōu)化的直接目的就是提高用戶點擊行為的效用度,最終目的是提高用戶滿意度與忠誠度。站點路徑的優(yōu)化實際上就是優(yōu)化站點結(jié)構(gòu),消除站點實際安排與用戶期望之間差異的過程,它為站點個性化提供了一種思路,即用戶一系列
3、的瀏覽行為所遍及的頁面序列就是用戶針對目標頁面的尋找過程,此時站點設(shè)計可以考慮調(diào)整網(wǎng)站的結(jié)構(gòu)、在頻繁訪問路徑處添加指向目標頁面的鏈接,或者是將常見瀏覽路徑加入緩存。網(wǎng)站的頻繁瀏覽路徑體現(xiàn)了特定的用戶在特定時期內(nèi)的活動規(guī)律,是站點路徑優(yōu)化的依據(jù)。它包括兩個方面的內(nèi)容:首先是個體用戶在其瀏覽歷史區(qū)域中多次重復(fù)出現(xiàn)的瀏覽路徑,另一方面即用戶群體在一定時期中瀏覽歷史區(qū)域內(nèi)出現(xiàn)的瀏覽重復(fù)行為,即瀏覽模式。前者可以為用戶提供“一對一”的具備自適應(yīng)性的在線動態(tài)智能個性化服務(wù),這種智能個性化服務(wù)可大大縮短用戶在網(wǎng)絡(luò)上的訪問延遲,使得提供給用戶的網(wǎng)絡(luò)信息服務(wù)質(zhì)量得到
4、最大限度的提高。后者則通過離線修改實施改進,用以優(yōu)化用戶瀏覽體驗,提高當前站點信息獲取的整體效率,同時提高用戶滿意度和忠誠度。2基于Web挖掘的路徑優(yōu)化模型6Web挖掘從數(shù)據(jù)挖掘發(fā)展而來,但Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨特之處。首先,Web挖掘的對象是大量、不同和分散型的Web文件;其次,Web文件本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的,因此Web挖掘所得到的模式可能是關(guān)于內(nèi)容的,也可能是關(guān)于結(jié)構(gòu)的;最后,有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘,即使可以用也需要建立在對Web文件進行預(yù)先處理的基礎(chǔ)之上。2.1訪問序列挖掘?qū)崿F(xiàn)過程的理論分析Web挖掘技術(shù)以W
5、eb日志為數(shù)據(jù)源。因為每當用戶在點擊鏈接向站點發(fā)出頁面瀏覽請求時,該用戶的IP地址、瀏覽日期和時間、瀏覽頁面URL及引用頁面等信息會被記錄在Web日志中,用戶瀏覽點擊頁面就按照時間順序以頁面URL序列的形式隱藏在Web日志中。用戶訪問序列挖掘即通過對Web日志進行系統(tǒng)的分析和預(yù)處理,將用戶以往的瀏覽序列從日志中提取及表示出來,并采用各種Web挖掘方法和算法從不同的角度獲得各類用戶可能的網(wǎng)頁瀏覽順序,探索總結(jié)出用戶瀏覽網(wǎng)頁的規(guī)則和模式。從服務(wù)器的角度分析,挖掘發(fā)現(xiàn)的是提供服務(wù)的網(wǎng)站的信息,挖掘結(jié)果可以幫助改善網(wǎng)站的設(shè)計。從用戶的點擊序列分析,可以發(fā)現(xiàn)
6、一個(或者一組)用戶的信息,可幫助實現(xiàn)網(wǎng)頁的預(yù)存取和緩存。2.2站點路徑優(yōu)化的模型構(gòu)建以Web日志6為數(shù)據(jù)源進行的站點路徑優(yōu)化的挖掘模型,采用了數(shù)據(jù)挖掘及Web日志挖掘的相關(guān)技術(shù)和算法獲取用戶瀏覽規(guī)則與模式,為網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、站點重構(gòu)提供參考及個性化服務(wù)推薦設(shè)計提供了依據(jù)。據(jù)此站點路徑優(yōu)化的模型可分為數(shù)據(jù)預(yù)處理和站點路徑優(yōu)化實現(xiàn)兩個部分,站點路徑優(yōu)化部分可從兩個方面來考慮:一是通過對Web日志的挖掘,發(fā)現(xiàn)用戶的期望位置。如果在期望位置的訪問頻率高于實際位置的訪問頻率,可考慮在期望位置和實際位置之間建立導(dǎo)航鏈接,從而實現(xiàn)對Web站點的優(yōu)化。二是通過對W
7、eb日志的挖掘,發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,從而對密切聯(lián)系的頁面之間增加鏈接,方便用戶使用。3站點路徑優(yōu)化的實現(xiàn)3.1Web日志數(shù)據(jù)收集Web服務(wù)系統(tǒng)是一個多層次的邏輯結(jié)構(gòu),包括客戶端、代理服務(wù)器端、Web服務(wù)器端。本文挖掘的是本站點用戶的頻繁訪問路徑、用戶聚類等,因此適合采用Web服務(wù)器端的用戶訪問模式挖掘。Web服務(wù)器日志由三部分組成:訪問日志、引用日志和代理日志,包括用戶訪問Web站點時,所訪問的頁面、時間、用戶ID等信息。3.2站點數(shù)據(jù)預(yù)處理6Web站點及訪問數(shù)據(jù)預(yù)處理部分主要包括站點結(jié)構(gòu)數(shù)據(jù)預(yù)處理、內(nèi)容數(shù)據(jù)預(yù)處理和Web日志數(shù)據(jù)預(yù)處理。其中
8、,結(jié)構(gòu)數(shù)據(jù)預(yù)處理的任務(wù)是描述站點的拓撲結(jié)構(gòu)圖、站點頁面文件鏈接有向圖,并明確站點各個頁面文件鏈接的請求(Request)方