資源描述:
《web日志挖掘在網(wǎng)站優(yōu)化中應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、Web日志挖掘在網(wǎng)站優(yōu)化中應(yīng)用 摘要:網(wǎng)站成為互聯(lián)網(wǎng)信息的主要來源。由站點(diǎn)主體提出需求,設(shè)計(jì)者規(guī)劃實(shí)現(xiàn),站點(diǎn)結(jié)構(gòu)和網(wǎng)頁布局按照需求設(shè)計(jì)為固定模式,用戶必須按照這種模式對(duì)網(wǎng)站進(jìn)行瀏覽。提出了對(duì)用戶訪問站點(diǎn)的行為進(jìn)行挖掘來改進(jìn)站點(diǎn)設(shè)計(jì)和布局,達(dá)到方便用戶訪問站點(diǎn)和實(shí)現(xiàn)客戶個(gè)性化服務(wù)的目的。關(guān)鍵詞關(guān)鍵詞:Web挖掘;Web日志;網(wǎng)站優(yōu)化;關(guān)聯(lián)性分析;聚類分析中圖分類號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2013)0080086020引言WWW是全球最大、最方便的信息來源,積聚了海量信息,成為人們工作、學(xué)習(xí)的最大支持平臺(tái)。眾多網(wǎng)站每天需要搜集和處理大量的數(shù)據(jù),
2、積累大量的數(shù)據(jù),數(shù)據(jù)量呈指數(shù)級(jí)增長,這些浩瀚信息往往隱藏了許多重要的信息。面對(duì)海量數(shù)據(jù),人們往往無所適從,無法快速地找到自己想要的信息或有潛在價(jià)值的知識(shí)。6為了解決上述問題,本人提出了一種有效解決的方法:通過挖掘用戶訪問站點(diǎn)的日志構(gòu)建或優(yōu)化站點(diǎn)。Web服務(wù)器日志記錄了Web服務(wù)器請(qǐng)求以及運(yùn)行狀態(tài)的各種原始信息,記錄了關(guān)于用戶訪問和交互的信息,對(duì)其挖掘的主要目標(biāo)則是從訪問記錄中提取用戶感興趣的知識(shí)。1網(wǎng)站優(yōu)化服務(wù)模型一個(gè)較為成功的站點(diǎn),一定是保持較高回頭率和較長客戶駐留時(shí)間的站點(diǎn),針對(duì)這一特征,除了站點(diǎn)信息的自身質(zhì)量外,要解決的問題主要是站點(diǎn)和頁面的合理布局問題,這正如超市商品擺設(shè)
3、一樣,擺放在一起有助于銷售。利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)有用的客戶,動(dòng)態(tài)調(diào)整站點(diǎn)的結(jié)構(gòu),使客戶訪問的有關(guān)聯(lián)文件間的鏈接能夠比較直接,讓客戶更容易訪問到想訪問的頁面。根據(jù)用戶訪問習(xí)慣,將頁面信息合理地呈現(xiàn)眼前也是站點(diǎn)優(yōu)化任務(wù)之一,這正如顧客經(jīng)常進(jìn)入同一商場購買常買的商品一樣,購買行為給他可能有兩種感覺一樣:方便和不方便,對(duì)于他來說要是他常買的商品擺放在商場入口將會(huì)給他的購買活動(dòng)帶來很大的方便。利用聚類分析將眾多的訪問行為分類,最大可能呈現(xiàn)給用戶的是用戶常用的信息。假設(shè)用戶訪問樣本集W={w1,w2,…,wK},wi為用戶的訪問行為。樣本數(shù)據(jù)預(yù)處理的目的是標(biāo)準(zhǔn)化數(shù)據(jù)、清除垃圾數(shù)據(jù),刪除與挖掘無關(guān)
4、的樣本屬性內(nèi)容。經(jīng)過預(yù)處理后的樣本數(shù)據(jù),就能進(jìn)行關(guān)聯(lián)性分析和聚類分析,將挖掘到的知識(shí)用于網(wǎng)站的優(yōu)化。2優(yōu)化服務(wù)實(shí)現(xiàn)過程6優(yōu)化過程實(shí)際就是利用Web數(shù)據(jù)挖掘技術(shù)挖掘Web日志的過程,經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、站點(diǎn)優(yōu)化的過程。2.1數(shù)據(jù)預(yù)處理預(yù)處理包括數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充和事務(wù)識(shí)別5個(gè)部分,預(yù)處理的數(shù)據(jù)來源是服務(wù)器日志,對(duì)日志進(jìn)行預(yù)處理的結(jié)果直接影響挖掘算法獲取規(guī)則與模式的效率??梢哉f預(yù)處理過程是Web日志挖掘質(zhì)量保證的關(guān)鍵。數(shù)據(jù)凈化任務(wù)是根據(jù)需求對(duì)原始日志文件進(jìn)行處理,刪除Web服務(wù)器中與挖掘無關(guān)的數(shù)據(jù),比如:圖片、視頻等非用戶顯示請(qǐng)求的文件等,同時(shí)將有用的Web
5、日志記錄信息轉(zhuǎn)換為便于挖掘使用的數(shù)據(jù)格式,便于后期使用。用戶識(shí)別即是要識(shí)別出每個(gè)用戶,其識(shí)別過程采用三條啟發(fā)式原則:①如果用戶的IP地址不同則認(rèn)為是不同的用戶;②如果IP地址相同,但瀏覽器軟件或操作系統(tǒng)不同,則認(rèn)為是不同的用戶;③如果IP地址相同,瀏覽器軟件和操作系統(tǒng)也相同,那么根據(jù)網(wǎng)站的拓?fù)浣Y(jié)構(gòu)對(duì)用戶進(jìn)行識(shí)別,如果用戶請(qǐng)求的頁面不能從已訪問的任何頁面到達(dá),則判斷這是一個(gè)新的用戶。會(huì)話識(shí)別將一系列的頁面訪問劃分成若干獨(dú)立的會(huì)話,最簡單的方法就是使用時(shí)間戳方法,即如果兩個(gè)文件請(qǐng)求的時(shí)間間隔大于一定的時(shí)6間閾值T1,則認(rèn)為是瀏覽者開始了一次新的會(huì)話,通常規(guī)定T1=25.5min(很多
6、商業(yè)產(chǎn)品采用T1=30min,但是L.Catledge和J.PitKow試驗(yàn)所得數(shù)據(jù)指出25.5min更為合適)。路徑補(bǔ)充主要是從本地緩存訪問頁面的問題。如果一個(gè)請(qǐng)求頁面能夠從已經(jīng)訪問過的任何一個(gè)頁面到達(dá),則認(rèn)為該頁面是從本地緩存請(qǐng)求的頁面,將其添加到同一用戶會(huì)話中。事務(wù)識(shí)別目的是找出會(huì)話中有意義的訪問路徑,常采用的方法為最大向前引用路徑法。一個(gè)最大向前引用路徑就相當(dāng)于一個(gè)事務(wù)。向后運(yùn)用意味著一個(gè)用戶再次請(qǐng)求其瀏覽過的頁面(如用戶按下“返回”按鈕),當(dāng)一個(gè)向后應(yīng)用發(fā)生時(shí),說明向前引用終止,則得到的向前引用的路徑為最大向前引用路徑,或者當(dāng)這個(gè)用戶會(huì)話結(jié)束時(shí),也得到最大向前引用。2.
7、2日志挖掘分析過程6想要客戶能夠快速訪問自己想要的頁面,就要找到當(dāng)前信息的相關(guān)關(guān)聯(lián)頁面,和在臨近主頁位置能直接展現(xiàn)用戶習(xí)慣訪問頁面,即構(gòu)建關(guān)聯(lián)頁面和個(gè)性化頁面,主要對(duì)客戶訪問的行為進(jìn)行關(guān)聯(lián)性分析和聚類分析。關(guān)聯(lián)規(guī)則挖掘是在數(shù)據(jù)項(xiàng)目中找到所有的并發(fā)關(guān)聯(lián),使用關(guān)聯(lián)性分析過程即為查找關(guān)聯(lián)頁面過程,常使用Apriori算法,算法見圖1。聚類分析是將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進(jìn)行分類組織的過程,是一些數(shù)據(jù)實(shí)例的集合,集合間的數(shù)據(jù)元素彼此相似而區(qū)別其他集合的數(shù)據(jù)元素,使用聚類分析分析過