基于gsp算法的web用戶訪問序列模式挖掘

基于gsp算法的web用戶訪問序列模式挖掘

ID:31431729

大?。?06.50 KB

頁數(shù):5頁

時間:2019-01-09

基于gsp算法的web用戶訪問序列模式挖掘_第1頁
基于gsp算法的web用戶訪問序列模式挖掘_第2頁
基于gsp算法的web用戶訪問序列模式挖掘_第3頁
基于gsp算法的web用戶訪問序列模式挖掘_第4頁
基于gsp算法的web用戶訪問序列模式挖掘_第5頁
資源描述:

《基于gsp算法的web用戶訪問序列模式挖掘》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、基于GSP算法的Web用戶訪問序列模式挖掘  摘要:該文以某電子商務(wù)網(wǎng)站的Web訪問日志為研究對象,利用SQLServer提供的SSIS服務(wù)和T-SQL語句進(jìn)行數(shù)據(jù)預(yù)處理,得到序列數(shù)據(jù)庫,然后用java語言編程實(shí)現(xiàn)GSP算法對其進(jìn)行序列模式的挖掘測試分析,通過對結(jié)果分析可以做出對該網(wǎng)站布局和內(nèi)容(或產(chǎn)品)調(diào)整提供參考,使其更好為其用戶提供針對性的服務(wù)。  關(guān)鍵詞:Web日志;序列模式挖掘;GSP算法  中圖分類號:TP393文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2015)30-0217-02  隨著網(wǎng)絡(luò)服務(wù)的迅速發(fā)展,互聯(lián)網(wǎng)上已有龐大數(shù)量的網(wǎng)站,且還在不斷的建

2、設(shè),通過對網(wǎng)站服務(wù)器的操作和訪問進(jìn)行專業(yè)而詳細(xì)的分析,可以了解網(wǎng)站的運(yùn)行情況并能進(jìn)一步發(fā)現(xiàn)網(wǎng)站所存在的缺陷,為促使網(wǎng)站更好的運(yùn)營與發(fā)展提供可靠的技術(shù)支持與決策依據(jù)。為了能夠促使網(wǎng)站更好的運(yùn)營與提供針對性與個性化的服務(wù),必須要了解電子商務(wù)網(wǎng)站以及其所展示的各產(chǎn)品模塊的具體訪問情況,而這些信息只能通過獲取對Web服務(wù)器上網(wǎng)站的相關(guān)運(yùn)行日志文件,并對其包含的數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)與分析得到。5  互聯(lián)網(wǎng)用戶具有多樣性的特點(diǎn),全球大概有10億多個網(wǎng)站,網(wǎng)民數(shù)量接近30億,他們來自不同的民族,具有不同層次的經(jīng)濟(jì)收入水平,具備不同的教育背景與不同的個人興趣,他們訪問的目的也均不同,但

3、他們在瀏覽Web頁面過程中均留下了訪問信息。特別是像淘寶、京東等大型的電子商務(wù)網(wǎng)站,它們每天都有數(shù)億的在線交易額,而這些交易以及用戶的瀏覽(指沒有交易的用戶)都產(chǎn)生可謂海量的Web訪問日志數(shù)據(jù)。Web日志挖掘是Web大數(shù)據(jù)應(yīng)用領(lǐng)域或者電子商務(wù)商業(yè)智能應(yīng)用中的一個最為重要的內(nèi)容?! ”疚囊阅畴娮由虅?wù)網(wǎng)站的Web訪問日志為研究對象,利用SQLServer提供的SSIS服務(wù)和T-SQL語句進(jìn)行數(shù)據(jù)預(yù)處理,得到序列數(shù)據(jù)庫,然后用java語言編程實(shí)現(xiàn)GSP(GeneralizedSequentialPatterns)算法對其進(jìn)行序列模式的挖掘測試分析,通過對結(jié)果的分析可以為改

4、善該網(wǎng)站的布局以及產(chǎn)品展示方式的調(diào)整提供參考?! ?基于Web日志的序列挖掘  Web日志序列挖掘一般分三個步驟,即數(shù)據(jù)預(yù)處理、挖掘算法處理以及模式分析。5  數(shù)據(jù)預(yù)處理主要是對Web日志進(jìn)行序列挖掘之前的對原始日志文件進(jìn)行數(shù)據(jù)轉(zhuǎn)換、清洗等一系列的操作,最終形成可供序列模式挖掘算法所使用的規(guī)范化數(shù)據(jù)。其具體工作主要包含數(shù)據(jù)凈化、會話識別、用戶識別以及路徑補(bǔ)充等過程。數(shù)據(jù)凈化工作主要是對挖掘中不需要的相關(guān)數(shù)據(jù)進(jìn)行刪除操作;會話識別主要是對每個用戶在某一段時間內(nèi)的所有請求頁面進(jìn)行分解從而得到用戶會話;用戶識別是將用戶和請求的頁面進(jìn)行相關(guān)聯(lián)的過程,其中主要是處理多個用戶通

5、過防火墻或代理服務(wù)器訪問站點(diǎn)的情況。在用戶識別的過程中,不僅需要服務(wù)器日志,還需要知道站點(diǎn)的拓?fù)浣Y(jié)構(gòu);路徑補(bǔ)充過程就是將本地或代理服務(wù)器緩存所造成的遺留請求也補(bǔ)充完整。執(zhí)行上面的操作后,就得到了序列模式挖掘算法所需要的輸入信息(用戶會話文件),該文件中包含訪問Web站點(diǎn)的用戶,用戶請求的頁面及請求發(fā)生的順序,每一頁瀏覽的時間等信息[1]。  挖掘算法處理主要是指在基于數(shù)據(jù)預(yù)處理的基礎(chǔ)上,通過實(shí)現(xiàn)某種序列算法得到挖掘結(jié)果,這些結(jié)果主要包括如每頁的訪問數(shù),最頻繁的訪問的頁面,每頁的平均瀏覽時間等。序列模式算法主要有兩類:一類是類Apriori算法,以GSP算法為代表,這

6、種算法基于一個事實(shí):一個序列是頻繁的,它的所有子序列必然是頻繁的;另一種挖掘序列模式的思想是基于數(shù)據(jù)庫投影的序列模式生長技術(shù)的應(yīng)用,如PrefixSpan算法?! ∧J椒治鍪且罁?jù)挖掘算法所得到的模式集合,再結(jié)合實(shí)際所感興趣的模式進(jìn)行篩選和分析,然后采用可視化技術(shù)對這些模式作為挖掘的最終結(jié)果進(jìn)行直觀和個性化的展示?! ?基于GSP算法的實(shí)現(xiàn)流程  序列模式挖掘一般分為五個步驟,這些步驟分別為排序階段、大項(xiàng)集階段、轉(zhuǎn)換階段、序列階段以及選最長序列階段。  GSP算法的主要流程如圖1所示:  1)序列數(shù)據(jù)庫進(jìn)行掃描,得到長度為1的序列模式L1,作為初始的種子集。  2)根

7、據(jù)長度為i的種子集Li通過連接操作和剪切操作生成長度為i+1的候選序列模式Ci+1;然后掃描序列數(shù)據(jù)庫,計(jì)算每個候選序列的支持?jǐn)?shù),產(chǎn)生長度為i+1的序列模式Li+1,并將Li+1作為新的種子集。  3)重復(fù)第二步,直到?jīng)]有新的序列模式或候選序列模式產(chǎn)生為止?! ?網(wǎng)站日志挖掘?qū)嵗治?  本文采用ECML_PKDD2005會議提供的公共點(diǎn)擊流數(shù)據(jù),它收集了380多萬條電子商務(wù)網(wǎng)站的服務(wù)器日志記錄,每個日志文件包含的是一個小時所收集的記錄,每個文件包含的信息有時間、IP、會話標(biāo)識、請求頁面和引用頁面等相關(guān)信息。日志記錄形式如下:  16;1074661208;21

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。