基于gsp算法的web用戶訪問序列模式挖掘

ID：31431729

大?。?06.50 KB

頁數(shù)：5頁

時間：2019-01-09

資源描述：

《基于gsp算法的web用戶訪問序列模式挖掘》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于GSP算法的Web用戶訪問序列模式挖掘　　摘要：該文以某電子商務(wù)網(wǎng)站的Web訪問日志為研究對象，利用SQLServer提供的SSIS服務(wù)和T-SQL語句進(jìn)行數(shù)據(jù)預(yù)處理，得到序列數(shù)據(jù)庫，然后用java語言編程實(shí)現(xiàn)GSP算法對其進(jìn)行序列模式的挖掘測試分析，通過對結(jié)果分析可以做出對該網(wǎng)站布局和內(nèi)容（或產(chǎn)品）調(diào)整提供參考，使其更好為其用戶提供針對性的服務(wù)。　　關(guān)鍵詞：Web日志；序列模式挖掘；GSP算法　　中圖分類號：TP393文獻(xiàn)標(biāo)識碼：A文章編號：1009-3044（2015）30-0217-02　　隨著網(wǎng)絡(luò)服務(wù)的迅速發(fā)展，互聯(lián)網(wǎng)上已有龐大數(shù)量的網(wǎng)站，且還在不斷的建

2、設(shè)，通過對網(wǎng)站服務(wù)器的操作和訪問進(jìn)行專業(yè)而詳細(xì)的分析，可以了解網(wǎng)站的運(yùn)行情況并能進(jìn)一步發(fā)現(xiàn)網(wǎng)站所存在的缺陷，為促使網(wǎng)站更好的運(yùn)營與發(fā)展提供可靠的技術(shù)支持與決策依據(jù)。為了能夠促使網(wǎng)站更好的運(yùn)營與提供針對性與個性化的服務(wù)，必須要了解電子商務(wù)網(wǎng)站以及其所展示的各產(chǎn)品模塊的具體訪問情況，而這些信息只能通過獲取對Web服務(wù)器上網(wǎng)站的相關(guān)運(yùn)行日志文件，并對其包含的數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)與分析得到。5　　互聯(lián)網(wǎng)用戶具有多樣性的特點(diǎn)，全球大概有10億多個網(wǎng)站，網(wǎng)民數(shù)量接近30億，他們來自不同的民族，具有不同層次的經(jīng)濟(jì)收入水平，具備不同的教育背景與不同的個人興趣，他們訪問的目的也均不同，但

3、他們在瀏覽Web頁面過程中均留下了訪問信息。特別是像淘寶、京東等大型的電子商務(wù)網(wǎng)站，它們每天都有數(shù)億的在線交易額，而這些交易以及用戶的瀏覽（指沒有交易的用戶）都產(chǎn)生可謂海量的Web訪問日志數(shù)據(jù)。Web日志挖掘是Web大數(shù)據(jù)應(yīng)用領(lǐng)域或者電子商務(wù)商業(yè)智能應(yīng)用中的一個最為重要的內(nèi)容?！　”疚囊阅畴娮由虅?wù)網(wǎng)站的Web訪問日志為研究對象，利用SQLServer提供的SSIS服務(wù)和T-SQL語句進(jìn)行數(shù)據(jù)預(yù)處理，得到序列數(shù)據(jù)庫，然后用java語言編程實(shí)現(xiàn)GSP（GeneralizedSequentialPatterns）算法對其進(jìn)行序列模式的挖掘測試分析，通過對結(jié)果的分析可以為改

4、善該網(wǎng)站的布局以及產(chǎn)品展示方式的調(diào)整提供參考?！　?基于Web日志的序列挖掘　　Web日志序列挖掘一般分三個步驟，即數(shù)據(jù)預(yù)處理、挖掘算法處理以及模式分析。5　　數(shù)據(jù)預(yù)處理主要是對Web日志進(jìn)行序列挖掘之前的對原始日志文件進(jìn)行數(shù)據(jù)轉(zhuǎn)換、清洗等一系列的操作，最終形成可供序列模式挖掘算法所使用的規(guī)范化數(shù)據(jù)。其具體工作主要包含數(shù)據(jù)凈化、會話識別、用戶識別以及路徑補(bǔ)充等過程。數(shù)據(jù)凈化工作主要是對挖掘中不需要的相關(guān)數(shù)據(jù)進(jìn)行刪除操作；會話識別主要是對每個用戶在某一段時間內(nèi)的所有請求頁面進(jìn)行分解從而得到用戶會話；用戶識別是將用戶和請求的頁面進(jìn)行相關(guān)聯(lián)的過程，其中主要是處理多個用戶通

5、過防火墻或代理服務(wù)器訪問站點(diǎn)的情況。在用戶識別的過程中，不僅需要服務(wù)器日志，還需要知道站點(diǎn)的拓?fù)浣Y(jié)構(gòu)；路徑補(bǔ)充過程就是將本地或代理服務(wù)器緩存所造成的遺留請求也補(bǔ)充完整。執(zhí)行上面的操作后，就得到了序列模式挖掘算法所需要的輸入信息（用戶會話文件），該文件中包含訪問Web站點(diǎn)的用戶，用戶請求的頁面及請求發(fā)生的順序，每一頁瀏覽的時間等信息[1]。　　挖掘算法處理主要是指在基于數(shù)據(jù)預(yù)處理的基礎(chǔ)上，通過實(shí)現(xiàn)某種序列算法得到挖掘結(jié)果，這些結(jié)果主要包括如每頁的訪問數(shù)，最頻繁的訪問的頁面，每頁的平均瀏覽時間等。序列模式算法主要有兩類：一類是類Apriori算法，以GSP算法為代表，這

6、種算法基于一個事實(shí)：一個序列是頻繁的，它的所有子序列必然是頻繁的；另一種挖掘序列模式的思想是基于數(shù)據(jù)庫投影的序列模式生長技術(shù)的應(yīng)用，如PrefixSpan算法?！　∧Ｊ椒治鍪且罁?jù)挖掘算法所得到的模式集合，再結(jié)合實(shí)際所感興趣的模式進(jìn)行篩選和分析，然后采用可視化技術(shù)對這些模式作為挖掘的最終結(jié)果進(jìn)行直觀和個性化的展示?！　?基于GSP算法的實(shí)現(xiàn)流程　　序列模式挖掘一般分為五個步驟，這些步驟分別為排序階段、大項(xiàng)集階段、轉(zhuǎn)換階段、序列階段以及選最長序列階段。　　GSP算法的主要流程如圖1所示：　　1）序列數(shù)據(jù)庫進(jìn)行掃描，得到長度為1的序列模式L1，作為初始的種子集。　　2）根

7、據(jù)長度為i的種子集Li通過連接操作和剪切操作生成長度為i+1的候選序列模式Ci+1；然后掃描序列數(shù)據(jù)庫，計(jì)算每個候選序列的支持?jǐn)?shù)，產(chǎn)生長度為i+1的序列模式Li+1，并將Li+1作為新的種子集。　　3）重復(fù)第二步，直到?jīng)]有新的序列模式或候選序列模式產(chǎn)生為止?！　?網(wǎng)站日志挖掘?qū)嵗治?　　本文采用ECML_PKDD2005會議提供的公共點(diǎn)擊流數(shù)據(jù)，它收集了380多萬條電子商務(wù)網(wǎng)站的服務(wù)器日志記錄，每個日志文件包含的是一個小時所收集的記錄，每個文件包含的信息有時間、IP、會話標(biāo)識、請求頁面和引用頁面等相關(guān)信息。日志記錄形式如下：　　16；1074661208；21

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于gsp算法的web用戶訪問序列模式挖掘

基于gsp算法的web用戶訪問序列模式挖掘

相關(guān)文章

相關(guān)標(biāo)簽