資源描述:
《基于gsp算法的web用戶訪問序列模式挖掘》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于GSP算法的Web用戶訪問序列模式挖掘 摘要:該文以某電子商務(wù)網(wǎng)站的Web訪問日志為研究對象,利用SQLServer提供的SSIS服務(wù)和T-SQL語句進(jìn)行數(shù)據(jù)預(yù)處理,得到序列數(shù)據(jù)庫,然后用java語言編程實(shí)現(xiàn)GSP算法對其進(jìn)行序列模式的挖掘測試分析,通過對結(jié)果分析可以做出對該網(wǎng)站布局和內(nèi)容(或產(chǎn)品)調(diào)整提供參考,使其更好為其用戶提供針對性的服務(wù)。 關(guān)鍵詞:Web日志;序列模式挖掘;GSP算法 中圖分類號:TP393文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2015)30-0217-02 隨著網(wǎng)絡(luò)服務(wù)的迅速發(fā)展,互聯(lián)網(wǎng)上已有龐大數(shù)量的網(wǎng)站,且還在不斷的建
2、設(shè),通過對網(wǎng)站服務(wù)器的操作和訪問進(jìn)行專業(yè)而詳細(xì)的分析,可以了解網(wǎng)站的運(yùn)行情況并能進(jìn)一步發(fā)現(xiàn)網(wǎng)站所存在的缺陷,為促使網(wǎng)站更好的運(yùn)營與發(fā)展提供可靠的技術(shù)支持與決策依據(jù)。為了能夠促使網(wǎng)站更好的運(yùn)營與提供針對性與個性化的服務(wù),必須要了解電子商務(wù)網(wǎng)站以及其所展示的各產(chǎn)品模塊的具體訪問情況,而這些信息只能通過獲取對Web服務(wù)器上網(wǎng)站的相關(guān)運(yùn)行日志文件,并對其包含的數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)與分析得到。5 互聯(lián)網(wǎng)用戶具有多樣性的特點(diǎn),全球大概有10億多個網(wǎng)站,網(wǎng)民數(shù)量接近30億,他們來自不同的民族,具有不同層次的經(jīng)濟(jì)收入水平,具備不同的教育背景與不同的個人興趣,他們訪問的目的也均不同,但
3、他們在瀏覽Web頁面過程中均留下了訪問信息。特別是像淘寶、京東等大型的電子商務(wù)網(wǎng)站,它們每天都有數(shù)億的在線交易額,而這些交易以及用戶的瀏覽(指沒有交易的用戶)都產(chǎn)生可謂海量的Web訪問日志數(shù)據(jù)。Web日志挖掘是Web大數(shù)據(jù)應(yīng)用領(lǐng)域或者電子商務(wù)商業(yè)智能應(yīng)用中的一個最為重要的內(nèi)容?! ”疚囊阅畴娮由虅?wù)網(wǎng)站的Web訪問日志為研究對象,利用SQLServer提供的SSIS服務(wù)和T-SQL語句進(jìn)行數(shù)據(jù)預(yù)處理,得到序列數(shù)據(jù)庫,然后用java語言編程實(shí)現(xiàn)GSP(GeneralizedSequentialPatterns)算法對其進(jìn)行序列模式的挖掘測試分析,通過對結(jié)果的分析可以為改
4、善該網(wǎng)站的布局以及產(chǎn)品展示方式的調(diào)整提供參考?! ?基于Web日志的序列挖掘 Web日志序列挖掘一般分三個步驟,即數(shù)據(jù)預(yù)處理、挖掘算法處理以及模式分析。5 數(shù)據(jù)預(yù)處理主要是對Web日志進(jìn)行序列挖掘之前的對原始日志文件進(jìn)行數(shù)據(jù)轉(zhuǎn)換、清洗等一系列的操作,最終形成可供序列模式挖掘算法所使用的規(guī)范化數(shù)據(jù)。其具體工作主要包含數(shù)據(jù)凈化、會話識別、用戶識別以及路徑補(bǔ)充等過程。數(shù)據(jù)凈化工作主要是對挖掘中不需要的相關(guān)數(shù)據(jù)進(jìn)行刪除操作;會話識別主要是對每個用戶在某一段時間內(nèi)的所有請求頁面進(jìn)行分解從而得到用戶會話;用戶識別是將用戶和請求的頁面進(jìn)行相關(guān)聯(lián)的過程,其中主要是處理多個用戶通
5、過防火墻或代理服務(wù)器訪問站點(diǎn)的情況。在用戶識別的過程中,不僅需要服務(wù)器日志,還需要知道站點(diǎn)的拓?fù)浣Y(jié)構(gòu);路徑補(bǔ)充過程就是將本地或代理服務(wù)器緩存所造成的遺留請求也補(bǔ)充完整。執(zhí)行上面的操作后,就得到了序列模式挖掘算法所需要的輸入信息(用戶會話文件),該文件中包含訪問Web站點(diǎn)的用戶,用戶請求的頁面及請求發(fā)生的順序,每一頁瀏覽的時間等信息[1]。 挖掘算法處理主要是指在基于數(shù)據(jù)預(yù)處理的基礎(chǔ)上,通過實(shí)現(xiàn)某種序列算法得到挖掘結(jié)果,這些結(jié)果主要包括如每頁的訪問數(shù),最頻繁的訪問的頁面,每頁的平均瀏覽時間等。序列模式算法主要有兩類:一類是類Apriori算法,以GSP算法為代表,這
6、種算法基于一個事實(shí):一個序列是頻繁的,它的所有子序列必然是頻繁的;另一種挖掘序列模式的思想是基于數(shù)據(jù)庫投影的序列模式生長技術(shù)的應(yīng)用,如PrefixSpan算法?! ∧J椒治鍪且罁?jù)挖掘算法所得到的模式集合,再結(jié)合實(shí)際所感興趣的模式進(jìn)行篩選和分析,然后采用可視化技術(shù)對這些模式作為挖掘的最終結(jié)果進(jìn)行直觀和個性化的展示?! ?基于GSP算法的實(shí)現(xiàn)流程 序列模式挖掘一般分為五個步驟,這些步驟分別為排序階段、大項(xiàng)集階段、轉(zhuǎn)換階段、序列階段以及選最長序列階段。 GSP算法的主要流程如圖1所示: 1)序列數(shù)據(jù)庫進(jìn)行掃描,得到長度為1的序列模式L1,作為初始的種子集。 2)根
7、據(jù)長度為i的種子集Li通過連接操作和剪切操作生成長度為i+1的候選序列模式Ci+1;然后掃描序列數(shù)據(jù)庫,計(jì)算每個候選序列的支持?jǐn)?shù),產(chǎn)生長度為i+1的序列模式Li+1,并將Li+1作為新的種子集。 3)重復(fù)第二步,直到?jīng)]有新的序列模式或候選序列模式產(chǎn)生為止?! ?網(wǎng)站日志挖掘?qū)嵗治? 本文采用ECML_PKDD2005會議提供的公共點(diǎn)擊流數(shù)據(jù),它收集了380多萬條電子商務(wù)網(wǎng)站的服務(wù)器日志記錄,每個日志文件包含的是一個小時所收集的記錄,每個文件包含的信息有時間、IP、會話標(biāo)識、請求頁面和引用頁面等相關(guān)信息。日志記錄形式如下: 16;1074661208;21