資源描述:
《基于會話分類的Web用戶訪問模式挖掘研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、基于會話分類的Web用戶訪問模式挖掘研究吳海燕,朱靖君,高國柱,程志銳(清華大學計算機與信息管理中心,北京100084)(wuhy@cic.tsinghua.edu.cn)摘要:隨著Internet的迅速發(fā)展,Web站點的訪問用戶越來越多樣化,不同種類用戶的訪問模式有所不同。本文提出一種基于會話分類的Web用戶訪問模式挖掘方法。這套方法把用戶會話劃分為人類用戶會話、網(wǎng)絡爬蟲會話和資源下載類用戶會話三大類,在此基礎上分別對3類用戶的訪問模式進行挖掘。通過會話分類可以提高挖掘的效率與準確性。其中重點研究了人類用戶的訪問模式挖掘,提出了一種基于用戶訪問路徑樹的事務識別方法,并對PrefixSpan算
2、法進行了改進。這套方法在實驗中取得了很好的挖掘效果。關鍵詞:Web挖掘;會話分類;訪問模式;序列模式;PrefixSpan中圖分類號:TP311文獻標識碼:AResearchofWebUserAccessPatternMiningBasedonSessionClassificationWUHai-yan,ZHUJing-jun,GAOGuo-zhu,CHENGZhi-rui(ComputerandInformationManagementCenterofTsinghuaUniversity,TsinghuaUniversity,Beijing100084,China)Abstract:With
3、therapiddevelopmentofInternet,webusersareincreasinglydiversified.Theaccesspatternsofdifferentkindsofusersaredifferent.Thispaperpresentsamethodofminingwebuseraccesspatternbasedonsessionclassification.Thismethoddividesalltheusersessionsintothreecategories,whicharehumanusersessions,crawlersessionsandre
4、source-downloadusersessions.Thenminetheaccesspatternsofeachkindofusersrespectively.Sessionclassificationcanimprovetheefficiencyandaccuracyofmining.Thispaperfocusesonminingtheaccesspatternofhumanusers.Itpresentsamethodoftransactionidentificationbasedonusers’access-path-tree,andmakessomeimprovementson
5、PrefixSpanalgorithm.Thisminingmethodachievesgoodresultsintheexperiments.Keywords:webmining;sessionclassification;accesspattern;sequentialpattern;PrefixSpan人們也已經(jīng)提出了幾種經(jīng)典的挖掘算法,這包括R.Agrawal1引言等人提出的AprioriAll算法[3]和GSP算法[4]以及J.Han等Web日志挖掘是當前數(shù)據(jù)挖掘領域的一個重要研究課人提出的FreeSpan算法[5]和PrefixSpan算法[6]。這些挖掘題。Web日志記錄了用戶訪
6、問網(wǎng)站的許多重要信息,通過對方法在傳統(tǒng)的網(wǎng)絡環(huán)境中還是比較適用的。Web日志進行挖掘,可以得到用戶的訪問模式,這些訪問模然而近年來,Internet出現(xiàn)了不少新的變化,其中一個式有助于改善網(wǎng)站結構,為用戶提供更好的個性化服務。而重要的變化就是網(wǎng)站的訪問用戶更為多樣化。除了一般的通在網(wǎng)站的安全維護方面,從Web日志中可以檢測出惡意用過瀏覽器進行訪問的用戶(簡稱為“人類用戶”)以外,還戶的訪問行為,以便于及時加以防范。出現(xiàn)了一些“新的用戶”。2000年以后,搜索引擎逐漸興起,國內(nèi)外在Web日志挖掘方面的研究已經(jīng)比較成熟,形它們通過一種叫作網(wǎng)絡爬蟲的網(wǎng)頁抓取程序來收集各個網(wǎng)成了一套比較完整的挖掘流程
7、,包括數(shù)據(jù)清理、用戶識別、站上的網(wǎng)頁信息,因此每天都會有不少網(wǎng)絡爬蟲對網(wǎng)站進行會話識別、路徑補充、模式挖掘和模式分析等[1][12]。其中訪問,它們的訪問行為跟人類用戶有所不同[8]。除此之外,模式挖掘有多種方法,包括統(tǒng)計分析、關聯(lián)規(guī)則挖掘、序列從日常的Web日志分析中,我們還發(fā)現(xiàn)有不少用戶并沒有模式挖掘、分類與聚類等[7][11]。而在序列模式挖掘方面,訪問網(wǎng)站的任何網(wǎng)頁,而是單純地對網(wǎng)站的資源