資源描述:
《web使用挖掘中用戶訪問序列挖掘技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、西南交通大學(xué)碩士學(xué)位論文Web使用挖掘中用戶訪問序列挖掘技術(shù)研究姓名:姚亮申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:朱焱20080501西南交通大學(xué)碩士研究生學(xué)位論文第1頁摘要用戶訪問序列挖掘是Web使用挖掘中一個重要的研究方向,旨在采用數(shù)據(jù)挖掘技術(shù)對Web日志進行挖掘,發(fā)現(xiàn)站點用戶的訪問興趣、訪問意圖等。借助于挖掘結(jié)果,網(wǎng)站運營者可以向用戶提供個性化推銷和站點導(dǎo)航服務(wù),也可以在得到的頻繁訪問路徑上合理放置廣告,提高站點廣告收入等。站點開發(fā)人員可以利用挖掘結(jié)果對站點系統(tǒng)或結(jié)構(gòu)進行改進,提高站點訪問效率??傊L問序列挖掘在各種Web站點,尤其是電子商務(wù)網(wǎng)站和門戶站點有著廣
2、泛的應(yīng)用前景。訪問序列挖掘主要包括數(shù)據(jù)預(yù)處理、序列發(fā)現(xiàn)和序列分析三個階段。數(shù)據(jù)預(yù)處理是對源數(shù)據(jù)進行處理使之滿足挖掘算法需要的數(shù)據(jù)格式;序列發(fā)現(xiàn)分為順序序列挖掘和序列模式挖掘兩個方面,主要是利用序列挖掘算法挖掘用戶的訪問序列;序列分析即對挖掘結(jié)果進行分析,從中發(fā)現(xiàn)有意義的知識。論文首先對數(shù)據(jù)預(yù)處理階段采用的技術(shù)進行了分析研究,改進了針對訪問序列挖掘的數(shù)據(jù)預(yù)處理方法;然后在序列模式挖掘部分對挖掘效率較高的GSP算法進行了研究和實現(xiàn),并對算法進行了測試,對挖掘出的模式進行了分析;最后實現(xiàn)了一個完整的利用數(shù)據(jù)倉庫平臺挖掘Web用戶訪問順序序列的方案,并采用真實商務(wù)站點日志對方案進行了驗
3、證,對挖掘結(jié)果進行了分析,同時也將挖掘出的模式與GSP算法挖掘出的模式進行了比較。關(guān)鍵詞:Web使用挖掘;Web日志;數(shù)據(jù)預(yù)處理;序列模式;訪問序列;日志數(shù)據(jù)倉庫AbstractUseraccesssequenceminingisallimportantresearchdirectionofWebusagemining,whichaimsatdiscoveringtheusers’visitinginterestandintentionofWebsitesbyminingWeblog.Withminingresults,websiteoperatorscanprovideuse
4、rswithpersonalizedrecommendationsandsitenavigationservices.Ifthefrequentlyaccesspathsareobtained,thereasonableadvertisementarrangementCallbemadetoimprovesiteadvertisingrevenue.Sitedeveloperscanusetheminingresultstoimprovesitesystemorstructureinordertoenhancetheefficiencyofsitevisits.Inaword,
5、accesssequencemininghasaverygoodprospectinvariousWebsiteapplications,particularlye-commercesitesandportalsites.Accesssequenceminingincludesthreestages:datapreprocesslng,sequencesdiscoveryandsequencesanalysis.Thepurposeofdatapreprocessingistoprocesssourcedata,andthepreprocessingresultscanmeet
6、therequirementsofminingalgorithms.Sequencesdiscoveryismininguser’saccesssequenceusingsequentialminingalgorithms,whichiSdividedintotwoaspects:ordinaIsequencesmmmgandsequencespatternsmining.Thetaskofsequencesanalysisstageisfindingmeaningfulknowledgefromtheminingresults.Inthethesis,techniquesus
7、edindatapreprocessinghavebeenresearchedatfirst,andapreprocessingprocedureforaccesssequenceminingwasimproved.Theninthesequentialpatternminingpart,ahigh—efficientsequentialpatternminingalgorithmnamedGSPwasresearchedandimplemented,algorithmperformance