資源描述:
《基于web的用戶訪問信息挖掘研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、學(xué)科專業(yè):生理繾墾絲作者姓名:壟塑——指導(dǎo)教師:拉!狴拯完成日期)一3}2基于Web的用戶訪問信息挖掘研究摘要數(shù)據(jù)挖掘作為一種知識發(fā)現(xiàn)的手段,得到了廣泛的應(yīng)用,是數(shù)據(jù)庫最活躍的領(lǐng)域之一。Web挖掘就是將傳統(tǒng)數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web環(huán)境中,從Web中抽取信息或知識的過程。在Web挖掘中,基于Web的用戶訪問信息挖掘應(yīng)用最為廣泛,應(yīng)用領(lǐng)域涉及電子商務(wù)、網(wǎng)絡(luò)廣告、智能推薦系統(tǒng)、網(wǎng)絡(luò)營銷、智能決策領(lǐng)域。一個好的挖掘模型和相應(yīng)的數(shù)據(jù)表示及數(shù)據(jù)庫設(shè)計(jì)是Web訪問信息挖掘成功的關(guān)鍵,為此本文進(jìn)行了相關(guān)的研究。本文在對Web用戶訪問信息挖掘的相關(guān)理論和最新成果的研究的基
2、礎(chǔ)上,對數(shù)據(jù)預(yù)處理階段和模式發(fā)現(xiàn)階段的幾個問題和方法進(jìn)行了研究,并提出了一些改進(jìn)方法和算法實(shí)現(xiàn),針對具體的問題建立了相應(yīng)的數(shù)據(jù)表示和數(shù)據(jù)庫系統(tǒng)設(shè)計(jì),并且在此基礎(chǔ)上提出了一個基于數(shù)據(jù)庫的Web用戶訪問信息挖掘系統(tǒng),并初步實(shí)現(xiàn)了其中的幾個功能模塊。數(shù)據(jù)預(yù)處理階段是Web挖掘的數(shù)據(jù)準(zhǔn)備階段。本文通過SQLServer2000實(shí)現(xiàn)了基于數(shù)據(jù)庫的數(shù)據(jù)清洗任務(wù),并提出了一種網(wǎng)絡(luò)蜘蛛的字符匹配模式的清除方法。用戶識別提出了基于Cookie。ip和agent三個屬性的識別算法,并且給出了會話識別和事務(wù)識別的具體算法,采用基于最大前向訪問的事務(wù)識別。模式發(fā)現(xiàn)階段是Web挖
3、掘的關(guān)鍵。本文首先創(chuàng)建了用戶訪問興趣度的數(shù)據(jù)表示方法,利用概念分層的方式將頁面數(shù)據(jù)進(jìn)行歸納,并在此基礎(chǔ)上導(dǎo)出了適合BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集,將神經(jīng)網(wǎng)絡(luò)應(yīng)用到用戶分類中,構(gòu)造了一個分類器;其次是在關(guān)聯(lián)規(guī)則和序列算法研究的基礎(chǔ)上提出并實(shí)現(xiàn)了一個頻繁訪問路徑的算法;最后用Matlab實(shí)現(xiàn)了一個計(jì)算頁面類別關(guān)聯(lián)矩陣和統(tǒng)計(jì)分析的算法,實(shí)現(xiàn)較高概念層次的統(tǒng)計(jì)分析和關(guān)聯(lián)規(guī)則挖掘,具有較好的擴(kuò)展性和易用性。本文最后在前面工作的基礎(chǔ)上提出了一個基于數(shù)據(jù)庫的Web用戶訪問信息挖掘系統(tǒng)的原型,并就原型的各模塊進(jìn)行了分析,該原型允許所有操作基于數(shù)據(jù)庫,得到的模式及規(guī)則也存儲在數(shù)據(jù)庫
4、中,更易于管理和應(yīng)用。本文將Web用戶訪問信息挖掘應(yīng)用到上海市農(nóng)業(yè)信息網(wǎng),并且從中得到了一些有用的模式,實(shí)驗(yàn)數(shù)據(jù)證明系統(tǒng)是可行的和有效的。本文采用的數(shù)據(jù)庫是SQL$erver2000,通過數(shù)據(jù)庫來實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,本文中的函數(shù)使用C++和Matlab來實(shí)現(xiàn)。Web用戶訪問信息挖掘是目前應(yīng)用最為廣泛的Web挖掘技術(shù),可以理解用戶的瀏覽興趣行為,以便進(jìn)一步改善網(wǎng)站結(jié)構(gòu)或?yàn)橛脩籼峁﹤€性化服務(wù),幫助改善市場營銷決策,實(shí)現(xiàn)用戶推薦和預(yù)測。本文的系統(tǒng)具有一定的適用性,本文的研究對于網(wǎng)站的用戶訪問信息挖掘具有一定的理論意義和實(shí)際意義。關(guān)鍵詞:數(shù)據(jù)挖掘,Web挖掘,日志挖
5、掘,神經(jīng)網(wǎng)絡(luò),關(guān)聯(lián)規(guī)則,數(shù)據(jù)庫RESEARCHONWEB.BASEDUSERACCESSINFORMATIONMININIGABSTRACTAsamethodofknowledgediscovery,datamininghasbeenwidelyused,andwasthemostactivedomainofdatabase.WebminingistoUSethetraditionaldataminingtechnologiestoextractinformationandknowledgeintheW曲environment.Thewebusagemi
6、ningisthemost研deusedmethod,whichisusedinthefieldofe-conlrncrce,intemetads,intelligentrecommendationsystem,intemetmarketing,andintelligentdecisionsupport.Agoodmodelofwebminingisthekeytothesuccessofwebusagemining,thisdissertationwilldosomeresearch.111edissertationwillimproveandimpl
7、ementseveralmethodsandarithmeticbasedontheresearchofthetheoryandachievement,whichisaboutwebuseraccessinformationmining.Thisdissertationwilldesignthedatabasetopresentcorrespondingdata.ThenconstructaWebUSeraccessinformationminingsystemmodelbadeondatabase,andrealizeseveralfunctional
8、module.Datapreprocessingisthepreparation