基于web的用戶訪問信息挖掘研究

ID：32986851

大?。?.29 MB

頁數(shù)：81頁

時間：2019-02-18

資源描述：

《基于web的用戶訪問信息挖掘研究》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、學(xué)科專業(yè)：生理繾墾絲作者姓名：壟塑——指導(dǎo)教師：拉!狴拯完成日期)一3}2基于Web的用戶訪問信息挖掘研究摘要數(shù)據(jù)挖掘作為一種知識發(fā)現(xiàn)的手段，得到了廣泛的應(yīng)用，是數(shù)據(jù)庫最活躍的領(lǐng)域之一。Web挖掘就是將傳統(tǒng)數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web環(huán)境中，從Web中抽取信息或知識的過程。在Web挖掘中，基于Web的用戶訪問信息挖掘應(yīng)用最為廣泛，應(yīng)用領(lǐng)域涉及電子商務(wù)、網(wǎng)絡(luò)廣告、智能推薦系統(tǒng)、網(wǎng)絡(luò)營銷、智能決策領(lǐng)域。一個好的挖掘模型和相應(yīng)的數(shù)據(jù)表示及數(shù)據(jù)庫設(shè)計(jì)是Web訪問信息挖掘成功的關(guān)鍵，為此本文進(jìn)行了相關(guān)的研究。本文在對Web用戶訪問信息挖掘的相關(guān)理論和最新成果的研究的基

2、礎(chǔ)上，對數(shù)據(jù)預(yù)處理階段和模式發(fā)現(xiàn)階段的幾個問題和方法進(jìn)行了研究，并提出了一些改進(jìn)方法和算法實(shí)現(xiàn)，針對具體的問題建立了相應(yīng)的數(shù)據(jù)表示和數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)，并且在此基礎(chǔ)上提出了一個基于數(shù)據(jù)庫的Web用戶訪問信息挖掘系統(tǒng)，并初步實(shí)現(xiàn)了其中的幾個功能模塊。數(shù)據(jù)預(yù)處理階段是Web挖掘的數(shù)據(jù)準(zhǔn)備階段。本文通過SQLServer2000實(shí)現(xiàn)了基于數(shù)據(jù)庫的數(shù)據(jù)清洗任務(wù)，并提出了一種網(wǎng)絡(luò)蜘蛛的字符匹配模式的清除方法。用戶識別提出了基于Cookie。ip和agent三個屬性的識別算法，并且給出了會話識別和事務(wù)識別的具體算法，采用基于最大前向訪問的事務(wù)識別。模式發(fā)現(xiàn)階段是Web挖

3、掘的關(guān)鍵。本文首先創(chuàng)建了用戶訪問興趣度的數(shù)據(jù)表示方法，利用概念分層的方式將頁面數(shù)據(jù)進(jìn)行歸納，并在此基礎(chǔ)上導(dǎo)出了適合BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集，將神經(jīng)網(wǎng)絡(luò)應(yīng)用到用戶分類中，構(gòu)造了一個分類器；其次是在關(guān)聯(lián)規(guī)則和序列算法研究的基礎(chǔ)上提出并實(shí)現(xiàn)了一個頻繁訪問路徑的算法；最后用Matlab實(shí)現(xiàn)了一個計(jì)算頁面類別關(guān)聯(lián)矩陣和統(tǒng)計(jì)分析的算法，實(shí)現(xiàn)較高概念層次的統(tǒng)計(jì)分析和關(guān)聯(lián)規(guī)則挖掘，具有較好的擴(kuò)展性和易用性。本文最后在前面工作的基礎(chǔ)上提出了一個基于數(shù)據(jù)庫的Web用戶訪問信息挖掘系統(tǒng)的原型，并就原型的各模塊進(jìn)行了分析，該原型允許所有操作基于數(shù)據(jù)庫，得到的模式及規(guī)則也存儲在數(shù)據(jù)庫

4、中，更易于管理和應(yīng)用。本文將Web用戶訪問信息挖掘應(yīng)用到上海市農(nóng)業(yè)信息網(wǎng)，并且從中得到了一些有用的模式，實(shí)驗(yàn)數(shù)據(jù)證明系統(tǒng)是可行的和有效的。本文采用的數(shù)據(jù)庫是SQL$erver2000，通過數(shù)據(jù)庫來實(shí)現(xiàn)數(shù)據(jù)預(yù)處理，本文中的函數(shù)使用C++和Matlab來實(shí)現(xiàn)。Web用戶訪問信息挖掘是目前應(yīng)用最為廣泛的Web挖掘技術(shù)，可以理解用戶的瀏覽興趣行為，以便進(jìn)一步改善網(wǎng)站結(jié)構(gòu)或?yàn)橛脩籼峁﹤€性化服務(wù)，幫助改善市場營銷決策，實(shí)現(xiàn)用戶推薦和預(yù)測。本文的系統(tǒng)具有一定的適用性，本文的研究對于網(wǎng)站的用戶訪問信息挖掘具有一定的理論意義和實(shí)際意義。關(guān)鍵詞：數(shù)據(jù)挖掘，Web挖掘，日志挖

5、掘，神經(jīng)網(wǎng)絡(luò)，關(guān)聯(lián)規(guī)則，數(shù)據(jù)庫RESEARCHONWEB．BASEDUSERACCESSINFORMATIONMININIGABSTRACTAsamethodofknowledgediscovery,datamininghasbeenwidelyused,andwasthemostactivedomainofdatabase．WebminingistoUSethetraditionaldataminingtechnologiestoextractinformationandknowledgeintheW曲environment．Thewebusagemi

6、ningisthemost研deusedmethod,whichisusedinthefieldofe-conlrncrce，intemetads，intelligentrecommendationsystem,intemetmarketing,andintelligentdecisionsupport．Agoodmodelofwebminingisthekeytothesuccessofwebusagemining,thisdissertationwilldosomeresearch．111edissertationwillimproveandimpl

7、ementseveralmethodsandarithmeticbasedontheresearchofthetheoryandachievement,whichisaboutwebuseraccessinformationmining．Thisdissertationwilldesignthedatabasetopresentcorrespondingdata．ThenconstructaWebUSeraccessinformationminingsystemmodelbadeondatabase，andrealizeseveralfunctional

8、module．Datapreprocessingisthepreparation

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 81



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于web的用戶訪問信息挖掘研究

基于web的用戶訪問信息挖掘研究

相關(guān)文章

相關(guān)標(biāo)簽