基于聚類分析的用戶訪問(wèn)模式挖掘算法研究

基于聚類分析的用戶訪問(wèn)模式挖掘算法研究

ID:32975938

大小:853.47 KB

頁(yè)數(shù):62頁(yè)

時(shí)間:2019-02-18

基于聚類分析的用戶訪問(wèn)模式挖掘算法研究_第1頁(yè)
基于聚類分析的用戶訪問(wèn)模式挖掘算法研究_第2頁(yè)
基于聚類分析的用戶訪問(wèn)模式挖掘算法研究_第3頁(yè)
基于聚類分析的用戶訪問(wèn)模式挖掘算法研究_第4頁(yè)
基于聚類分析的用戶訪問(wèn)模式挖掘算法研究_第5頁(yè)
資源描述:

《基于聚類分析的用戶訪問(wèn)模式挖掘算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、分類號(hào):G350密級(jí):公開(kāi)UDC:?jiǎn)挝淮a:10424學(xué)位論文基于聚類分析的用戶訪問(wèn)模式挖掘算法研究賈斌申請(qǐng)學(xué)位級(jí)別:碩士學(xué)位專業(yè)名稱:情報(bào)學(xué)指導(dǎo)教師姓名:徐建國(guó)職稱:副教授山東科技大學(xué)二零一二年五月論文題目:基于聚類分析的用戶訪問(wèn)模式挖掘算法研究作者姓名:賈斌入學(xué)時(shí)間:2009年9月專業(yè)名稱:情報(bào)學(xué)研究方向:信息系統(tǒng)工程指導(dǎo)教師:徐建國(guó)職稱:副教授論文提交日期:2012年5月論文答辯日期:2012年6月授予學(xué)位日期:STUDYOFUSERACCESSPATTERNSMININGALGORITHMBASEDONCLUSTERA

2、NALYSISADissertationsubmittedinfulfillmentoftherequirementsofthedegreeofMASTEROFMANAGEMENTfromShandongUniversityofScienceandTechnologybyJiaBinSupervisor:AssociateProfessorXuJianguoCollegeofInformationScienceandEngineeringMay2012聲明本人呈交給山東科技大學(xué)的這篇碩士學(xué)位論文,除了所列參考文獻(xiàn)和世所公認(rèn)的文

3、獻(xiàn)外,全部是本人在導(dǎo)師指導(dǎo)下的研究成果。該論文資料尚沒(méi)有呈交于其它任何學(xué)術(shù)機(jī)關(guān)作鑒定。碩士生簽名:日期:AFFIRMATIONIdeclarethatthisdissertation,submittedinfulfillmentoftherequirementsfortheawardofMasterofManagementinShandongUniversityofScienceandTechnology,iswhollymyownworkunlessreferencedofacknowledge.Thedocumenthas

4、notbeensubmittedforqualificationatanyotheracademicinstitute.Signature:Date:山東科技大學(xué)碩士學(xué)位論文摘要摘要Web服務(wù)產(chǎn)生了大量的日志數(shù)據(jù),這些數(shù)據(jù)記錄了用戶的行為信息。如何從海量的日志數(shù)據(jù)中自動(dòng)、智能地抽取隱藏于其中的知識(shí),這是Web使用挖掘要研究的問(wèn)題。Web使用挖掘的研究對(duì)象是Web日志數(shù)據(jù)。Web日志數(shù)據(jù)記錄了用戶對(duì)Web站點(diǎn)的訪問(wèn)信息,對(duì)這些信息進(jìn)行分析可以發(fā)現(xiàn)用戶訪問(wèn)站點(diǎn)的瀏覽模式和訪問(wèn)習(xí)慣,可幫助實(shí)現(xiàn)網(wǎng)頁(yè)的預(yù)存取和緩存;對(duì)于頁(yè)面重組、優(yōu)化網(wǎng)

5、站的結(jié)構(gòu)等方面都具有十分重要的意義。本文對(duì)Web使用挖掘的聚類分析算法進(jìn)行了研究,目的是通過(guò)對(duì)Web使用挖掘數(shù)據(jù)的事務(wù)數(shù)據(jù)進(jìn)行挖掘操作來(lái)分析用戶訪問(wèn)事務(wù)的模式特征,為網(wǎng)站管理者對(duì)Web站點(diǎn)的結(jié)構(gòu)改進(jìn)、網(wǎng)站個(gè)性化服務(wù)、網(wǎng)站電子商務(wù)的策劃等方面提供決策支持信息。本文以Web服務(wù)器日志數(shù)據(jù)作為研究對(duì)象,網(wǎng)頁(yè)內(nèi)容數(shù)據(jù)、站點(diǎn)結(jié)構(gòu)數(shù)據(jù)以及網(wǎng)站用戶注冊(cè)信息等數(shù)據(jù)作為參考信息,從數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)四個(gè)階段來(lái)實(shí)現(xiàn)了用戶事務(wù)的挖掘,最后得到具有用戶訪問(wèn)特征的事務(wù)聚類結(jié)果。本文為了獲取更加具有用戶訪問(wèn)特征的事務(wù)數(shù)據(jù)聚類結(jié)果,在數(shù)據(jù)預(yù)處理

6、的用戶識(shí)別階段只采用能完全確定用戶的用戶注冊(cè)信息和Web日志上的客戶端IP來(lái)獲取用戶信息,放棄了采集不穩(wěn)定的cookie用戶信息。在數(shù)據(jù)預(yù)處理的事務(wù)識(shí)別階段,綜合使用了最大前向序列法和時(shí)間窗口法來(lái)進(jìn)行事務(wù)識(shí)別操作。在模式發(fā)現(xiàn)階段的聚類操作中,改進(jìn)了基于相似性計(jì)算的聚類算法,突出了單個(gè)事務(wù)和事務(wù)分組之間的相似性計(jì)算,使得聚類結(jié)果之間差異性更大,聚類結(jié)果內(nèi)部事務(wù)之間的相似性更強(qiáng)。最后,本文使用模擬站點(diǎn)數(shù)據(jù)對(duì)整個(gè)Web使用挖掘過(guò)程進(jìn)行了驗(yàn)證分析。關(guān)鍵詞:用戶訪問(wèn)模式,Web使用挖掘,數(shù)據(jù)預(yù)處理,Web日志,聚類分析山東科技大學(xué)碩士學(xué)

7、位論文AbstractAbstractWebservicesbringlotsoflogswhichrecordinformationofuserbehavior.Discussesandresearchestheproblemthathowtoextracttheknowledgeautomaticallyandintelligentlyfrommasslogsisthemainlyaspectofwebusagemining.Webusageminingmainlyfocusesonwebusagedata.Thewebu

8、sagedatarecordvisitors’visitinformationonthiswebsite.Wecanobtainthebrowsingbehaviorandvisitinghabitofthesevisitorsbyanalyzingtheweblogs.It

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。