資源描述:
《基于聚類分析的用戶訪問模式挖掘算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、分類號:G350密級:公開UDC:單位代碼:10424學位論文基于聚類分析的用戶訪問模式挖掘算法研究賈斌申請學位級別:碩士學位專業(yè)名稱:情報學指導教師姓名:徐建國職稱:副教授山東科技大學二零一二年五月論文題目:基于聚類分析的用戶訪問模式挖掘算法研究作者姓名:賈斌入學時間:2009年9月專業(yè)名稱:情報學研究方向:信息系統(tǒng)工程指導教師:徐建國職稱:副教授論文提交日期:2012年5月論文答辯日期:2012年6月授予學位日期:STUDYOFUSERACCESSPATTERNSMININGALGORITHMBASEDONCLUSTERA
2、NALYSISADissertationsubmittedinfulfillmentoftherequirementsofthedegreeofMASTEROFMANAGEMENTfromShandongUniversityofScienceandTechnologybyJiaBinSupervisor:AssociateProfessorXuJianguoCollegeofInformationScienceandEngineeringMay2012聲明本人呈交給山東科技大學的這篇碩士學位論文,除了所列參考文獻和世所公認的文
3、獻外,全部是本人在導師指導下的研究成果。該論文資料尚沒有呈交于其它任何學術機關作鑒定。碩士生簽名:日期:AFFIRMATIONIdeclarethatthisdissertation,submittedinfulfillmentoftherequirementsfortheawardofMasterofManagementinShandongUniversityofScienceandTechnology,iswhollymyownworkunlessreferencedofacknowledge.Thedocumenthas
4、notbeensubmittedforqualificationatanyotheracademicinstitute.Signature:Date:山東科技大學碩士學位論文摘要摘要Web服務產(chǎn)生了大量的日志數(shù)據(jù),這些數(shù)據(jù)記錄了用戶的行為信息。如何從海量的日志數(shù)據(jù)中自動、智能地抽取隱藏于其中的知識,這是Web使用挖掘要研究的問題。Web使用挖掘的研究對象是Web日志數(shù)據(jù)。Web日志數(shù)據(jù)記錄了用戶對Web站點的訪問信息,對這些信息進行分析可以發(fā)現(xiàn)用戶訪問站點的瀏覽模式和訪問習慣,可幫助實現(xiàn)網(wǎng)頁的預存取和緩存;對于頁面重組、優(yōu)化網(wǎng)
5、站的結構等方面都具有十分重要的意義。本文對Web使用挖掘的聚類分析算法進行了研究,目的是通過對Web使用挖掘數(shù)據(jù)的事務數(shù)據(jù)進行挖掘操作來分析用戶訪問事務的模式特征,為網(wǎng)站管理者對Web站點的結構改進、網(wǎng)站個性化服務、網(wǎng)站電子商務的策劃等方面提供決策支持信息。本文以Web服務器日志數(shù)據(jù)作為研究對象,網(wǎng)頁內容數(shù)據(jù)、站點結構數(shù)據(jù)以及網(wǎng)站用戶注冊信息等數(shù)據(jù)作為參考信息,從數(shù)據(jù)采集、數(shù)據(jù)預處理、模式發(fā)現(xiàn)四個階段來實現(xiàn)了用戶事務的挖掘,最后得到具有用戶訪問特征的事務聚類結果。本文為了獲取更加具有用戶訪問特征的事務數(shù)據(jù)聚類結果,在數(shù)據(jù)預處理
6、的用戶識別階段只采用能完全確定用戶的用戶注冊信息和Web日志上的客戶端IP來獲取用戶信息,放棄了采集不穩(wěn)定的cookie用戶信息。在數(shù)據(jù)預處理的事務識別階段,綜合使用了最大前向序列法和時間窗口法來進行事務識別操作。在模式發(fā)現(xiàn)階段的聚類操作中,改進了基于相似性計算的聚類算法,突出了單個事務和事務分組之間的相似性計算,使得聚類結果之間差異性更大,聚類結果內部事務之間的相似性更強。最后,本文使用模擬站點數(shù)據(jù)對整個Web使用挖掘過程進行了驗證分析。關鍵詞:用戶訪問模式,Web使用挖掘,數(shù)據(jù)預處理,Web日志,聚類分析山東科技大學碩士學
7、位論文AbstractAbstractWebservicesbringlotsoflogswhichrecordinformationofuserbehavior.Discussesandresearchestheproblemthathowtoextracttheknowledgeautomaticallyandintelligentlyfrommasslogsisthemainlyaspectofwebusagemining.Webusageminingmainlyfocusesonwebusagedata.Thewebu
8、sagedatarecordvisitors’visitinformationonthiswebsite.Wecanobtainthebrowsingbehaviorandvisitinghabitofthesevisitorsbyanalyzingtheweblogs.It