資源描述:
《基于web日志挖掘的用戶訪問興趣研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、有人武基漢于理Web工大日(申請工學(xué)碩士學(xué)位論文)志學(xué)挖掘的用戶訪基于Web日志挖掘的用戶問興趣訪問興趣研究研究趙晶培養(yǎng)單位:計算機(jī)科學(xué)與技術(shù)學(xué)院晶學(xué)科專業(yè):計算機(jī)科學(xué)與技術(shù)研究生:趙晶晶指導(dǎo)老師:譚新明教授武漢理工大學(xué)2014年5月分類號密級萬方數(shù)據(jù)UDC學(xué)校代碼10497學(xué)位論文題目基于Web日志挖掘的用戶訪問興趣研究英文ResearchonUserVisitInterestBasedon題目WebLogMining研究生姓名趙晶晶姓名譚新明職稱教授學(xué)位博士指導(dǎo)教師單位名稱計算機(jī)科學(xué)與技術(shù)學(xué)院郵編430063申請學(xué)位級別碩士學(xué)科專業(yè)名稱計算機(jī)應(yīng)用技術(shù)論文提交日期2014年4月
2、論文答辯日期2014年5月學(xué)位授予單位武漢理工大學(xué)學(xué)位授予日期答辯委員會主席評閱人2014年5月萬方數(shù)據(jù)獨創(chuàng)性聲明本人聲明,所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得武漢理工大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。簽名:日期:學(xué)位論文使用授權(quán)書本人完全了解武漢理工大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱
3、和借閱。本人承諾所提交的學(xué)位論文(含電子學(xué)位論文)為答辯后經(jīng)修改的最終定稿學(xué)位論文,并授權(quán)武漢理工大學(xué)可以將本學(xué)位論文的全部內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或其他復(fù)制手段保存或匯編本學(xué)位論文。同時授權(quán)經(jīng)武漢理工大學(xué)認(rèn)可的國家有關(guān)機(jī)構(gòu)或論文數(shù)據(jù)庫使用或收錄本學(xué)位論文,并向社會公眾提供信息服務(wù)。(保密的論文在解密后應(yīng)遵守此規(guī)定)研究生(簽名):導(dǎo)師(簽名):日期萬方數(shù)據(jù)武漢理工大學(xué)碩士學(xué)位論文摘要隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,網(wǎng)絡(luò)上的信息量已經(jīng)達(dá)到空前的規(guī)模,不論通過計算機(jī)還是手機(jī)人們都可以從網(wǎng)上獲得自己想要的信息。如何從海量數(shù)據(jù)中快速準(zhǔn)確獲得有用的信息以及發(fā)掘其中潛在的有
4、價值的知識和模式,讓互聯(lián)網(wǎng)變得更加智能化,讓人們獲得更好的網(wǎng)絡(luò)體驗,這些成為了互聯(lián)網(wǎng)時代亟待解決的問題。在此背景下Web數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,成為了解決上述難題的有效途徑之一。Web數(shù)據(jù)挖掘主要包括Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web日志挖掘三方面,本文主要研究背景為Web日志挖掘。由于Web日志數(shù)據(jù)具有高維、巨量、半結(jié)構(gòu)或無結(jié)構(gòu)等特性,傳統(tǒng)的數(shù)據(jù)挖掘算法不能很好的滿足性能需求,因此本文將群智能算法中的粒子群算法應(yīng)用到了用戶聚類中,通過實驗驗證了該算法在高維數(shù)據(jù)上的性能優(yōu)于傳統(tǒng)的聚類算法。本文首先研究了經(jīng)典的聚類算法和粒子群優(yōu)化算法的基本原理并比較分析了它們的優(yōu)缺點。其次,針對
5、現(xiàn)有聚類算法中存在的易陷入局部最優(yōu)、高維數(shù)據(jù)上性能不穩(wěn)定等問題,提出了改進(jìn)的基于K-means的粒子群算法,通過定義分散度來確定K-means算法的操作時機(jī),充分利用了K-means算法的局部搜索能力和粒子群聚類算法的全局搜索能力,加快了收斂速度的同時也提高了解的精度。接著本文對粒子群算法中的慣性權(quán)重加以改進(jìn),引入適應(yīng)度方差的概念,使慣性權(quán)重隨適應(yīng)度方差進(jìn)行非線性地自適應(yīng)調(diào)整。為了避免隨機(jī)搜索導(dǎo)致的退化現(xiàn)象,在粒子群中還加入了一定概率的變異操作來降低聚類過早陷入局部最優(yōu)解的可能性。然后,本文由分而治之的思想啟發(fā),構(gòu)建了一種分層的Web日志挖掘方案。在對日志文件進(jìn)行采集、清洗、事務(wù)
6、識別、特征提取等預(yù)處理后,先用本文提出的改進(jìn)算法對日志數(shù)據(jù)進(jìn)行用戶聚類,再使用關(guān)聯(lián)規(guī)則進(jìn)行挖掘用戶訪問模式,減小了關(guān)聯(lián)規(guī)則挖掘的規(guī)模和復(fù)雜度。最后,通過實驗結(jié)果驗證了本文改進(jìn)的算法在普通和高維Web日志數(shù)據(jù)集上都具有聚類正確性高、迭代次數(shù)少、性能穩(wěn)定等優(yōu)勢,并且能夠有效地挖掘出明顯的用戶訪問興趣。關(guān)鍵字:Web日志挖掘,用戶聚類,粒子群算法,自適應(yīng),K-meansI萬方數(shù)據(jù)武漢理工大學(xué)碩士學(xué)位論文AbstractWiththerapiddevelopmentoftheInternettechnology,theamountofinformationontheInternethas
7、reachedanunprecedentedscale.Peoplecangetanyinformationtheywantwhetherfromthecomputerormobilephone.HowtogetmoreusefulinformationquicklyandaccuratelyfromthemassivedataandhowtoexplorethepotentialvaluableknowledgeandpatternstomaketheInternetmorei