資源描述:
《基于Web日志挖掘的用戶聚類研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、代號(hào)107011070110701學(xué)號(hào)0700700700070000040017040017040017040017分類號(hào)TP311TP311.13TP311.13.13.13密級(jí)公開(kāi)題(((中(中中中、、、、英文英文)))目基于WebWeb日志挖掘的用戶聚類研究Web日志挖掘的用戶聚類研究ResearchResearchResearchononononUsersClusteringBasedoUsersClusteringBasedoUsersClusteringBasedonWebLogMUsersClusteringBasedonWebLogMnWebLogMin
2、nWebLogMininininging作者姓名牛曉晨指導(dǎo)教師姓名、、職務(wù)、職務(wù)姜建國(guó)教授學(xué)科門類工學(xué)學(xué)科、、專業(yè)、專業(yè)計(jì)算機(jī)應(yīng)用技術(shù)提交論文日期二二二○○○一一年六六六月月月九九九日日日西安電子科技大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明秉承學(xué)校嚴(yán)謹(jǐn)?shù)膶W(xué)風(fēng)和優(yōu)良的科學(xué)道德,本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果;也不包含為獲得西安電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中做了明確的說(shuō)明并表示了
3、謝意。申請(qǐng)學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切法律責(zé)任。本人簽名:日期西安電子科技大學(xué)關(guān)于論文使用授權(quán)的說(shuō)明本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬西安電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存論文。同時(shí)本人保證,畢業(yè)后結(jié)合學(xué)位論文研究課題再撰寫(xiě)的文章一律署名單位為西安電子科技大學(xué)。(保密的論文在解密后遵守此規(guī)定)本學(xué)位論文屬于保密,在年解密后適用本授權(quán)書(shū)。本人簽名:日期導(dǎo)師簽名:日期摘要隨著Interne
4、t的不斷發(fā)展,信息快速增長(zhǎng)與人們注意力有限的矛盾在不斷增加,而Web日志挖掘正是解決這一矛盾的有效手段。日志文件記錄了用戶的地址、訪問(wèn)時(shí)間、方法、網(wǎng)頁(yè)和頁(yè)面信息大小等訪問(wèn)信息和交互信息。利用Web日志挖掘技術(shù)對(duì)日志文件進(jìn)行挖掘可以發(fā)現(xiàn)用戶訪問(wèn)網(wǎng)站的瀏覽模式及網(wǎng)站頁(yè)面之間的關(guān)系,為用戶個(gè)性化服務(wù)以及頁(yè)面改造和網(wǎng)站整體架構(gòu)優(yōu)化提供有益的指導(dǎo)。本文對(duì)Web日志挖掘的基本理論和挖掘中使用的模糊聚類算法進(jìn)行了深入研究,對(duì)其中存在的問(wèn)題提出了新的見(jiàn)解和改進(jìn),主要?jiǎng)?chuàng)新點(diǎn)與改進(jìn)內(nèi)容如下:(1)數(shù)據(jù)預(yù)處理在Web日志挖掘過(guò)程中起著至關(guān)重要的作用,是為數(shù)據(jù)挖掘算法提供有效輸入和獲取有價(jià)值的挖
5、掘結(jié)果的前提條件。而數(shù)據(jù)預(yù)處理階段的一個(gè)關(guān)鍵問(wèn)題就是如何獲取網(wǎng)站拓?fù)浣Y(jié)構(gòu),本文提出了一種通過(guò)Web服務(wù)器的日志文件來(lái)獲取網(wǎng)站拓?fù)浣Y(jié)構(gòu)的新方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了新方法的有效性和準(zhǔn)確性。(2)用戶訪問(wèn)路徑是Web用戶聚類時(shí)度量用戶興趣度的參數(shù)之一,針對(duì)目前訪問(wèn)路徑興趣度表示的不足,本文結(jié)合日志記錄的特點(diǎn),從參數(shù)的數(shù)學(xué)特征出發(fā),設(shè)計(jì)了一種基于二進(jìn)制數(shù)表示的訪問(wèn)路徑矩陣來(lái)度量用戶的興趣度,并給出了新的相異度矩陣的構(gòu)造方法。實(shí)驗(yàn)表明,本文提出的訪問(wèn)路徑矩陣是可行的,生成的相異度矩陣在表現(xiàn)用戶訪問(wèn)路徑差異上是準(zhǔn)確的。(3)本文研究分析了數(shù)據(jù)挖掘中的模糊C-均值聚類算法(FCM)。針對(duì)
6、算法中初始聚類中心選取的隨機(jī)性導(dǎo)致聚類正確性與效率下降的問(wèn)題,結(jié)合相異度矩陣,提出了一種改進(jìn)的模糊C-均值聚類算法對(duì)Web用戶進(jìn)行聚類。通過(guò)實(shí)驗(yàn)分析,驗(yàn)證了改進(jìn)的FCM算法的可行性和正確性。本文提出的新方法和改進(jìn)的算法具有較好的實(shí)用性,下一步的研究?jī)?nèi)容將是設(shè)計(jì)高效的基于Web日志的數(shù)據(jù)挖掘系統(tǒng),同時(shí)找出閾值與最佳聚類數(shù)之間的對(duì)應(yīng)關(guān)系。關(guān)鍵詞:Web日志挖掘拓?fù)浣Y(jié)構(gòu)訪問(wèn)路徑矩陣Web用戶聚類模糊C均值A(chǔ)BSTRACTWiththedevelopmentoftheInternet,thecontradictionbetweenrapidgrowthoftheinformati
7、onandthepeople’slimitedattentionisunceasinglyincreasing,buttheweblogminingisaneffectivemeanstosolveit.Webserversregisteralogentryforeverysingleaccesstheyget,inwhichimportantinformationaboutaccessingarerecorded,includingIPaddresses,dateandtimestamp,method,URLrequeste