資源描述:
《基于web日志挖掘的聚類算法研究及應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中文圖書分類號:TP391密級:公開UDC:004學(xué)校代碼:10005工程碩士學(xué)位論文M.E.DISSERTATION論文題目基于Web日志挖掘的聚類算法研究:及應(yīng)用論文作者:馬家駿領(lǐng)域:軟件工程指導(dǎo)教師:石宇良教授論文提交日期:2016年6月UDC:004學(xué)校代碼:10005中文圖書分類號:TP391學(xué)號:S201325053密級:公開北京工業(yè)大學(xué)碩士專業(yè)學(xué)位論文(全日制)題目:基于Web日志挖掘的聚類算法研究及應(yīng)用英文題目:RESEARCHANDAPPLICATIONOFCLUSTERINGALGORITHMBASEDONWEBLOGMINING論文作者:馬家駿領(lǐng)域:軟
2、件工程研究方向:信息與服務(wù)工程申請學(xué)位:工程碩士專業(yè)學(xué)位指導(dǎo)教師:石宇良教授所在單位:軟件學(xué)院答辯日期:2016年6月授予學(xué)位單位:北京工業(yè)大學(xué)獨創(chuàng)性聲明本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得北京工業(yè)大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。簽名:馬家駿日期:2016年6月6日關(guān)于論文使用授權(quán)的說明本人完全了解北京工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即
3、:學(xué)校有權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文。(保密的論文在解密后應(yīng)遵守此規(guī)定)簽名:馬家駿日期:2016年6月6日導(dǎo)師簽名:石宇良日期:2016年6月6日摘要摘要當(dāng)前網(wǎng)絡(luò)技術(shù)的發(fā)展中,信息供給與信息獲取的矛盾越發(fā)突出,一方面用戶希望略過大量網(wǎng)絡(luò)冗余信息而直接獲取到所需內(nèi)容,另一方面,網(wǎng)站運營方則致力于發(fā)掘用戶群體的訪問模式,用以調(diào)整站點結(jié)構(gòu)、提供個性化服務(wù)并開展適當(dāng)?shù)纳虅?wù)推廣活動,從而增加網(wǎng)站對用戶的吸引力。而基于Web日志的用戶聚類可以根據(jù)用戶行為對用戶進行聚類,進而分析用戶訪問模式,為
4、問題的解決提供了良好的解決方案。通過閱讀、研究大量相關(guān)文獻資料,本文提出了改進的數(shù)據(jù)預(yù)處理方法獲取用戶事務(wù)來描述用戶訪問行為,提出了一種基于模糊聚類的改進K-Means聚類算法,并設(shè)計實現(xiàn)用戶聚類分析系統(tǒng)對改進算法的有效性進行了驗證。由于日志數(shù)據(jù)質(zhì)量較低,無法直接進行挖掘聚類,所以需要完成數(shù)據(jù)預(yù)處理并獲得適合進行聚類的數(shù)據(jù)形式。在依次完成數(shù)據(jù)清洗、基于多重約束條件的用戶識別和基于相鄰URL訪問時間閾值的會話識別后,針對用戶會話對于聚類來說粒度太粗,以及原有用戶事務(wù)識別對于頁面類型判斷不準(zhǔn)確等問題,提出一種改進的事務(wù)識別算法,進而識別導(dǎo)航頁面及內(nèi)容頁面,同時建立用戶訪問樹并獲
5、取有效用戶事務(wù)為用戶聚類提供了高質(zhì)量的輸入數(shù)據(jù)。接下來,對經(jīng)典聚類算法K-Means進行深入研究,針對算法初始中心點選擇的問題,提出一種基于密度的模糊劃分算法,首先根據(jù)距離完成模糊劃分獲得高密度區(qū)域,接下來基于密度的方法對這些區(qū)域進行合并調(diào)整,最后取各個高密度區(qū)域中適當(dāng)?shù)狞c作為初始聚類中心進行劃分聚類,避免聚類僅得到局部最優(yōu)解,有效降低算法迭代時間,并提高聚類質(zhì)量。最后基于經(jīng)典聚類數(shù)據(jù)集Iris對改進K-Means算法的準(zhǔn)確性進行實驗考證,同時設(shè)計實現(xiàn)了基于Web日志的用戶聚類分析系統(tǒng),選取真實Web日志完成數(shù)據(jù)預(yù)處理及用戶聚類,驗證了改進事務(wù)識別算法及改進K-Means算
6、法的可用性,將理論應(yīng)用于實踐中。關(guān)鍵詞:聚類分析;事務(wù)識別;K-Means;基于密度的模糊劃分-I-AbstractAbstractTheamountofinformationinthenetworkisgrowingatarapidratewiththecontinuousdevelopmentoftheInternet.Thecontradictionbetweeninformationsupplyandinformationacquisitionismoreandmoreprominent.Ontheonehand,alargenumberofuserswanttos
7、kipredundantinformationanddirectaccesstothedesiredcontent.Ontheotherhand,thesiteoperatoriscommittedtoexploretheaccesspatternsofusergroups,toadjustthestructureofthesite,toprovidepersonalizedserviceandcarryouttheappropriatebusinesspromotionactivities,soastoincre