資源描述:
《試析基于web使用挖掘的智能個性化系統(tǒng)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、河北工業(yè)大學(xué)碩士學(xué)位論文基于WEB使用挖掘的智能個性化系統(tǒng)研究姓名:陳美娜申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:彭玉青20040101坷托工業(yè)大學(xué)碩士學(xué)位論文基于WEB使用挖掘的智能個性化系統(tǒng)研究摘要近年來,隨著Interact的飛速發(fā)展,越來越多的研究機構(gòu)、團體以及個人開始注意到網(wǎng)絡(luò),并通過它來發(fā)布信息、查找信息。盡管Internet上有海量的信息,人們還是常常感到不能夠找到自己想要找的信息。于是,人們提出來將數(shù)據(jù)挖掘思想與智能個性化思想結(jié)合來建設(shè)網(wǎng)站的想法。智能個性化網(wǎng)站不但能夠?qū)τ脩艉晚撁孢M(jìn)行聚類操作,還能夠為不同的用戶提供相應(yīng)的服務(wù)。換旬話說,這種兩站可以為用戶提
2、供個性化的服務(wù)。由于Web是一個無結(jié)構(gòu)的動態(tài)的分布式的信息系統(tǒng),直接對它進(jìn)行挖掘是困難的,獲取的知識是不可靠的。然而,Web服務(wù)器的log同志有著完整的結(jié)構(gòu)。所以,我們可以通過對Web同志文件的挖掘來實現(xiàn)智能個性化服務(wù)。本文首先分析了網(wǎng)絡(luò)的現(xiàn)狀,并提出了問題所在。然后介紹了Web挖掘的描述及其意義,以及實現(xiàn)智能個性化預(yù)測服務(wù)所用到的理論基礎(chǔ)。接著,詳細(xì)的描述了本系統(tǒng)的三個處理過程。數(shù)據(jù)預(yù)處理階段。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中的第一步,它主要包括四部分的工作:數(shù)據(jù)收集、數(shù)據(jù)凈化、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約。挖掘算法階段。這部分工作是本文的一個重點。挖掘算法階段使用優(yōu)化的矩陣聚類算法——權(quán)值矩陣
3、聚類算法對用戶群體和頁面進(jìn)行聚類。與普通的矩陣聚類算法相比,權(quán)值矩陣聚類算法將網(wǎng)站訪問頻度作為參數(shù)考慮進(jìn)來提出了一個新的概念——權(quán)值關(guān)聯(lián)矩陣,這是本文的創(chuàng)新點之一,它的優(yōu)點是能夠更準(zhǔn)確的反映網(wǎng)站的訪問情況。模式分析及應(yīng)用階段。本階段將挖掘結(jié)果應(yīng)用到預(yù)測用戶的訪問路徑和新用戶的歸類上,這是本文的另一個重要工作。這里提出了一種新的路徑預(yù)測算法一HCI算法。它的基本思怨是:為當(dāng)前瀏覽頁面的每個鏈接計算出一個分值,分值最大的郎為推薦鏈接。這是本文的另一個創(chuàng)新點。通過與傳統(tǒng)路徑預(yù)測算法的比較,HCI算法的優(yōu)點是:描述用戶的行為更準(zhǔn)確,預(yù)測用戶的瀏覽路徑更簡單方便,預(yù)測命中率較高。對于新的用戶
4、,當(dāng)他們第一次瀏覽網(wǎng)站的時候,通過計算他們和其他用戶的相似度對其進(jìn)行歸類。通過對學(xué)校日志的實踐證明,采用基于改進(jìn)的矩陣聚類算法進(jìn)行挖掘,并將挖掘結(jié)果用于個性化服務(wù)的思想是有效的、可行的。這種實踐為以后將個性化服務(wù)用于電子商務(wù)網(wǎng)站鋪平了道路。關(guān)鍵詞:Web挖掘,Web使用挖掘,個性化,矩陣聚類,路徑預(yù)測苧王坐竺里塑塑塑絲土蘭蘭至筆SY姍MOFIN7I’EI冱甩CTIVEINDI、佃UAⅡoNBASEDoNWEBU&她M田啪阱Gm)day,Interncthasbeendeveloping誦lhincrediblespeed,atsa/netime,moreandmoreinstitu
5、tions,groupsandindividualsissuanceandlookupinformationintheIntemet.AlthoughthereisamassofinformationintheInternet,peoplealwaysfeelthatthey伽’tlookupwhattheywantfind.So,wesupposethereissuchanIIW(intellectiveindividuafionwebsite),whichnotonlyCarlclusterusersandwebpages,butalsocmprovidedifferentse
6、rvicesfordifferentusers.Inanotherword,thewebsitemayrealizeindividuationservices.Becauseweb'isunstructuredanddynamic,wecan’tminethewebdirectly.Tooursurprise,Weblogfilehasintegratedstructure.SowedecidetorealizeRWbyminingWeblogmining.Thethesisanalysestheactualstate’ofInteractatfirst,andproposesth
7、eproblem.ThenthethesisintroducesWebMiningandthebasistheoryoffulfillingIlW.Subsequently,thethesisbringsforwardthesystemstxucture.Datapreprocessingphase.Thisphaseisthefirsttask,whichincludesdataready,datarefining,datatransforming,dataindu