資源描述:
《web日志挖掘中的用戶聚類與url聚類》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、Web日志挖掘中的用戶聚類與URL聚類2007年第6期福建電腦15Web日志挖掘中的用戶聚類與URL聚類崔英敏.陳陽(1.私立華聯(lián)學院廣東廣州5106632.廣東輕工職業(yè)技術(shù)學院廣東廣州510300)【摘要】:Web挖掘是目前國內(nèi)外數(shù)據(jù)挖掘研究方向的熱點,根據(jù)其挖掘出潛在而有用的信息將對網(wǎng)站管理者和商家起到很大的指導作用.它應(yīng)用delphi7開發(fā)程序WeblogdigP,實現(xiàn)了web日志挖掘中的用戶聚類和url聚類,為設(shè)計和構(gòu)建智能化電子商務(wù)體系打下很好的基礎(chǔ).【關(guān)鍵詞】:Delphi7數(shù)據(jù)庫編程;sql查詢;數(shù)據(jù)挖掘;日志挖掘l_引言隨
2、著InterYlet的飛速發(fā)展.人們越來越多地從網(wǎng)上獲取信息,進行電子商務(wù)等活動.企業(yè)在互聯(lián)網(wǎng)上開展,傳統(tǒng)的市場營銷策略都紛紛轉(zhuǎn)向Internet.網(wǎng)上的信息資源越來越豐富,web也因此成為Intemet上存儲和發(fā)布信息最普遍的載體.人們從web上獲取信息的模式,獲取信息的類型也就反映了其興趣偏好所在.因此.用戶訪問Web的規(guī)律.成了Internet環(huán)境下各企業(yè)與組織共同關(guān)注的一大熱點.Web挖掘正是通過分析用戶訪問web的規(guī)律.確定用戶的瀏覽的生命周期.針對不同的用戶提供動態(tài)的頁面組織結(jié)構(gòu).實現(xiàn)部分網(wǎng)頁預傳導客戶端.從而提高網(wǎng)站的效率:
3、分析用戶訪問Web的規(guī)律也可以找出如何優(yōu)化一個網(wǎng)站的拓撲結(jié)構(gòu)的策略.人們把數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web上.成為了一項非常熱門的技術(shù)一web挖掘技術(shù).Web日志挖掘是Web挖掘的一類.它是通過挖掘Web日志記錄.來發(fā)現(xiàn)用戶訪問web頁面的模式.通過分析和探究web13志記錄中的規(guī)律,可以識別電子商務(wù)的潛在用戶.增強對最終用戶的因特網(wǎng)信息服務(wù)的質(zhì)量和交付.并改進Web服務(wù)器系統(tǒng)的性能【】1.2.Web日志挖掘研究意義與現(xiàn)狀分析Web13志挖掘在新興的電子商務(wù)領(lǐng)域有重要意義.它通過挖掘相關(guān)的Web13志記錄.來發(fā)現(xiàn)用戶訪問Web頁面的模式和規(guī)律We
4、b使用記錄數(shù)據(jù)除了服務(wù)器的13志記錄外還包括代理服務(wù)器13志,瀏覽器端13志,注冊信息,用戶會話信息,交易信息,Cookie中的信息,用戶查詢,鼠標點擊流等一切用戶與站點之間可能的交互記錄.可見Web使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當豐富.根據(jù)對數(shù)據(jù)源的不同處理方法.Web用法挖掘可以分為兩類.一類是將Web使用記錄的數(shù)據(jù)轉(zhuǎn)換并傳遞進傳統(tǒng)的關(guān)系表里.再使用數(shù)據(jù)挖掘算法對關(guān)系表中的數(shù)據(jù)進行常規(guī)挖掘:另一類是將Ⅳeb使用記錄的數(shù)據(jù)直接預處理再進行挖掘.Web用法挖掘中的一個有趣的問題是在多個用戶使用同一個代理服務(wù)器的環(huán)境下如何標
5、識某個用戶.如何識別屬于該用戶的會話和使用記錄,這個問題看起來不大,但卻在很大程度上影響著挖掘質(zhì)量.所以有人專門在這方面進行了研究.通常來講.經(jīng)典的數(shù)據(jù)挖掘算法都可以直接用到Web用法挖掘上來.但為了提高挖掘質(zhì)量.研究人員在擴展算法上進行了努力,包括復合關(guān)聯(lián)規(guī)則算法,改進的序列發(fā)現(xiàn)算法等.在131中.根據(jù)數(shù)據(jù)來源,數(shù)據(jù)類型,數(shù)據(jù)集合中的用戶數(shù)量,數(shù)據(jù)集合中的服務(wù)器數(shù)量等將Ⅳeb用法挖掘分為以下五類:?個性挖掘:針對單個用戶的使用記錄對該用戶進行建模.結(jié)合該用戶基本信息分析他的使用習慣,個人喜好.目的是在電子商務(wù)環(huán)境下為該用戶提供與眾不同的
6、個性化服務(wù)?系統(tǒng)改進:Web服務(wù)(數(shù)據(jù)庫,網(wǎng)絡(luò)等)的性能和其他服務(wù)質(zhì)量是衡量用戶滿意度的關(guān)鍵指標.Web用法挖掘可以通過用戶的擁塞記錄發(fā)現(xiàn)站點的性能瓶頸.以提示站點管理者改進Web緩存策略,網(wǎng)絡(luò)傳輸策略,流量負載平衡機制和數(shù)據(jù)的分布策略.此外.可以通過分析網(wǎng)絡(luò)的非法入侵數(shù)據(jù)找到系統(tǒng)弱點,提高站點安全性.這在電子商務(wù)環(huán)境下尤為重要.?站點修改:站點的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵.Web用法挖掘通過挖掘用戶的行為記錄和反饋情況為站點設(shè)計者提供改進的依.比如頁面連接情況應(yīng)如何組織,那些頁面應(yīng)能夠直接訪問等.?智能商務(wù):用戶怎樣使用Web站點的信息
7、無疑是電子商務(wù)銷售商關(guān)心的重點.用戶一次訪問的周期可分為被吸引,駐留,購買和離開四個步驟.Ⅳeb用法挖掘可以通過分析用戶點擊流等Web13志信息挖掘用戶行為的動機.以幫助銷售商合理安排銷售策略?Web特征描述:這類研究跟關(guān)注這樣通過用戶對站點的訪問情況統(tǒng)計各個用戶在頁面上的交互情況.對用戶訪問情況進行特征描述.Web日志挖掘雖然是一個很重要的研究領(lǐng)域.但是目前來說真正能提供有價值信息Mining系統(tǒng)并不多.要最終實現(xiàn)從沙子里選出金子的過程.它的研究還有很長的一段路走.?網(wǎng)絡(luò)上的銷售是一場沒有硝煙的戰(zhàn)爭.競爭非常激烈.對于商家和網(wǎng)站管理者來
8、說.如何留住舊的訪問用戶,吸引新用戶.則是一個關(guān)鍵.直接決定著網(wǎng)上商戰(zhàn)的成敗.那么如何做到這一點呢?常用的方法是:開發(fā)具有個性化的用戶界面.3.算法設(shè)計與實現(xiàn)這里提出的解決思路是:利用WEB服