資源描述:
《web日志挖掘中的用戶聚類與url聚類》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、Web日志挖掘中的用戶聚類與URL聚類2007年第6期福建電腦15Web日志挖掘中的用戶聚類與URL聚類崔英敏.陳陽(yáng)(1.私立華聯(lián)學(xué)院廣東廣州5106632.廣東輕工職業(yè)技術(shù)學(xué)院廣東廣州510300)【摘要】:Web挖掘是目前國(guó)內(nèi)外數(shù)據(jù)挖掘研究方向的熱點(diǎn),根據(jù)其挖掘出潛在而有用的信息將對(duì)網(wǎng)站管理者和商家起到很大的指導(dǎo)作用.它應(yīng)用delphi7開(kāi)發(fā)程序WeblogdigP,實(shí)現(xiàn)了web日志挖掘中的用戶聚類和url聚類,為設(shè)計(jì)和構(gòu)建智能化電子商務(wù)體系打下很好的基礎(chǔ).【關(guān)鍵詞】:Delphi7數(shù)據(jù)庫(kù)編程;sql查詢;數(shù)據(jù)挖掘;日志挖掘l_引言隨
2、著InterYlet的飛速發(fā)展.人們?cè)絹?lái)越多地從網(wǎng)上獲取信息,進(jìn)行電子商務(wù)等活動(dòng).企業(yè)在互聯(lián)網(wǎng)上開(kāi)展,傳統(tǒng)的市場(chǎng)營(yíng)銷策略都紛紛轉(zhuǎn)向Internet.網(wǎng)上的信息資源越來(lái)越豐富,web也因此成為Intemet上存儲(chǔ)和發(fā)布信息最普遍的載體.人們從web上獲取信息的模式,獲取信息的類型也就反映了其興趣偏好所在.因此.用戶訪問(wèn)Web的規(guī)律.成了Internet環(huán)境下各企業(yè)與組織共同關(guān)注的一大熱點(diǎn).Web挖掘正是通過(guò)分析用戶訪問(wèn)web的規(guī)律.確定用戶的瀏覽的生命周期.針對(duì)不同的用戶提供動(dòng)態(tài)的頁(yè)面組織結(jié)構(gòu).實(shí)現(xiàn)部分網(wǎng)頁(yè)預(yù)傳導(dǎo)客戶端.從而提高網(wǎng)站的效率:
3、分析用戶訪問(wèn)Web的規(guī)律也可以找出如何優(yōu)化一個(gè)網(wǎng)站的拓?fù)浣Y(jié)構(gòu)的策略.人們把數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web上.成為了一項(xiàng)非常熱門(mén)的技術(shù)一web挖掘技術(shù).Web日志挖掘是Web挖掘的一類.它是通過(guò)挖掘Web日志記錄.來(lái)發(fā)現(xiàn)用戶訪問(wèn)web頁(yè)面的模式.通過(guò)分析和探究web13志記錄中的規(guī)律,可以識(shí)別電子商務(wù)的潛在用戶.增強(qiáng)對(duì)最終用戶的因特網(wǎng)信息服務(wù)的質(zhì)量和交付.并改進(jìn)Web服務(wù)器系統(tǒng)的性能【】1.2.Web日志挖掘研究意義與現(xiàn)狀分析Web13志挖掘在新興的電子商務(wù)領(lǐng)域有重要意義.它通過(guò)挖掘相關(guān)的Web13志記錄.來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式和規(guī)律We
4、b使用記錄數(shù)據(jù)除了服務(wù)器的13志記錄外還包括代理服務(wù)器13志,瀏覽器端13志,注冊(cè)信息,用戶會(huì)話信息,交易信息,Cookie中的信息,用戶查詢,鼠標(biāo)點(diǎn)擊流等一切用戶與站點(diǎn)之間可能的交互記錄.可見(jiàn)Web使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當(dāng)豐富.根據(jù)對(duì)數(shù)據(jù)源的不同處理方法.Web用法挖掘可以分為兩類.一類是將Web使用記錄的數(shù)據(jù)轉(zhuǎn)換并傳遞進(jìn)傳統(tǒng)的關(guān)系表里.再使用數(shù)據(jù)挖掘算法對(duì)關(guān)系表中的數(shù)據(jù)進(jìn)行常規(guī)挖掘:另一類是將Ⅳeb使用記錄的數(shù)據(jù)直接預(yù)處理再進(jìn)行挖掘.Web用法挖掘中的一個(gè)有趣的問(wèn)題是在多個(gè)用戶使用同一個(gè)代理服務(wù)器的環(huán)境下如何標(biāo)
5、識(shí)某個(gè)用戶.如何識(shí)別屬于該用戶的會(huì)話和使用記錄,這個(gè)問(wèn)題看起來(lái)不大,但卻在很大程度上影響著挖掘質(zhì)量.所以有人專門(mén)在這方面進(jìn)行了研究.通常來(lái)講.經(jīng)典的數(shù)據(jù)挖掘算法都可以直接用到Web用法挖掘上來(lái).但為了提高挖掘質(zhì)量.研究人員在擴(kuò)展算法上進(jìn)行了努力,包括復(fù)合關(guān)聯(lián)規(guī)則算法,改進(jìn)的序列發(fā)現(xiàn)算法等.在131中.根據(jù)數(shù)據(jù)來(lái)源,數(shù)據(jù)類型,數(shù)據(jù)集合中的用戶數(shù)量,數(shù)據(jù)集合中的服務(wù)器數(shù)量等將Ⅳeb用法挖掘分為以下五類:?個(gè)性挖掘:針對(duì)單個(gè)用戶的使用記錄對(duì)該用戶進(jìn)行建模.結(jié)合該用戶基本信息分析他的使用習(xí)慣,個(gè)人喜好.目的是在電子商務(wù)環(huán)境下為該用戶提供與眾不同的
6、個(gè)性化服務(wù)?系統(tǒng)改進(jìn):Web服務(wù)(數(shù)據(jù)庫(kù),網(wǎng)絡(luò)等)的性能和其他服務(wù)質(zhì)量是衡量用戶滿意度的關(guān)鍵指標(biāo).Web用法挖掘可以通過(guò)用戶的擁塞記錄發(fā)現(xiàn)站點(diǎn)的性能瓶頸.以提示站點(diǎn)管理者改進(jìn)Web緩存策略,網(wǎng)絡(luò)傳輸策略,流量負(fù)載平衡機(jī)制和數(shù)據(jù)的分布策略.此外.可以通過(guò)分析網(wǎng)絡(luò)的非法入侵?jǐn)?shù)據(jù)找到系統(tǒng)弱點(diǎn),提高站點(diǎn)安全性.這在電子商務(wù)環(huán)境下尤為重要.?站點(diǎn)修改:站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵.Web用法挖掘通過(guò)挖掘用戶的行為記錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依.比如頁(yè)面連接情況應(yīng)如何組織,那些頁(yè)面應(yīng)能夠直接訪問(wèn)等.?智能商務(wù):用戶怎樣使用Web站點(diǎn)的信息
7、無(wú)疑是電子商務(wù)銷售商關(guān)心的重點(diǎn).用戶一次訪問(wèn)的周期可分為被吸引,駐留,購(gòu)買(mǎi)和離開(kāi)四個(gè)步驟.Ⅳeb用法挖掘可以通過(guò)分析用戶點(diǎn)擊流等Web13志信息挖掘用戶行為的動(dòng)機(jī).以幫助銷售商合理安排銷售策略?Web特征描述:這類研究跟關(guān)注這樣通過(guò)用戶對(duì)站點(diǎn)的訪問(wèn)情況統(tǒng)計(jì)各個(gè)用戶在頁(yè)面上的交互情況.對(duì)用戶訪問(wèn)情況進(jìn)行特征描述.Web日志挖掘雖然是一個(gè)很重要的研究領(lǐng)域.但是目前來(lái)說(shuō)真正能提供有價(jià)值信息Mining系統(tǒng)并不多.要最終實(shí)現(xiàn)從沙子里選出金子的過(guò)程.它的研究還有很長(zhǎng)的一段路走.?網(wǎng)絡(luò)上的銷售是一場(chǎng)沒(méi)有硝煙的戰(zhàn)爭(zhēng).競(jìng)爭(zhēng)非常激烈.對(duì)于商家和網(wǎng)站管理者來(lái)
8、說(shuō).如何留住舊的訪問(wèn)用戶,吸引新用戶.則是一個(gè)關(guān)鍵.直接決定著網(wǎng)上商戰(zhàn)的成敗.那么如何做到這一點(diǎn)呢?常用的方法是:開(kāi)發(fā)具有個(gè)性化的用戶界面.3.算法設(shè)計(jì)與實(shí)現(xiàn)這里提出的解決思路是:利用WEB服