資源描述:
《web挖掘技術(shù)在個性化網(wǎng)站中的應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、http://www.paper.edu.cnWeb挖掘技術(shù)在個性化網(wǎng)站中的應(yīng)用富麗娜大連理工大學(xué)軟件學(xué)院,遼寧大連(116023)E-mail:forevermonica@gmail.com摘要:針對用戶特性向用戶提供個性化服務(wù)已經(jīng)成為Web技術(shù)的研究熱點(diǎn)。本文介紹了Web挖掘和個性化服務(wù)的相關(guān)概念,重點(diǎn)介紹了Web使用挖掘基本流程,通過一個實(shí)例分析闡述Web挖掘技術(shù)在個性化網(wǎng)站中的應(yīng)用。關(guān)鍵詞:Web挖據(jù),Web使用挖掘,個性化中圖分類號:TP393.41.引言隨著Internet的飛速發(fā)展,它已成為人們獲取信息的一個重要途徑,面對豐富的信息內(nèi)容、巨大的數(shù)據(jù)量,
2、迫切需要一種新的技術(shù)來幫助人們查找所需信息,完成信息的主動推薦。個性化服務(wù)技術(shù)就是針對這個問題提出的,通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為,從而實(shí)現(xiàn)主動推薦的目的。在網(wǎng)上銷售系統(tǒng)中,根據(jù)數(shù)據(jù)挖掘思想和方法,利用Web數(shù)據(jù)挖掘技術(shù),通過發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息和用戶的行為模式,可了解不同客戶的需求,根據(jù)客戶的興趣所在實(shí)現(xiàn)個性化服務(wù),對網(wǎng)站實(shí)現(xiàn)高效管理、提高商業(yè)網(wǎng)站使用效率、實(shí)現(xiàn)個性化的信息推送服務(wù)都有著重要的意義。本文重點(diǎn)介紹個性化服務(wù)技術(shù)、Web挖掘技術(shù)及其在商業(yè)網(wǎng)站中的應(yīng)用。2.Web數(shù)據(jù)挖掘2.1Web挖掘的基本概念[1]數(shù)據(jù)挖掘是指使用算法來抽取信息
3、和模式,是知識發(fā)現(xiàn)中的一個很重要的步驟,也是信息技術(shù)領(lǐng)域中最熱門的話題之一。Web數(shù)據(jù)挖掘簡稱Web挖掘,是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用。Web挖掘是指從大量的Web文檔集合中發(fā)現(xiàn)蘊(yùn)含的、未知的、有潛在應(yīng)用價值的、非平凡的模式的過程。Web挖掘是一個極具挑戰(zhàn)性的課題,它實(shí)現(xiàn)對Web存取模式、[2]Web結(jié)構(gòu)和規(guī)則、以及動態(tài)的Web內(nèi)容的查找。2.2Web挖掘面臨的問題由于Web上信息的特點(diǎn),對Web進(jìn)行有效的信息挖掘、抽取和發(fā)現(xiàn)有用的信息具有很大的挑戰(zhàn),同時也面臨很多的問題:⑴由于傳統(tǒng)的基于關(guān)鍵字檢索的搜索引擎方式的局限,再加上網(wǎng)頁自身的結(jié)構(gòu)特征,使得Web挖掘
4、比傳統(tǒng)的數(shù)據(jù)挖掘更加復(fù)雜。⑵Web文檔無分類索引,無任何的排列次序。半結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜程度要高于普通的文本文檔,數(shù)據(jù)結(jié)構(gòu)隱含模式的信息量大,模式變化快,增加了Web挖掘的困難程度。⑶對有用的信息還停留在利用各種搜索引擎進(jìn)行查找,導(dǎo)致了檢索結(jié)果質(zhì)量差、召回率和準(zhǔn)確率低,且更新周期長。⑷Web是異質(zhì)、分布、動態(tài)的信息源。數(shù)據(jù)更新快,無固定的模式,現(xiàn)有的搜索引擎不能發(fā)現(xiàn)未知信息和有用的模式,網(wǎng)絡(luò)信息的利用率低。⑸不能為用戶提供個性化的信息檢索和查詢服務(wù)。-1-http://www.paper.edu.cn2.3Web挖掘的分類一般而言,Web挖掘可分為三類:Web內(nèi)容挖掘
5、、Web結(jié)構(gòu)挖掘和Web使用挖掘。圖1[3]給出了Web挖掘的分類。Web挖據(jù)Web內(nèi)容挖據(jù)Web結(jié)構(gòu)挖據(jù)Web使用挖據(jù)Web頁面搜索結(jié)果一般訪問定制的使用內(nèi)容挖掘挖據(jù)模式追蹤模式追蹤圖1Web挖據(jù)的分類2.3.1Web內(nèi)容挖掘(WebContentMining)Web內(nèi)容挖據(jù)是一種基于網(wǎng)頁內(nèi)容的挖據(jù)。是從大量的Web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。這些數(shù)據(jù)既有來自于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),也有用HTML標(biāo)記的半結(jié)構(gòu)化數(shù)據(jù)[4]和無結(jié)構(gòu)的自由文本。對無結(jié)構(gòu)的自由文本的挖掘稱之為文本的知識發(fā)現(xiàn)。對多媒體文檔[5]的挖掘稱之為多媒體數(shù)據(jù)挖掘。Web內(nèi)容挖掘有兩種策略:直接挖
6、掘文件的內(nèi)容,或在其他工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采取第一種策略的有鎖定網(wǎng)絡(luò)的查詢語言WebLog、WebSQL等,利用啟發(fā)式規(guī)則來尋找個人主頁信息的Ahoy等。采取第二種策略的方法主要是對查找引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理,以得到較為精確和有用的信息。屬于該類的有WebSQL及對查找引擎的返回結(jié)果進(jìn)行群集的技術(shù)等。2.3.2Web結(jié)構(gòu)挖掘(WebStructureMining)Web數(shù)據(jù)不同于文本和數(shù)據(jù)庫,有用的知識不僅包含在Web頁面內(nèi)容中,還包含在Web頁面間的鏈接結(jié)構(gòu)與Web頁文檔內(nèi)部的結(jié)構(gòu)之中。Web結(jié)構(gòu)挖掘的目的是發(fā)現(xiàn)頁面的結(jié)構(gòu)和Web結(jié)構(gòu),并在此基礎(chǔ)上對
7、頁面進(jìn)行分類和聚類,揭示蘊(yùn)含在這些文檔結(jié)構(gòu)中的有用模式,從而找到權(quán)威頁面。2.3.3Web使用挖掘(WebUsageMining)Web使用挖掘是通過挖掘Web日至記錄以發(fā)現(xiàn)用戶訪問Web頁面的模式、挖掘有用模[6]式和預(yù)測用戶瀏覽行為的技術(shù)。雖然WWW是一個復(fù)雜的、異質(zhì)的、動態(tài)的和龐大的信息源,但每個Web服務(wù)器都保留了用戶訪問的具有較好結(jié)構(gòu)的日志文件,記錄了關(guān)于客戶查找和互動的信息。分析這些信息可以幫助了解客戶的行為從而改進(jìn)網(wǎng)站的結(jié)構(gòu),或?yàn)榭蛻籼峁﹤€性化的服務(wù)。一般模式追蹤,通過分析使用記錄來了解客戶的查找模式和傾向,以改進(jìn)網(wǎng)站的組織結(jié)構(gòu)。而個人使用模式追蹤