web挖掘技術(shù)在個性化網(wǎng)站中的應(yīng)用

ID：34511022

大?。?54.12 KB

頁數(shù)：6頁

時間：2019-03-07

資源描述：

《web挖掘技術(shù)在個性化網(wǎng)站中的應(yīng)用》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、http://www.paper.edu.cnWeb挖掘技術(shù)在個性化網(wǎng)站中的應(yīng)用富麗娜大連理工大學(xué)軟件學(xué)院，遼寧大連（116023）E-mail：forevermonica@gmail.com摘要：針對用戶特性向用戶提供個性化服務(wù)已經(jīng)成為Web技術(shù)的研究熱點(diǎn)。本文介紹了Web挖掘和個性化服務(wù)的相關(guān)概念，重點(diǎn)介紹了Web使用挖掘基本流程，通過一個實(shí)例分析闡述Web挖掘技術(shù)在個性化網(wǎng)站中的應(yīng)用。關(guān)鍵詞：Web挖據(jù)，Web使用挖掘，個性化中圖分類號：TP393.41.引言隨著Internet的飛速發(fā)展,它已成為人們獲取信息的一個重要途徑,面對豐富的信息內(nèi)容、巨大的數(shù)據(jù)量，

2、迫切需要一種新的技術(shù)來幫助人們查找所需信息，完成信息的主動推薦。個性化服務(wù)技術(shù)就是針對這個問題提出的，通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為,從而實(shí)現(xiàn)主動推薦的目的。在網(wǎng)上銷售系統(tǒng)中,根據(jù)數(shù)據(jù)挖掘思想和方法，利用Web數(shù)據(jù)挖掘技術(shù),通過發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息和用戶的行為模式，可了解不同客戶的需求,根據(jù)客戶的興趣所在實(shí)現(xiàn)個性化服務(wù),對網(wǎng)站實(shí)現(xiàn)高效管理、提高商業(yè)網(wǎng)站使用效率、實(shí)現(xiàn)個性化的信息推送服務(wù)都有著重要的意義。本文重點(diǎn)介紹個性化服務(wù)技術(shù)、Web挖掘技術(shù)及其在商業(yè)網(wǎng)站中的應(yīng)用。2.Web數(shù)據(jù)挖掘2.1Web挖掘的基本概念[1]數(shù)據(jù)挖掘是指使用算法來抽取信息

3、和模式，是知識發(fā)現(xiàn)中的一個很重要的步驟，也是信息技術(shù)領(lǐng)域中最熱門的話題之一。Web數(shù)據(jù)挖掘簡稱Web挖掘,是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用。Web挖掘是指從大量的Web文檔集合中發(fā)現(xiàn)蘊(yùn)含的、未知的、有潛在應(yīng)用價值的、非平凡的模式的過程。Web挖掘是一個極具挑戰(zhàn)性的課題,它實(shí)現(xiàn)對Web存取模式、[2]Web結(jié)構(gòu)和規(guī)則、以及動態(tài)的Web內(nèi)容的查找。2.2Web挖掘面臨的問題由于Web上信息的特點(diǎn),對Web進(jìn)行有效的信息挖掘、抽取和發(fā)現(xiàn)有用的信息具有很大的挑戰(zhàn),同時也面臨很多的問題:⑴由于傳統(tǒng)的基于關(guān)鍵字檢索的搜索引擎方式的局限,再加上網(wǎng)頁自身的結(jié)構(gòu)特征,使得Web挖掘

4、比傳統(tǒng)的數(shù)據(jù)挖掘更加復(fù)雜。⑵Web文檔無分類索引,無任何的排列次序。半結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜程度要高于普通的文本文檔,數(shù)據(jù)結(jié)構(gòu)隱含模式的信息量大,模式變化快,增加了Web挖掘的困難程度。⑶對有用的信息還停留在利用各種搜索引擎進(jìn)行查找,導(dǎo)致了檢索結(jié)果質(zhì)量差、召回率和準(zhǔn)確率低,且更新周期長。⑷Web是異質(zhì)、分布、動態(tài)的信息源。數(shù)據(jù)更新快,無固定的模式,現(xiàn)有的搜索引擎不能發(fā)現(xiàn)未知信息和有用的模式,網(wǎng)絡(luò)信息的利用率低。⑸不能為用戶提供個性化的信息檢索和查詢服務(wù)。-1-http://www.paper.edu.cn2.3Web挖掘的分類一般而言,Web挖掘可分為三類:Web內(nèi)容挖掘

5、、Web結(jié)構(gòu)挖掘和Web使用挖掘。圖1[3]給出了Web挖掘的分類。Web挖據(jù)Web內(nèi)容挖據(jù)Web結(jié)構(gòu)挖據(jù)Web使用挖據(jù)Web頁面搜索結(jié)果一般訪問定制的使用內(nèi)容挖掘挖據(jù)模式追蹤模式追蹤圖1Web挖據(jù)的分類2.3.1Web內(nèi)容挖掘(WebContentMining)Web內(nèi)容挖據(jù)是一種基于網(wǎng)頁內(nèi)容的挖據(jù)。是從大量的Web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。這些數(shù)據(jù)既有來自于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)，也有用HTML標(biāo)記的半結(jié)構(gòu)化數(shù)據(jù)[4]和無結(jié)構(gòu)的自由文本。對無結(jié)構(gòu)的自由文本的挖掘稱之為文本的知識發(fā)現(xiàn)。對多媒體文檔[5]的挖掘稱之為多媒體數(shù)據(jù)挖掘。Web內(nèi)容挖掘有兩種策略:直接挖

6、掘文件的內(nèi)容,或在其他工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采取第一種策略的有鎖定網(wǎng)絡(luò)的查詢語言WebLog、WebSQL等,利用啟發(fā)式規(guī)則來尋找個人主頁信息的Ahoy等。采取第二種策略的方法主要是對查找引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理,以得到較為精確和有用的信息。屬于該類的有WebSQL及對查找引擎的返回結(jié)果進(jìn)行群集的技術(shù)等。2.3.2Web結(jié)構(gòu)挖掘(WebStructureMining)Web數(shù)據(jù)不同于文本和數(shù)據(jù)庫,有用的知識不僅包含在Web頁面內(nèi)容中,還包含在Web頁面間的鏈接結(jié)構(gòu)與Web頁文檔內(nèi)部的結(jié)構(gòu)之中。Web結(jié)構(gòu)挖掘的目的是發(fā)現(xiàn)頁面的結(jié)構(gòu)和Web結(jié)構(gòu),并在此基礎(chǔ)上對

7、頁面進(jìn)行分類和聚類,揭示蘊(yùn)含在這些文檔結(jié)構(gòu)中的有用模式,從而找到權(quán)威頁面。2.3.3Web使用挖掘(WebUsageMining)Web使用挖掘是通過挖掘Web日至記錄以發(fā)現(xiàn)用戶訪問Web頁面的模式、挖掘有用模[6]式和預(yù)測用戶瀏覽行為的技術(shù)。雖然WWW是一個復(fù)雜的、異質(zhì)的、動態(tài)的和龐大的信息源，但每個Web服務(wù)器都保留了用戶訪問的具有較好結(jié)構(gòu)的日志文件,記錄了關(guān)于客戶查找和互動的信息。分析這些信息可以幫助了解客戶的行為從而改進(jìn)網(wǎng)站的結(jié)構(gòu),或?yàn)榭蛻籼峁﹤€性化的服務(wù)。一般模式追蹤,通過分析使用記錄來了解客戶的查找模式和傾向,以改進(jìn)網(wǎng)站的組織結(jié)構(gòu)。而個人使用模式追蹤

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 6



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

web挖掘技術(shù)在個性化網(wǎng)站中的應(yīng)用

web挖掘技術(shù)在個性化網(wǎng)站中的應(yīng)用

相關(guān)文章

相關(guān)標(biāo)簽