web數(shù)據(jù)挖掘現(xiàn)狀分析論文

web數(shù)據(jù)挖掘現(xiàn)狀分析論文

ID:25083686

大?。?3.00 KB

頁數(shù):6頁

時間:2018-11-18

web數(shù)據(jù)挖掘現(xiàn)狀分析論文_第1頁
web數(shù)據(jù)挖掘現(xiàn)狀分析論文_第2頁
web數(shù)據(jù)挖掘現(xiàn)狀分析論文_第3頁
web數(shù)據(jù)挖掘現(xiàn)狀分析論文_第4頁
web數(shù)據(jù)挖掘現(xiàn)狀分析論文_第5頁
資源描述:

《web數(shù)據(jù)挖掘現(xiàn)狀分析論文》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在工程資料-天天文庫。

1、Web數(shù)據(jù)挖掘現(xiàn)狀分析論文ining,DM)是指從大量數(shù)據(jù)中提取或“挖掘”知識,即從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘知識的過程。隨著以數(shù)據(jù)庫、數(shù)據(jù)倉庫等數(shù)據(jù)倉儲技術為基礎的信息系統(tǒng)在各行各業(yè)的應用,海量數(shù)據(jù)不斷產(chǎn)生,隨之而來的問題,便是如此多的數(shù)據(jù)讓人難以消化,無法從表面上看出他們所蘊涵的有用信息。如何從大量的數(shù)據(jù)中找到真正有用的信息成為人們關注的焦點,數(shù)據(jù)挖掘技術也正是伴隨著這種需求從研究走向應用。各種類似Google、百度等的搜索引擎也層出不窮,ationRetrieval)和信息抽取IE(InformationExtraction)相當重要。信息獲得(IR

2、)的目的在于找到相關Web文檔,它只是把文檔中的數(shù)據(jù)看成未經(jīng)排序的詞組的集合;而信息抽取(IE)的目的在于從文檔中找到需要的數(shù)據(jù)項目,它對文檔的結構和表達的含義感興趣,它的一個重要任務就是對數(shù)據(jù)進行組織整理并適當建立索引。3Web數(shù)據(jù)挖掘的分類Web數(shù)據(jù)挖掘是一項具有挑戰(zhàn)性的課題,它實現(xiàn)對Web存取模式、結構和規(guī)則以及動態(tài)的Web內(nèi)容的查找。一般來說,Web數(shù)據(jù)挖掘可分為4類:Web內(nèi)容挖掘、Web結構挖掘、Web使用記錄挖掘和Web用戶性質(zhì)挖掘。其中,Web內(nèi)容挖掘、Web結構挖掘和Web使用記錄挖掘是Web1.0時代就已經(jīng)有了的,而Web用戶性質(zhì)挖掘則是伴隨著Web2.0而出現(xiàn)

3、的。3.1Web內(nèi)容挖掘Web內(nèi)容挖掘指從Web內(nèi)容、數(shù)據(jù)、文檔中發(fā)現(xiàn)有用信息,主要包括文本挖掘和多媒體挖掘兩類,其對象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。目前,Web內(nèi)容挖掘一般從兩個不同的觀點來進行研究:一種是從資源(IR)查找的方面來看,即從用戶的角度出發(fā),研究怎樣提高信息質(zhì)量和幫助用戶過濾信息。這方面的研究大部分都是建立在詞匯袋(bagofwords)或稱向量表示法(vectorrepresentation)的基礎上,它將單個的詞匯看成文檔集合的屬性,只從統(tǒng)計的角度將詞匯孤立地看待,而忽略該詞匯出現(xiàn)的位置和上下文環(huán)境。這種方法的弊端是自由文本中的數(shù)據(jù)豐富

4、,詞匯量非常大,處理起來很困難,為解決這個問題人們作了相應的研究,采取了不同技術,如信息增益、差異比等。另外一種是從數(shù)據(jù)庫(DB)的觀點進行Web內(nèi)容挖掘,主要是試圖建立Web站點的數(shù)據(jù)模型并加以集成,以支持復雜查詢,而不只是簡單的基于關鍵詞的搜索。這要通過找到Web文檔的模式、建立Web知識庫來實現(xiàn)。數(shù)據(jù)庫技術應用于Web挖掘主要是為了解決Web信息的管理和查詢問題。3.2Web結構挖掘Web結構挖掘的對象是Web本身的超鏈接,即對Web文檔的結構進行挖掘。由于有用的知識不僅包含在Web頁面的內(nèi)容中,而且也包含在頁面的結構中,所以Web結構挖掘是從站點的組織結構和頁面結構中推導出

5、知識,找出數(shù)據(jù)鏈的結構進行分類、聚類,從而發(fā)現(xiàn)頁面間的關系,進而改進搜索引擎的性能。對于給定的Web文檔集合,應該能夠通過算法發(fā)現(xiàn)它們之間鏈接情況的有用信息,文檔之間的超鏈接反映了文檔之間的包含、引用或者從屬關系,引用文檔對被引用文檔的說明往往更客觀、更概括、更準確。Web結構挖掘在一定程度上得益于社會網(wǎng)絡和引用分析的研究。Web結構挖掘的基本思想是將Web看作一個有向圖,它的頂點是Web頁面,頁面間的超鏈接就是圖的邊,然后利用圖對Web的拓撲結構進行分析。Web結構挖掘算法一般可分為查詢相關算法和查詢獨立算法兩類。查詢相關算法需要為每一個查詢進行一次超鏈分析從而進行一次值的指派;

6、而查詢獨立算法則為每個文檔僅進行一次值的指派,對所有的查詢都使用此值。HITS和PageRank分別是查詢相關算法和查詢獨立算法的代表。他們的共同點是使用一定方法計算Web頁面之間超鏈接的質(zhì)量,從而得到頁面的權重。著名的Clever和Google搜索引擎就采用了該類算法。3.3Web使用記錄挖掘Web使用記錄挖掘也叫Web日志挖掘或Web訪問信息挖掘,在新興的電子商務領域有重要意義,它通過挖掘相關的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,可以識別用戶的忠實度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強站點的服務競爭力。Web使用記錄數(shù)據(jù)除了服務器的日志記

7、錄外,還包括代理服務器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢等一切用戶與站點之間可能的交互記錄??梢?Web使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當豐富。根據(jù)對數(shù)據(jù)源的不同處理方法,Web用法挖掘可以分為兩種:①將網(wǎng)絡服務器的日志文件作為原始數(shù)據(jù),應用特定的預處理方法進行處理后再進行挖掘;②將網(wǎng)絡服務器的日志文件轉換為圖表,然后再進行進一步的數(shù)據(jù)挖掘。通常,在對原始數(shù)據(jù)進行預處理后就可以使用傳統(tǒng)的數(shù)據(jù)挖掘方法進行挖

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。