資源描述:
《數(shù)據(jù)倉庫與挖掘第五章_數(shù)據(jù)挖掘概述.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第五章數(shù)據(jù)挖掘的概述本章內(nèi)容5.1數(shù)據(jù)挖掘的起源5.2數(shù)據(jù)挖掘的任務(wù)5.3醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個技術(shù)熱點數(shù)據(jù)爆炸但知識貧乏支持數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進化網(wǎng)絡(luò)之后的下一個技術(shù)熱點網(wǎng)絡(luò)時代面臨的信息問題:信息過量,難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統(tǒng)一處理?!耙獙W(xué)會拋棄信息”數(shù)據(jù)爆炸但知識貧乏數(shù)據(jù)庫的容量已達上萬億水平(T)--1,000,000,000,000個字節(jié)全球信息量以驚人的速度急劇增長--據(jù)估計,每二十個月將增加一倍。許多組織機構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實現(xiàn)數(shù)
2、據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生并顯示出強大的生命力。如何從一棵棵樹木了解整個森林?從數(shù)據(jù)礦山中找到蘊藏的知識金塊?這是我們該考慮的問題!啤酒尿不濕案例著名的“啤酒尿布”案例:美國加州某個超級賣場通過數(shù)據(jù)挖掘發(fā)現(xiàn),下班后前來購買嬰兒尿布的男顧客大都購買啤酒。于是經(jīng)理當(dāng)機立斷,重新布置貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放置佐酒食品,同時還把男士日常用品就近布置。這樣,上述幾種商品的銷量大增。支持數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)
3、了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣的四個主要技術(shù)理由:超大規(guī)模數(shù)據(jù)庫的出現(xiàn),例如商業(yè)數(shù)據(jù)倉庫和計算機自動收集的數(shù)據(jù)記錄;強大的多處理器計算機。例如更快和更大的計算能力和并行體系結(jié)構(gòu);海量數(shù)據(jù)搜索,對巨大量數(shù)據(jù)的快速訪問;數(shù)據(jù)挖掘算法。從商業(yè)數(shù)據(jù)到商業(yè)信息的進化進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計算機、磁帶和磁盤IBM提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL)、Sybase、Informix、IBMOracle、Syba
4、se、Informix、IBM、Microsoft在記錄級提供歷史性、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Oracle、IBM、Microsoft在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法、多處理器計算機、海量數(shù)據(jù)庫IBM、其他公司提供預(yù)測性的信息數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的
5、、但又是潛在有用的信息和知識的過程。〔技術(shù)角度的定義〕數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證己知的規(guī)律性,并進一步將其模型化的有效方法。〔商業(yè)角度的定義〕數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交
6、叉學(xué)科,涉及數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計學(xué)、機器學(xué)習(xí)、可視化、信息檢索和高性能計算等諸多領(lǐng)域。此外,還與神經(jīng)網(wǎng)絡(luò)、模式識別、空間數(shù)據(jù)分析、圖像處理、信號處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。近幾年,人們逐漸發(fā)現(xiàn)數(shù)據(jù)挖掘中有許多工作都是由統(tǒng)計方法來完成的。甚至有些人(尤其是統(tǒng)計學(xué)家)認為數(shù)據(jù)挖掘是統(tǒng)計學(xué)的一個分支,當(dāng)然大多數(shù)人(包括絕大多數(shù)數(shù)據(jù)挖掘研究人員)并不這么認為。統(tǒng)計學(xué)和數(shù)據(jù)挖掘的目標非常相似,而且數(shù)據(jù)挖掘中的許多算法也源于數(shù)理統(tǒng)計,統(tǒng)計學(xué)對數(shù)據(jù)挖掘發(fā)展的貢獻功不可沒。實施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯?,更主要的是為商業(yè)決策提供真正有價值的信息,進而獲得利潤。
7、所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的。數(shù)據(jù)挖掘出現(xiàn)的背景是“數(shù)據(jù)爆炸但知識貧乏”,它要處理的數(shù)據(jù)量已經(jīng)達到了“太”(萬億)級以上,比傳統(tǒng)數(shù)據(jù)分析方法所處理的數(shù)據(jù)量超出幾個乃至十幾個數(shù)量級。對于如此大規(guī)模的數(shù)據(jù)量,傳統(tǒng)的數(shù)據(jù)分析方法可能根本不能處理,即使能夠處理,效率也是必須考慮的嚴重問題。因此需要對原有的