《數(shù)據(jù)挖掘概述》ppt課件

《數(shù)據(jù)挖掘概述》ppt課件

ID:24811098

大?。?39.00 KB

頁數(shù):43頁

時(shí)間:2018-11-16

《數(shù)據(jù)挖掘概述》ppt課件_第1頁
《數(shù)據(jù)挖掘概述》ppt課件_第2頁
《數(shù)據(jù)挖掘概述》ppt課件_第3頁
《數(shù)據(jù)挖掘概述》ppt課件_第4頁
《數(shù)據(jù)挖掘概述》ppt課件_第5頁
資源描述:

《《數(shù)據(jù)挖掘概述》ppt課件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、第六章數(shù)據(jù)挖掘概述本章內(nèi)容數(shù)據(jù)挖掘的由來數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的主要功能數(shù)據(jù)挖掘模型和實(shí)現(xiàn)流程數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘的由來網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識(shí)貧乏支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)時(shí)代面臨的信息問題:信息過量,難以消化;信息真假難以辨識(shí);信息安全難以保證;信息形式不一致,難以統(tǒng)一處理。“要學(xué)會(huì)拋棄信息”數(shù)據(jù)爆炸但知識(shí)貧乏數(shù)據(jù)庫的容量已達(dá)上萬億水平(T)--1,000,000,000,000個(gè)字節(jié)全球信息量以驚人的速度急劇增長(zhǎng)--據(jù)估計(jì),每二十個(gè)月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)支持?jǐn)?shù)據(jù)挖掘

2、技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣的四個(gè)主要技術(shù)理由:超大規(guī)模數(shù)據(jù)庫的出現(xiàn),例如商業(yè)數(shù)據(jù)倉庫和計(jì)算機(jī)自動(dòng)收集的數(shù)據(jù)記錄;強(qiáng)大的多處理器計(jì)算機(jī)。例如更快和更大的計(jì)算能力和并行體系結(jié)構(gòu);海量數(shù)據(jù)搜索,對(duì)巨大量數(shù)據(jù)的快速訪問;數(shù)據(jù)挖掘算法。從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL)、Sybase、Informix、IBMOracle

3、、Sybase、Informix、IBM、Microsoft在記錄級(jí)提供歷史性、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫; 決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘 (正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測(cè)性的信息數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、不

4、完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程?!布夹g(shù)角度的定義〕數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法?!采虡I(yè)角度的定義〕數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization實(shí)施數(shù)據(jù)挖掘的目

5、的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤(rùn)。所有企業(yè)面臨的一個(gè)共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的;數(shù)據(jù)有噪聲;數(shù)據(jù)可能是非結(jié)構(gòu)化的;傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動(dòng)的:一般都是先給出一個(gè)假設(shè)然后通過數(shù)據(jù)驗(yàn)證數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動(dòng)的:模式都是通過大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺的信息

6、或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘和數(shù)據(jù)倉庫數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭OLAP基于用戶假設(shè)。whathappened〔查詢和報(bào)表工具是告訴你數(shù)據(jù)庫中都有什么〕whatnext〔OLAP更進(jìn)一步告訴你下一步會(huì)怎么樣〕whatif〔如果我采取這樣的措施又會(huì)怎么樣〕數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過程,不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性?;靖拍顢?shù)據(jù):是指一個(gè)有關(guān)事實(shí)F的集合(如學(xué)生檔案數(shù)據(jù)庫中有關(guān)學(xué)生基本情況的各條記錄),用來描述事物有關(guān)方面的信

7、息。一般而言,這些數(shù)據(jù)都是準(zhǔn)確無誤的。信息:是事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的方式。知識(shí)人們實(shí)踐經(jīng)驗(yàn)的結(jié)晶且為新的實(shí)踐所證實(shí)的;是關(guān)于事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的規(guī)律;是對(duì)信息加工提煉所獲得的抽象化產(chǎn)物。知識(shí)的形式可能是模式、關(guān)聯(lián)、變化、異常以及其他有意義的結(jié)構(gòu)。主要功能1.概念/類別描述(Concept/ClassDescription)概念/類別描述是指對(duì)數(shù)據(jù)集做一個(gè)簡(jiǎn)潔的總體性描述并/或描述它與某一對(duì)照數(shù)據(jù)集的差別。例1:我們收集移動(dòng)電話費(fèi)月消費(fèi)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。