資源描述:
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘ppt課件.ppt》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘講解人:李婧潔講稿設(shè)計(jì):曾國(guó)強(qiáng)劉歡資料收集:吳婷婷李冰潔劉婧桃杜曉霜日常生活的問(wèn)題:人們?cè)谌粘I钪薪?jīng)常會(huì)遇到這樣的情況:超市的經(jīng)營(yíng)者希望將經(jīng)常被同時(shí)購(gòu)買(mǎi)的商品放在一起,以增加銷(xiāo)售;保險(xiǎn)公司想知道購(gòu)買(mǎi)保險(xiǎn)的客戶(hù)一般具有哪些特征;醫(yī)學(xué)研究人員希望從已有的成千上萬(wàn)份病歷中找出患某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助;企業(yè)面臨的問(wèn)題經(jīng)過(guò)多年的計(jì)算機(jī)應(yīng)用和市場(chǎng)積累,許多企業(yè)保存了大量原始數(shù)據(jù)和各種業(yè)務(wù)數(shù)據(jù),它是企業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)的真實(shí)記錄,由于缺乏集中存儲(chǔ)和管理,這些數(shù)據(jù)不能為本企業(yè)加以利用,不能進(jìn)行有效的統(tǒng)計(jì)、分析及評(píng)估,無(wú)法將這些數(shù)據(jù)轉(zhuǎn)換成企業(yè)有
2、用的信息數(shù)據(jù)爆炸:自動(dòng)的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫(kù)技術(shù)導(dǎo)致巨大的數(shù)據(jù)存儲(chǔ)在文件系統(tǒng)、數(shù)據(jù)庫(kù)和其它的信息庫(kù)中。我們會(huì)淹死在數(shù)據(jù)中,但卻為信息、知識(shí)所餓!面臨的問(wèn)題如何使企業(yè)或組織在激烈的市場(chǎng)競(jìng)爭(zhēng)中保持對(duì)客戶(hù)的吸引力?如何預(yù)先發(fā)現(xiàn)和避免企業(yè)運(yùn)作過(guò)程中不易察覺(jué)的商業(yè)風(fēng)險(xiǎn)?如何在堆積如山的企業(yè)交易數(shù)據(jù)中發(fā)現(xiàn)具有商業(yè)價(jià)值的閃光點(diǎn)?不同層次的信息處理需求事物處理需求分析處理需求事務(wù)處理需求(OLTP)不同的事務(wù)處理子系統(tǒng)采購(gòu)子系統(tǒng):訂單、訂單細(xì)則、供應(yīng)商銷(xiāo)售子系統(tǒng):顧客、銷(xiāo)售庫(kù)存子系統(tǒng):出庫(kù)領(lǐng)料單、進(jìn)料入庫(kù)單、庫(kù)存臺(tái)帳人事子系統(tǒng):?jiǎn)T工、部門(mén)各種事務(wù)處理需求一筆訂購(gòu)、一筆銷(xiāo)售、一次進(jìn)料、一
3、次出料要求強(qiáng)調(diào)多用戶(hù)并發(fā)環(huán)境,數(shù)據(jù)的一致性、完整性分析處理需求(OLAP)今年銷(xiāo)售量下降的因素(時(shí)間、地區(qū)、商品、銷(xiāo)售部門(mén))某種商品今年的銷(xiāo)售情況與以往相比,有怎樣的變化?每年的第一季度商品銷(xiāo)售在各類(lèi)商品上的分布情況怎樣?要求多個(gè)子系統(tǒng)中的數(shù)據(jù)(數(shù)據(jù)集成)歷史數(shù)據(jù)匯總、綜合的數(shù)據(jù)隨著數(shù)據(jù)庫(kù)技術(shù)的應(yīng)用普及和發(fā)展,人們不再僅僅滿(mǎn)足于一般的業(yè)務(wù)處理,而對(duì)系統(tǒng)提出了更高的要求:提供決策支持?jǐn)?shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)系統(tǒng)能夠很好的用于事務(wù)處理,但它對(duì)分析處理的支持一直不能令人滿(mǎn)意。特別是當(dāng)以業(yè)務(wù)處理為主的聯(lián)機(jī)事務(wù)處理(OLTP)應(yīng)用和以分析處理為主的決策支持系統(tǒng)(DSS)應(yīng)用共存于一個(gè)數(shù)據(jù)庫(kù)
4、系統(tǒng)時(shí),就會(huì)產(chǎn)生許多問(wèn)題(混亂現(xiàn)象)。例如,事務(wù)處理應(yīng)用一般需要的是當(dāng)前數(shù)據(jù),主要考慮較短的響應(yīng)時(shí)間;而分析處理應(yīng)用需要是歷史的、綜合的、集成的數(shù)據(jù),它的分析處理過(guò)程可能持續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。人們逐漸認(rèn)識(shí)到直接用事務(wù)處理環(huán)境來(lái)支持DSS是行不通的。要提高分析和決策的有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)分離(不能都在一個(gè)數(shù)據(jù)庫(kù)環(huán)境中)。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來(lái),按照DSS處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)的定義數(shù)據(jù)倉(cāng)庫(kù)是一種面向主題的數(shù)
5、據(jù)管理技術(shù),它提供集成化的、歷史的數(shù)據(jù)管理功能,支持綜合性的數(shù)據(jù)分析,特別是戰(zhàn)略分析。數(shù)據(jù)倉(cāng)庫(kù)構(gòu)成了DSS和DBMS的技術(shù)基礎(chǔ),它必將推動(dòng)DSS研究的全面發(fā)展和方法的實(shí)用性化。通俗的解釋人們專(zhuān)門(mén)為業(yè)務(wù)的統(tǒng)計(jì)分析建立一個(gè)數(shù)據(jù)中心,它的數(shù)據(jù)可以從聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中得到;它是一個(gè)聯(lián)機(jī)的系統(tǒng),專(zhuān)門(mén)為分析統(tǒng)計(jì)和決策支持應(yīng)用服務(wù),通過(guò)它可滿(mǎn)足決策支持和聯(lián)機(jī)分析應(yīng)用所要求的一切。這個(gè)數(shù)據(jù)中心就叫作數(shù)據(jù)倉(cāng)庫(kù)。特征及體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的特征數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)一般由6個(gè)基本層次組成1)數(shù)據(jù)源層。2)數(shù)據(jù)后端處理層。3)
6、數(shù)據(jù)倉(cāng)庫(kù)及其管理層(包括源數(shù)據(jù)管理)。4)數(shù)據(jù)集市層。5)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用層(或稱(chēng)前端處理層)。6)數(shù)據(jù)展示層。數(shù)據(jù)倉(cāng)庫(kù)層次結(jié)構(gòu)示意圖數(shù)據(jù)展示層數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用層數(shù)據(jù)集市層數(shù)據(jù)倉(cāng)庫(kù)及管理層數(shù)據(jù)后端處理層數(shù)據(jù)源層數(shù)據(jù)挖掘定義:數(shù)據(jù)挖掘(DataMining),就是從存放在數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程。經(jīng)典案例——尿布與啤酒在一家超市中,人們發(fā)現(xiàn)了一個(gè)特別有趣的現(xiàn)象:尿布與啤酒這兩種風(fēng)馬牛不相及的商品居然擺在一起。但這一奇怪的舉措居然使尿布和啤酒的稍量大幅增加了。這可不是一個(gè)笑話(huà),而是一直被商家所津津樂(lè)道的發(fā)生在
7、美國(guó)沃爾瑪連鎖超市的真實(shí)案例。原來(lái),美國(guó)的婦女通常在家照顧孩子,所以她們經(jīng)常會(huì)囑咐丈夫在下班回家的路上為孩子買(mǎi)尿布,而丈夫在買(mǎi)尿布的同時(shí)又會(huì)順手購(gòu)買(mǎi)自己愛(ài)喝的啤酒。這個(gè)發(fā)現(xiàn)為商家?guī)?lái)了大量的利潤(rùn),但是如何從浩如煙海卻又雜亂無(wú)章的數(shù)據(jù)中,發(fā)現(xiàn)啤酒和尿布銷(xiāo)售之間的聯(lián)系呢?這又給了我們什么樣的啟示呢?數(shù)據(jù)挖掘能做以下七種分析方法分類(lèi)(Classification)估計(jì)(Estimation)預(yù)測(cè)(Prediction)相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)