數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的決策支持

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的決策支持

ID:39711351

大?。?.61 MB

頁(yè)數(shù):135頁(yè)

時(shí)間:2019-07-09

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的決策支持_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的決策支持_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的決策支持_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的決策支持_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的決策支持_第5頁(yè)
資源描述:

《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的決策支持》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、第5章數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的決策支持基本原理知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)聯(lián)機(jī)分析處理數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的決策支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的支持系統(tǒng)5.1數(shù)據(jù)倉(cāng)庫(kù)的基本原理數(shù)據(jù)倉(cāng)庫(kù)的興起1.“數(shù)據(jù)太多,信息不足”的現(xiàn)狀2.異構(gòu)環(huán)境的數(shù)據(jù)源據(jù)美國(guó)《幸福》雜志所列的全球2000家大公司中已有90%將Internet網(wǎng)絡(luò)和數(shù)據(jù)倉(cāng)庫(kù)這兩項(xiàng)技術(shù)列入企業(yè)計(jì)劃。數(shù)據(jù)倉(cāng)庫(kù)是1995年開始盛行起來的。5.1.1數(shù)據(jù)倉(cāng)庫(kù)的概念(1)W.H.Inmon在《建立數(shù)據(jù)倉(cāng)庫(kù)》一書中,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義為:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的,不同時(shí)間的數(shù)據(jù)集合,用于支持經(jīng)營(yíng)管理中決策制定

2、過程。1、數(shù)據(jù)倉(cāng)庫(kù)的概念(2)SAS軟件研究所定義:數(shù)據(jù)倉(cāng)庫(kù)是一種管理技術(shù),旨在通過通暢、合理、全面的信息管理,達(dá)到有效的決策支持。1、數(shù)據(jù)倉(cāng)庫(kù)的概念傳統(tǒng)數(shù)據(jù)庫(kù)用于事務(wù)處理,也叫操作型處理,是指對(duì)數(shù)據(jù)庫(kù)聯(lián)機(jī)進(jìn)行日常操作,即對(duì)一個(gè)或一組記錄的查詢和修改,主要為企業(yè)特定的應(yīng)用服務(wù)的。用戶關(guān)心的是響應(yīng)時(shí)間,數(shù)據(jù)的安全性和完整性。數(shù)據(jù)倉(cāng)庫(kù)用于決策支持,也稱分析型處理,用于決策分析,它是建立決策支持系統(tǒng)(DSS)的基礎(chǔ)。操作型數(shù)據(jù)(DB數(shù)據(jù))與分析型數(shù)據(jù)(DW數(shù)據(jù))之間的差別為:2、數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)(1)數(shù)據(jù)倉(cāng)庫(kù)是面向主題的主題是數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主

3、題基本對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。例如,銀行的數(shù)據(jù)倉(cāng)庫(kù)的主題:客戶DW的客戶數(shù)據(jù)來源:從銀行儲(chǔ)蓄DB、信用卡DB、貸款DB等三個(gè)DB中抽取同一客戶的數(shù)據(jù)整理而成。在DW中分析客戶數(shù)據(jù),可決定是否繼續(xù)給予貸款。2、數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)(2)數(shù)據(jù)倉(cāng)庫(kù)是集成的數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過加工與集成。對(duì)不同的數(shù)據(jù)來源進(jìn)行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和編碼。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,異名同義,單位不統(tǒng)一,字長(zhǎng)不一致等。將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用到面向主題的大轉(zhuǎn)變。2、數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)(3)數(shù)據(jù)倉(cāng)庫(kù)是穩(wěn)定的數(shù)據(jù)倉(cāng)庫(kù)中包括了大量的歷史數(shù)據(jù)。數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)

4、倉(cāng)庫(kù)后是極少或根本不更新的。(4)數(shù)據(jù)倉(cāng)庫(kù)是隨時(shí)間變化的數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)時(shí)限在5~10年,故數(shù)據(jù)的鍵碼包含時(shí)間項(xiàng),標(biāo)明數(shù)據(jù)的歷史時(shí)期,這適合DSS進(jìn)行時(shí)間趨勢(shì)分析。而數(shù)據(jù)庫(kù)只包含當(dāng)前數(shù)據(jù),即存取某一時(shí)間的正確的有效的數(shù)據(jù)。2、數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)大型DW是一個(gè)TB(1000GB)級(jí)數(shù)據(jù)庫(kù)問題(一般為10GB級(jí)相當(dāng)于一般數(shù)據(jù)庫(kù)100MB的100倍)需要一個(gè)巨大的硬件平臺(tái)需要一個(gè)并行的數(shù)據(jù)庫(kù)系統(tǒng)最好的數(shù)據(jù)倉(cāng)庫(kù)是大的和昂貴的。面向主題穩(wěn)定隨時(shí)間變化集成特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)近期基本數(shù)據(jù):是最近時(shí)期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉(cāng)庫(kù)用戶最感興趣的部分,數(shù)據(jù)量大。歷史基本數(shù)據(jù)

5、:近期基本數(shù)據(jù)隨時(shí)間的推移,由數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間控制機(jī)制轉(zhuǎn)為歷史基本數(shù)據(jù)。輕度綜合數(shù)據(jù):是從近期基本數(shù)據(jù)中提取出的,這層數(shù)據(jù)是按時(shí)間段選取,或者按數(shù)據(jù)屬性(attributes)和內(nèi)容(contents)進(jìn)行綜合。高度綜合數(shù)據(jù)層:這一層的數(shù)據(jù)是在輕度綜合數(shù)據(jù)基礎(chǔ)上的再一次綜合,是一種準(zhǔn)決策數(shù)據(jù)。5.1.2數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)工作范圍和成本常常是巨大的。開發(fā)數(shù)據(jù)庫(kù)是代價(jià)很高、時(shí)間較長(zhǎng)的大項(xiàng)目。提供更緊密集成的數(shù)據(jù)集市就應(yīng)運(yùn)產(chǎn)生。目前,全世界對(duì)數(shù)據(jù)倉(cāng)庫(kù)總投資的一半以上均集中在數(shù)據(jù)集市上。5.1.3數(shù)據(jù)集市(DataMarts)數(shù)據(jù)集市(DataMa

6、rts)是一種更小、更集中的數(shù)據(jù)倉(cāng)庫(kù),為公司提供分析商業(yè)數(shù)據(jù)的一條廉價(jià)途徑。DataMarts是指具有特定應(yīng)用的數(shù)據(jù)倉(cāng)庫(kù),主要針對(duì)某個(gè)應(yīng)用或者具體部門級(jí)的應(yīng)用,支持用戶獲得競(jìng)爭(zhēng)優(yōu)勢(shì)或者找到進(jìn)入新市場(chǎng)的具體解決方案。數(shù)據(jù)集市概念獨(dú)立數(shù)據(jù)集市(IndependentDataMart)從屬數(shù)據(jù)集市(DependentDataMart)數(shù)據(jù)集市的種類1、規(guī)模是小的2、特定的應(yīng)用3、面向部門4、由業(yè)務(wù)部門定義,設(shè)計(jì)和開發(fā)5、由業(yè)務(wù)部門管理和維護(hù)6、快速實(shí)現(xiàn)7、購(gòu)買較便宜8、投資快速回收9、工具集的緊密集成10、更詳細(xì)的、預(yù)先存在的數(shù)據(jù)倉(cāng)庫(kù)的摘要子集1

7、1、可升級(jí)到完整的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市的特性元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的重要組成部分。元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)和環(huán)境,即關(guān)于數(shù)據(jù)的數(shù)據(jù)(metadata)元數(shù)據(jù)包括四種元數(shù)據(jù)。5.1.4元數(shù)據(jù)Himart元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)使用數(shù)據(jù)倉(cāng)庫(kù)映射數(shù)據(jù)模型數(shù)據(jù)源它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是是對(duì)不同平臺(tái)上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項(xiàng)及數(shù)據(jù)類型。(2)所有數(shù)據(jù)項(xiàng)的業(yè)務(wù)定義。(3)每個(gè)數(shù)據(jù)項(xiàng)更新的頻率,以及由誰(shuí)或那個(gè)過程更新的說明。(4)每個(gè)數(shù)據(jù)項(xiàng)的有效值。1、關(guān)于數(shù)據(jù)源的元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)

8、據(jù)模型是星型模型。通常企業(yè)數(shù)據(jù)模型被用作建立倉(cāng)庫(kù)數(shù)據(jù)模型的起始點(diǎn),再對(duì)模型加以修改和變換。2、關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)間的映射。當(dāng)數(shù)據(jù)源中的一個(gè)數(shù)據(jù)項(xiàng)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。