資源描述:
《數(shù)據(jù)倉庫的定義及基本特征》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、1.1.2數(shù)據(jù)倉庫的定義及其基本特征什么是數(shù)據(jù)倉庫(DW)[1]?數(shù)據(jù)倉庫的定義很多,但卻很難有一種嚴(yán)格的定義(1)它是一個(gè)提供決策支持功能的數(shù)據(jù)庫,它與公司的操作數(shù)據(jù)庫分開維護(hù)。(2)為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對信息處理提供支持“數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程?!?--W.H.Inmon(數(shù)據(jù)倉庫構(gòu)造方面的領(lǐng)頭設(shè)計(jì)師)建立數(shù)據(jù)倉庫(datawarehousing)構(gòu)造和使用數(shù)據(jù)倉庫的過程數(shù)據(jù)倉庫關(guān)鍵特征一——面向主題[2]圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品等關(guān)注決策者的數(shù)據(jù)建模與分
2、析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖數(shù)據(jù)倉庫關(guān)鍵特征二——數(shù)據(jù)集成[3]一個(gè)數(shù)據(jù)倉庫是通過集成多個(gè)異種數(shù)據(jù)源來構(gòu)造的。關(guān)系數(shù)據(jù)庫,一般文件,聯(lián)機(jī)事務(wù)處理記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)(1)確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性(2)當(dāng)數(shù)據(jù)被移到數(shù)據(jù)倉庫時(shí),它們要經(jīng)過轉(zhuǎn)化數(shù)據(jù)倉庫關(guān)鍵特征三——隨時(shí)間而變化[4]數(shù)據(jù)倉庫的時(shí)間范圍比操作數(shù)據(jù)庫系統(tǒng)要長得多(1)操作數(shù)據(jù)庫系統(tǒng):主要保存當(dāng)前數(shù)據(jù)(2)數(shù)據(jù)倉庫:從歷史的角度提供信息(比如過去5-10年數(shù)據(jù)倉庫的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯示地包含時(shí)間元素,而操作
3、數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素?cái)?shù)據(jù)倉庫關(guān)鍵特征四—數(shù)據(jù)不易丟失[5]盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但它們卻是在物理上分離保存的操作數(shù)據(jù)庫的更新不會(huì)出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下。不需要事務(wù)處理,恢復(fù)和并發(fā)控制等機(jī)制只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作)數(shù)據(jù)倉庫與異種數(shù)據(jù)庫集成[6]傳統(tǒng)的異種數(shù)據(jù)庫集成(1)在多個(gè)異種數(shù)據(jù)庫上建立包裝程序(wrapper)和中介程序(mediators)(2)查詢驅(qū)動(dòng)方法----當(dāng)從客戶端傳過來一個(gè)查詢時(shí),首先使用元數(shù)據(jù)字典將查詢轉(zhuǎn)換成相應(yīng)異種數(shù)據(jù)庫上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器。
4、(3)缺點(diǎn):復(fù)雜的信息過濾和集成處理,竟?fàn)庂Y源數(shù)據(jù)倉庫:更新驅(qū)動(dòng)(1)將來自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉庫中,供直接查詢和分析。(2)高性能數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng)[7]操作數(shù)據(jù)庫的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP日常操作:購買,庫存,銀行,制造,工次,注冊,記帳等數(shù)據(jù)倉庫的主要任務(wù)是聯(lián)機(jī)分析處理OLAP數(shù)據(jù)分析和決策數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng)[8]OLTP和OLAP的主要區(qū)別:(1)用戶和系統(tǒng)的面向性:顧客VS.市場(2)數(shù)據(jù)內(nèi)容:當(dāng)前的、詳細(xì)的數(shù)據(jù)VS.歷史的、匯總的數(shù)據(jù)(3)數(shù)據(jù)庫設(shè)計(jì):實(shí)體-聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì)VS.星型/
5、雪花型和面向主題的數(shù)據(jù)庫設(shè)計(jì)(4)視圖:當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù)VS.經(jīng)過演化的、集成的數(shù)據(jù)(5)訪問模式:事務(wù)操作VS.只讀查詢(但很多是復(fù)雜的查詢)OLTP系統(tǒng)與OLAP系統(tǒng)的比較[9]為什么需要一個(gè)分離的數(shù)據(jù)倉庫?[10]提高兩個(gè)系統(tǒng)的性能(1)DBMS是為OLTP而設(shè)計(jì)的:存儲(chǔ)方式,索引,并發(fā)控制,恢復(fù)(2)數(shù)據(jù)倉庫是為OLAP而設(shè)計(jì):復(fù)雜的OLAP查詢,多維視圖,匯總不同的功能和不同的數(shù)據(jù)(1)歷史數(shù)據(jù):決策支持需要?dú)v史數(shù)據(jù)庫,而這些數(shù)據(jù)在操作數(shù)據(jù)庫中一般不會(huì)去維護(hù)(2)數(shù)據(jù)匯總:決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如聚類和匯總)(3)數(shù)據(jù)質(zhì)量:不
6、同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對這些數(shù)據(jù)進(jìn)行有效的分析需要將他們轉(zhuǎn)化后進(jìn)行集成返回