資源描述:
《數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及其在電信行業(yè)中的應(yīng)用研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、1.?dāng)?shù)據(jù)倉(cāng)進(jìn)入2l世紀(jì),人們對(duì)在任何時(shí)間、任何地點(diǎn)都能得到信息的需求是永無(wú)止境的。而傳統(tǒng)數(shù)據(jù)庫(kù)只保留了當(dāng)前的業(yè)務(wù)處理的信息,缺乏決策分析所需要的大量歷史信息。要從信息源中有效獲取信息,采掘數(shù)據(jù)和發(fā)現(xiàn)知識(shí),以滿足管理人員的決策分析需要,就需要在數(shù)據(jù)庫(kù)的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的數(shù)據(jù)環(huán)境。因此,數(shù)據(jù)倉(cāng)庫(kù)(DW,DataWarehouse)應(yīng)運(yùn)而生。1.1數(shù)據(jù)倉(cāng)庫(kù)的定義數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中用以更好地支持企業(yè)或組織的決策分析處理、面向問題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合。與其它數(shù)據(jù)庫(kù)應(yīng)用不同的是,數(shù)據(jù)倉(cāng)庫(kù)更像一種過程,即對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程
2、,而不是一種可以購(gòu)買的產(chǎn)品。1.2數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)完整的數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)一般由6個(gè)基本層次組成,如圖l:L{lJ十千十自窗?.國(guó)t數(shù)據(jù)倉(cāng)庫(kù)及茸首客『競(jìng)數(shù)據(jù)首理t,數(shù)據(jù)后端處理圖1數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)圖各層次的基本功能如下:(1)數(shù)據(jù)源:為數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù)來(lái)源。(2)數(shù)據(jù)后端處理:是將數(shù)據(jù)源的數(shù)據(jù)進(jìn)行提取、清洗、轉(zhuǎn)換,最終構(gòu)建成數(shù)據(jù)倉(cāng)庫(kù)所需的數(shù)據(jù)。管理則負(fù)責(zé)管理數(shù)據(jù)倉(cāng)庫(kù);元數(shù)據(jù)管理負(fù)責(zé)對(duì)元數(shù)據(jù)進(jìn)行管理。(4)數(shù)據(jù)集市:是面向特定應(yīng)用的決策數(shù)據(jù)集合。(5)基于數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用:包括分析、決策應(yīng)用,如OLAP、數(shù)據(jù)挖掘等。(6)數(shù)據(jù)展示:將應(yīng)用結(jié)果,特別是分析、決策結(jié)果以多種媒體形式表示。2.OLAP
3、技術(shù)分析聯(lián)機(jī)分析處理(OLAP)的概念最早是由E.F.Codd于1993年提出的。當(dāng)時(shí),他認(rèn)為聯(lián)機(jī)事務(wù)處理OLTP已經(jīng)不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)查詢分析的需要,SQL對(duì)人數(shù)據(jù)庫(kù)的簡(jiǎn)單查詢也不能滿足用戶分析的需求,用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行人量的計(jì)算才能得到結(jié)果,而查詢出來(lái)的結(jié)果已經(jīng)不能滿足決策者提出的需求。因此,他提出了多維數(shù)據(jù)庫(kù)和多維分析的概念,即OLAP。OLAP與OLTP的比較見表l。表lOL~P與OLTP的對(duì)比0I』’POLAP用戶操作人員,低層管理人員決策人員,高級(jí)管理人員功能日常操作處理分析決策DB設(shè)計(jì)面向應(yīng)用面向主題當(dāng)前的,最新的細(xì)節(jié)的,二歷史的,聚集的,多維的,數(shù)據(jù)
4、集成的統(tǒng)一的,小可更新維的分立的,可更新的fu.町周期性刷新工作單位簡(jiǎn)單的事務(wù)復(fù)雜的查詢用戶數(shù)l二千個(gè)上百個(gè)DB大小100MB—GB100GB.TB2.1OLAP的概念及其特點(diǎn)OLAP委員會(huì)對(duì)于OLAP的定義:是一種分析處理技作者簡(jiǎn)介:郝園,男,湖北人,碩士研究生,研究方向:分布式數(shù)據(jù)庫(kù)開發(fā)與應(yīng)用軟件開發(fā)。一55—術(shù),是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問與分析,通過對(duì)大量信息的多種叮能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互的存取,是決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。數(shù)據(jù)庫(kù)之父E.F.Codd對(duì)于OLAP的定義:oI,AP是一個(gè)賦予動(dòng)態(tài)的、企業(yè)分析的名詞,這些分析是注釋的、熟悉的、公式化數(shù)據(jù)分析模型的生成、
5、操作、激活和信息合成。能夠在變量間分辨新的或不相關(guān)的關(guān)系,能夠區(qū)分對(duì)處理大量數(shù)據(jù)必要的參數(shù),而生成一個(gè)不限數(shù)量的維和指明維的條件表達(dá)式。OLAP的特點(diǎn)可以概括為以下幾種:快速性:用戶對(duì)OLAP的快速反映能力有很高的要求??煞治鲂裕耗芴幚砼c應(yīng)用有關(guān)的邏輯分析和統(tǒng)計(jì)分析。共享性:系統(tǒng)在保證安全的基礎(chǔ)上提供多用戶共享數(shù)據(jù)與信息機(jī)制。多維性:是OLAP的關(guān)鍵屬性,系統(tǒng)提供對(duì)數(shù)據(jù)分析的多維視圖和分析,多維分析是分析企業(yè)數(shù)據(jù)最有效的方法。是OLAP的靈魂。信息性:系統(tǒng)能及時(shí)獲取信息,并能管理大容量的信息。假定性:需要初始的假設(shè)來(lái)給出導(dǎo)航數(shù)據(jù)分析的方向,最終用分析的結(jié)果來(lái)驗(yàn)證初始的假設(shè)。2.2OLAP
6、常用分析方法及評(píng)價(jià)準(zhǔn)則目前OLAP常用分析方法有:數(shù)據(jù)切片和數(shù)據(jù)切塊、鉆取和數(shù)據(jù)旋轉(zhuǎn):OLAP的評(píng)價(jià)準(zhǔn)則有:多維概念視圖、透明性、存取能力、穩(wěn)定的報(bào)表性能、客戶/服務(wù)器體系結(jié)構(gòu)、維的等f(wàn)id性、動(dòng)態(tài)稀疏矩陣處理、多用戶支持能力、非受限的跨維操作、直觀的數(shù)據(jù)處理、靈活的報(bào)表生成、非受限的維與維的層次。3.基于數(shù)據(jù)倉(cāng)庫(kù)的OLAP核心技術(shù)在一個(gè)OLAP數(shù)據(jù)模型中,信息被抽象為一個(gè)立方體,它包括維和度量。多維結(jié)構(gòu)是決策支持的支柱,也是核心。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。維是相同類數(shù)據(jù)的集合,也可以理解為變量。維有自己固有的屬性,如層次結(jié)構(gòu)、排序和計(jì)算邏輯,這些屬性對(duì)進(jìn)行決策支持是非常
7、有用的度量是一個(gè)定量值。3.1OLAP分類目前對(duì)OLAP的主要分類有以下三種:(1)關(guān)系OLAP結(jié)構(gòu):使用關(guān)系或擴(kuò)充關(guān)系DBMS存放并管理數(shù)據(jù)倉(cāng)庫(kù),采用基于稀疏矩陣表示方法的星形結(jié)構(gòu)或雪花結(jié)構(gòu)存儲(chǔ)多維數(shù)據(jù)。(2)多維OLAP結(jié)構(gòu):核心是其數(shù)據(jù)存儲(chǔ)采用矩陣方式,數(shù)據(jù)檢索高效。(3)混合OLAP結(jié)構(gòu):結(jié)合ROLAP和MOLAP技術(shù),在MOL廿立方體中存儲(chǔ)高級(jí)別的聚集,在ROLAP中存儲(chǔ)低級(jí)別的聚集。3.2ROLAP的多維表示方法ROLA