資源描述:
《2012青大《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復習》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、2012春《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復習提綱1、商務智能【參考:BI是一種解決方案,它的目的是把用戶積累下來的、大量的數(shù)據(jù)轉(zhuǎn)化為業(yè)務容易理解的信息,進而輔助決策?!?、Kimball對數(shù)據(jù)倉庫的定義【參考:DW僅僅是構(gòu)成它的數(shù)據(jù)集市的聯(lián)合?!?、Inmon對數(shù)據(jù)倉庫的定義【參考:一個面向主題的、集成的、隨時間變化的、非易逝的用于支持管理的決策過程的數(shù)據(jù)集合。】4、ETL【參考:數(shù)據(jù)的提取、轉(zhuǎn)換和裝載,預處理數(shù)據(jù)并裝在DW中。】5、數(shù)據(jù)倉庫總線矩陣【參考:該矩陣將公司業(yè)務過程映射到參與這些過程的實體或?qū)ο蟆>仃嚨拿恳恍袑粋€業(yè)務過程,每一列描述對象,它們參與了各種業(yè)務過程?!?、事實【參考:對一
2、些事件發(fā)生結(jié)果的度量?!?、維度【參考:維度是維度模型的基礎,用來描述業(yè)務的對象?!?、粒度【參考:事實表中包含信息的詳盡程度?!?、維度模型【參考:由一個中心事實表(或者多個事實表)和與其相關的維度構(gòu)成。事實表位于中心,而所有維度表環(huán)繞在其周圍,類似于星形結(jié)構(gòu),因此又把維度模型稱為星形模式。】10、業(yè)務過程維度模型【參考:關于一個業(yè)務過程所有的維度模型的集合?!?1、多維數(shù)據(jù)集(又稱為數(shù)據(jù)立方體)由維度和一個或多個度量組構(gòu)成的多維分析結(jié)構(gòu),用于OLAP12、部署【參考:將多維數(shù)據(jù)集的定義發(fā)布到OLAP服務器上的過程?!?3、OLAP聯(lián)機分析處理采用多維數(shù)據(jù)結(jié)構(gòu)和層次結(jié)構(gòu)作為導航,探查匯總數(shù)
3、據(jù),輔助決策。14、代理鍵【參考:對于DW/BI系統(tǒng),需要在數(shù)據(jù)倉庫數(shù)據(jù)庫中建立一組與事務處理源系統(tǒng)中的鍵分離開來的全新的鍵,稱這種鍵為代理鍵?!开毩⒂跇I(yè)務鍵的用于數(shù)據(jù)倉庫中的從ETL中的人工鍵15、漸變維度【參考:屬性值可以改變的維度。分為值的改變需要跟蹤和不需要跟蹤兩種?!?6、聚合【參考:經(jīng)過預先計算后形成的匯總表,主要目標是用來改進查詢性能?!?7、星型模型【參考:由一個事實表和多個維度表構(gòu)成的模型。事實表與維度表是1對多關系。事實表位于中心,而所有維度表環(huán)繞在其周圍,類似于星形結(jié)構(gòu)?!?8、雪花模型【參考:雪花模型是將維度表中的字段和查找表相連接而得到的結(jié)果。】19、事實星座模型由
4、多個星型模型或雪花模型通過共享維度形成的多事實表多維度表的模型20、多維數(shù)據(jù)庫【參考:采用多維數(shù)據(jù)組存儲數(shù)據(jù),主要應用于OLAP服務器的數(shù)據(jù)存儲結(jié)構(gòu)?!?、SQLServer2005的維度層次2、SQLServer2005的屬性層次SQLServerAnalysisService默認為每個維度每個屬性構(gòu)成的單層結(jié)構(gòu)3、數(shù)據(jù)挖掘【參考答案:從海量數(shù)據(jù)中提取有趣模式或知識(有趣是指:隱含的、非平凡的、事先未知的、潛在有用的)】4、數(shù)據(jù)挖掘的兩大類通用功能【參考答案:描述型數(shù)據(jù)挖掘和預測型數(shù)據(jù)挖掘。前者用于刻畫數(shù)據(jù)集的一般特征,后者對現(xiàn)有數(shù)據(jù)進行推演以用于新實例(某個屬性的取值)的預測。】5、OL
5、AM【參考答案:On-LineAnalyticalMining,聯(lián)機分析挖掘,將OLAP與數(shù)據(jù)挖掘相互融合進行數(shù)據(jù)探查分析,是未來基于數(shù)據(jù)倉庫的數(shù)據(jù)分析的一種趨勢】6、簡單了解關聯(lián)分析(又稱為關聯(lián)規(guī)則挖掘或購物籃分析)、分類、回歸、聚類分析的功能關聯(lián)分析:發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系分類:預測離散屬性的取值回歸:預測連續(xù)屬性的取值聚類分析:將數(shù)據(jù)分類到不同的類或者簇7、數(shù)據(jù)倉庫各環(huán)節(jié)工具(如ETL)的市場占有率最高的公司【參考:(1)OLAP市場,微軟第一;(2)ETL市場三大主流:Powercenter(美國Information公司)—ETL市場老大;DataStage(IB
6、M公司);ETLAutomation(數(shù)據(jù)倉庫(引擎)老大美國Teradata公司)。DI(DataIntegrator(BO公司)8、數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別【參考答案:(1)應用目的不同:數(shù)據(jù)庫主要用于構(gòu)建聯(lián)機事務處理(OLTP)系統(tǒng),這種系統(tǒng)自己產(chǎn)生新數(shù)據(jù),每次事務處理涉及的記錄數(shù)較少,通常為幾條;而數(shù)據(jù)倉庫主要用于構(gòu)建分析型決策支持系統(tǒng),這種系統(tǒng)自己不產(chǎn)生新數(shù)據(jù),所使用的數(shù)據(jù)來自于OLTP系統(tǒng)或其他數(shù)據(jù)源。(2)數(shù)據(jù)的時間跨度不同:數(shù)據(jù)庫通常存放較新的業(yè)務數(shù)據(jù);而數(shù)據(jù)倉庫中存放的是歷史業(yè)務數(shù)據(jù),其時間跨度為5~10年。(3)數(shù)據(jù)的業(yè)務范圍不同:數(shù)據(jù)庫系統(tǒng)通常關注局部業(yè)務范圍的事務處理;
7、數(shù)據(jù)倉庫通常要關注整個企業(yè)的全部業(yè)務。(4)所采用的設計技術不同:數(shù)據(jù)庫面向事務,采用三范式(3NF)建模;數(shù)據(jù)倉庫則面向主題,采用三范式(3NF)或維度模型建模。(5)注重的技術不同:數(shù)據(jù)庫系統(tǒng)存在大量的數(shù)據(jù)查詢和數(shù)據(jù)更新,需要重點考慮包括數(shù)據(jù)更新和并發(fā)控制技術在內(nèi)的各種數(shù)據(jù)處理技術,而數(shù)據(jù)倉庫以數(shù)據(jù)查詢?yōu)橹?,?shù)據(jù)更新較少,所以不需過多的考慮數(shù)據(jù)更新和并發(fā)控制,主要考慮數(shù)據(jù)查詢性能的提升?!?、數(shù)據(jù)倉庫的兩