資源描述:
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 PPT課件.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、數(shù)據(jù)倉(cāng)庫(kù)----SQLserver2000AnalysisServices數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)-數(shù)據(jù)管理-事務(wù)處理-獲取數(shù)據(jù)-OLTP-銀行的存款和取款數(shù)據(jù)倉(cāng)庫(kù)-管理技術(shù)-決策支持-分析數(shù)據(jù)-OLAP-規(guī)律趨勢(shì)決策預(yù)測(cè)數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是一個(gè)面向主題的、集成的、穩(wěn)定的、包含歷史數(shù)據(jù)的數(shù)據(jù)集合,它用于支持管理中的決策制定過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)不是產(chǎn)品。數(shù)據(jù)庫(kù)技術(shù)-存儲(chǔ)數(shù)據(jù)和管理資源統(tǒng)計(jì)分析技術(shù)-分析和提取信息人工智能技術(shù)-挖掘知識(shí)和發(fā)現(xiàn)規(guī)律1.面向主題:按主題進(jìn)行組織,為按主題進(jìn)行決策的過(guò)程提供信息2.
2、集成:經(jīng)過(guò)系統(tǒng)加工、匯總和整理3.穩(wěn)定:長(zhǎng)期保留,插入和查詢4.包含歷史數(shù)據(jù):過(guò)去某一時(shí)點(diǎn)到目前的信息,發(fā)展歷程和未來(lái)趨勢(shì)利用數(shù)據(jù)倉(cāng)庫(kù)解決四種類型的問(wèn)題:1.2005年10月25日肝臟外科的住院人次數(shù)是多少?2.呼吸內(nèi)科明年的就診情況如何?(科室應(yīng)作何相應(yīng)調(diào)整?)3.2005年1-10月份經(jīng)消化內(nèi)科某醫(yī)師診治的十二指腸球部潰瘍患者的平均住院天數(shù)及藥品費(fèi)用構(gòu)成比是多少?4.影響患者住院費(fèi)用高低的因素是哪些?其中哪個(gè)是最關(guān)鍵因素?數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與開發(fā)的一般過(guò)程:1.任務(wù)和環(huán)境的評(píng)估2.需求的收集和分析3.設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)4.
3、創(chuàng)建數(shù)據(jù)準(zhǔn)備區(qū)5.創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)6.從聯(lián)機(jī)事務(wù)處理系統(tǒng)中析取數(shù)據(jù)7.清理和轉(zhuǎn)換數(shù)據(jù)8.向數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)中加載數(shù)據(jù)9.向數(shù)據(jù)集市發(fā)布數(shù)據(jù)10.創(chuàng)建多維數(shù)據(jù)集11.進(jìn)行數(shù)據(jù)挖掘12.設(shè)計(jì)并實(shí)現(xiàn)終端用戶的應(yīng)用程序13.將數(shù)據(jù)倉(cāng)庫(kù)和基于它的應(yīng)用投入使用☆數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型結(jié)構(gòu)1.星型模型星型模型由一個(gè)事實(shí)表和維表組成,事實(shí)表是星型模型的核心表,包含兩種類型的列,第一種列是維度表的索引列,這些列中存儲(chǔ)了各維表的主鍵值,它們組合成事實(shí)表的主鍵;而其他非主屬性的列則稱為事實(shí)列,其中包含了用于計(jì)算的信息,即多維數(shù)據(jù)集中的度量值
4、。事實(shí)表中的每個(gè)事實(shí)指向每個(gè)維表中的一個(gè)元組。2.雪花模型雪花模型是對(duì)星型模型的一個(gè)擴(kuò)展,每個(gè)維表都可以向外連接多個(gè)維表。雪花模型是對(duì)星型模型的維表進(jìn)一步標(biāo)準(zhǔn)化,維表分解成與事實(shí)表直接關(guān)聯(lián)的主維表和與主維表關(guān)聯(lián)的次維表。它的優(yōu)點(diǎn)是通過(guò)最大限度的減少存儲(chǔ)量以及將較小的標(biāo)準(zhǔn)化表而不是較大的非標(biāo)準(zhǔn)化表聯(lián)合在一起來(lái)改善查詢性能。由于采用標(biāo)準(zhǔn)化及維的較低粒度,雪花模型增加了應(yīng)用程序的靈活性,但由于雪花模型增加了連接操作的次數(shù),因而也增加了查詢的復(fù)雜性。多維數(shù)據(jù)集:事實(shí)表與維表多維數(shù)據(jù)集是聯(lián)機(jī)分析處理的主要對(duì)象,是分析數(shù)據(jù)的基
5、礎(chǔ),是一項(xiàng)可對(duì)數(shù)據(jù)倉(cāng)庫(kù)的中的數(shù)據(jù)進(jìn)行快速訪問(wèn)的技術(shù)。維度:維度是人們觀察數(shù)據(jù)的特定角度,是數(shù)據(jù)的視圖,如可以從時(shí)間、科室、病種等不同的角度觀察有關(guān)住院情況的數(shù)據(jù)。在實(shí)際中最常用的維度是時(shí)間維度,維也可以有細(xì)節(jié)程度不同的描述,這些不同的描述稱為維的層次(級(jí)別或粒度)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)按照不同的維組織起來(lái)形成了一個(gè)多維的立方體,也即多維數(shù)據(jù)集。星型架構(gòu):?jiǎn)蝹€(gè)維表;雪花架構(gòu):多個(gè)相關(guān)聯(lián)的維表級(jí)別、粒度、成員屬性粒度是數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)單元的詳細(xì)程度和級(jí)別。粒度越小,級(jí)別越低,細(xì)節(jié)程度越高;反之,數(shù)據(jù)綜合程度越高,粒度越大,級(jí)
6、別就越高。數(shù)據(jù)的粒度越高,所需要存儲(chǔ)的數(shù)據(jù)量越少,但對(duì)決策者的重要性卻隨之增加。成員屬性一般為某一級(jí)別的具體屬性,通過(guò)為某一級(jí)別創(chuàng)建成員屬性,可以進(jìn)行數(shù)據(jù)挖掘。時(shí)間、病種、患者、……;區(qū)域、產(chǎn)品、……時(shí)間維度:年、月、日病種維度:ICD主類、ICD次類、ICD子類、疾病名稱患者維度:所屬科室、經(jīng)診醫(yī)師、患者(成員屬性:性別、年齡、身份、費(fèi)用類別、手術(shù)情況、入院方式、入院病情、出院方式、治療結(jié)果、就診次數(shù)、所患疾病等)治療結(jié)果:只有一個(gè)級(jí)別度量值:主要是數(shù)值型字段,如:費(fèi)用金額、住院天數(shù)等衍生度量值:就診人次數(shù)等計(jì)算
7、成員:均值、百分比、率等時(shí)間代碼科室代碼病種代碼性別代碼年齡代碼身份代碼轉(zhuǎn)歸代碼住院天數(shù)術(shù)前住院天數(shù)住院總費(fèi)用藥品費(fèi)用……性別維表年齡維表身份維表時(shí)間維表科室維表病種維表轉(zhuǎn)歸維表住院事實(shí)表星型模型時(shí)間代碼患者代碼病種代碼性別代碼年齡代碼身份代碼轉(zhuǎn)歸代碼住院天數(shù)術(shù)前住院天數(shù)住院總費(fèi)用藥品費(fèi)用……性別維表年齡維表身份維表時(shí)間維表患者代碼住院科室代碼病種維表轉(zhuǎn)歸維表住院事實(shí)表雪花模型科室維表患者維表SQLserver2000數(shù)據(jù)挖掘2005年11月10日分析問(wèn)題數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)集創(chuàng)建和訓(xùn)練模型校驗(yàn)數(shù)據(jù)數(shù)據(jù)挖掘
8、模型維護(hù)數(shù)據(jù)挖掘數(shù)據(jù)清洗和轉(zhuǎn)換查詢數(shù)據(jù)客戶端數(shù)據(jù)查詢OLAP數(shù)據(jù)挖掘過(guò)程數(shù)據(jù)挖掘結(jié)果解釋查詢數(shù)據(jù)數(shù)據(jù)挖掘(datamining,DM)就是通過(guò)對(duì)大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中大量似乎無(wú)關(guān)的數(shù)據(jù)進(jìn)行分析,以便發(fā)現(xiàn)并提取隱藏在數(shù)據(jù)深處的、人們事先不知道的、但是潛在有用的信息、知識(shí)和規(guī)律的過(guò)程。數(shù)據(jù)挖掘是一種基于發(fā)現(xiàn)的方法,它能夠自動(dòng)分析數(shù)據(jù)并進(jìn)行歸納性的推理,從中挖掘出