數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)

數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)

ID:40641492

大小:27.68 KB

頁(yè)數(shù):4頁(yè)

時(shí)間:2019-08-05

數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)_第1頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)_第2頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)_第3頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)_第4頁(yè)
資源描述:

《數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、一、問(wèn)答題:1.?dāng)?shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?它們有哪些相似之處?答:區(qū)別:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,集成的,不易更改且隨時(shí)間變化的數(shù)據(jù)集合,用來(lái)支持管理人員的決策,數(shù)據(jù)庫(kù)由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫(kù),是組成數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù).它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合.2.什么是數(shù)據(jù)挖掘?請(qǐng)舉例。數(shù)據(jù)挖掘:是從大量數(shù)據(jù)中提取或"挖掘"知識(shí),也就是從存放在數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的數(shù)據(jù)挖掘有趣知識(shí)的過(guò)程.數(shù)據(jù)挖掘是可以從數(shù)據(jù)庫(kù)中提取有趣的知識(shí)規(guī)律或高層信息發(fā)現(xiàn)的知識(shí),可以用于決策,過(guò)

2、程控制,信息管理,查詢處理.它不是一種從數(shù)據(jù)庫(kù),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)發(fā)展的技術(shù)的簡(jiǎn)單轉(zhuǎn)化,它涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫(kù)技術(shù),統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),高性能計(jì)算模式識(shí)別,神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)可視化,信息檢索,圖象與信號(hào)處理和空間數(shù)據(jù)分析.隨著數(shù)據(jù)庫(kù)技術(shù)發(fā)展,數(shù)據(jù)的豐富帶來(lái)了對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述為"數(shù)據(jù)豐富,但信息貧乏",所以數(shù)據(jù)挖掘出來(lái)了.當(dāng)把數(shù)據(jù)挖掘看作知識(shí)發(fā)現(xiàn)過(guò)程時(shí),它涉及的步驟為:1)數(shù)據(jù)清理2)數(shù)據(jù)集成3)數(shù)據(jù)選擇4)數(shù)據(jù)變換5)數(shù)據(jù)挖掘6)模式評(píng)估7)知識(shí)表示3.試述對(duì)于多個(gè)異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法,而不愿使

3、用查詢驅(qū)動(dòng)的方法。因?yàn)閷?duì)于多個(gè)異種信息源的集成,查詢驅(qū)動(dòng)方法需要復(fù)雜的信息過(guò)濾和集成處理,并且與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源,是一種低效的方法,開(kāi)銷很大。而更新驅(qū)動(dòng)方法為集成的異種數(shù)據(jù)庫(kù)系統(tǒng)帶來(lái)了高性能,因?yàn)閿?shù)據(jù)被處理和重新組織到一個(gè)語(yǔ)義一致的數(shù)據(jù)存儲(chǔ)中,進(jìn)行查詢的同時(shí)并不影響局部數(shù)據(jù)源上進(jìn)行的處理,另外,還支持復(fù)雜的多維查詢。當(dāng)異種數(shù)據(jù)源上的數(shù)據(jù)格式一致或者轉(zhuǎn)換比較容易,并且所要求的查詢比較簡(jiǎn)單,不需要復(fù)雜的多維查詢時(shí),查詢驅(qū)動(dòng)方法可能更受歡迎。4.在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法。答:1)忽略元組2)人工填寫(xiě)空缺值3

4、)使用一個(gè)全局常量填充空缺值4)使用屬性的平均值填充空缺值5)使用與給定元組屬同一類的所有樣本的平均值6)使用最可能的值填充空缺值。其中,方法3到6使數(shù)據(jù)傾斜,填入的值可能不正確。不過(guò),方法6是最常用的方法5.對(duì)于類特征化,基于數(shù)據(jù)立方體的實(shí)現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實(shí)現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。數(shù)據(jù)立方體方法是基于數(shù)據(jù)倉(cāng)庫(kù)的,面向預(yù)計(jì)算的,物化視圖的方法。它在OLAP或數(shù)據(jù)挖掘查詢提交處理之前,脫機(jī)計(jì)算聚集。面向?qū)傩詺w納是面向關(guān)系數(shù)據(jù)庫(kù)查詢的,基于概化的,聯(lián)機(jī)的數(shù)據(jù)分析處理技術(shù)。面向?qū)傩詺w納方法更有效,因?yàn)樵诿嫦驅(qū)傩詺w納之前

5、進(jìn)行數(shù)據(jù)聚焦,根據(jù)數(shù)據(jù)挖掘提供的信息進(jìn)行數(shù)據(jù)收集,選擇相關(guān)的數(shù)據(jù)集不僅使數(shù)據(jù)挖掘更有效,而且與整個(gè)數(shù)據(jù)庫(kù)挖掘相比,能產(chǎn)生更有意義的規(guī)則?! 《⑻羁疹}:  1.數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域,這些學(xué)科包括:,數(shù)據(jù)庫(kù)系統(tǒng),統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),可視化和信息科學(xué)?! ?.數(shù)據(jù)挖掘的功能有概念/類描述,關(guān)聯(lián)分析,分類與預(yù)測(cè),聚類分析,孤立點(diǎn)分析,演變分析。????3.數(shù)據(jù)挖掘的主要問(wèn)題包括:挖掘方法和用戶交互問(wèn)題,性能問(wèn)題,數(shù)據(jù)庫(kù)類型的多樣性問(wèn)題。????4.數(shù)據(jù)挖掘的性能問(wèn)題包括:數(shù)據(jù)挖掘算法的有效性,算法的可伸縮性,并行、分布式、增量挖掘算法的研究?! ∪⒆C明題: Apr

6、iori算法使用子集支持度性質(zhì)的先驗(yàn)知識(shí)。1.證明頻繁集的所有非空子集必須也是頻繁的。證明:根據(jù)定義,如果項(xiàng)集不滿足最小支持度閾值min_sup,則不是頻繁的,即如果想添加到,則結(jié)果項(xiàng)集不可能不更頻繁出現(xiàn)。因此,也不是頻繁的,即矛盾。2.證明項(xiàng)集的任意非空子集的支持度至少和s的支持度一樣大。同理可證。  四、算法分析與擴(kuò)展任意選擇《數(shù)據(jù)挖掘》書(shū)的第一章至第八章中一個(gè)算法進(jìn)行分析與擴(kuò)展,要求:1.描述該算法的思想,層次結(jié)構(gòu)。2.寫(xiě)出比較易懂的算法流程圖或偽代碼3.如果讓你用程序來(lái)實(shí)現(xiàn)算法,你準(zhǔn)備采用什么數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)(包括怎樣讀入和存放要處理的數(shù)據(jù)以及算法處理流程中

7、需要用到的數(shù)據(jù)結(jié)構(gòu)),并做具體說(shuō)明。4.指出算法的不足之處,應(yīng)該從哪些方面增強(qiáng)算法的功能和性能。K-平均算法:算法描述:首先,隨機(jī)地選擇什對(duì)象,每個(gè)對(duì)象初始地代表了一個(gè)簇的平均值或中心。對(duì)剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇中心的距離,將它賦給最近的簇。然后重新計(jì)算每個(gè)簇的平均值。這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。通常,采用平方誤差準(zhǔn)則,其定義如下:這里的E是數(shù)據(jù)庫(kù)中所有對(duì)象的平方誤差的總和,P是空間中的點(diǎn),表示給定的數(shù)據(jù)對(duì)象,m;是簇C;的平均值k和m;都是多維的人這個(gè)準(zhǔn)則試圖使生成的結(jié)果簇盡可能地緊湊和獨(dú)立。這個(gè)算法嘗試找出使平方誤差函數(shù)值最小的k個(gè)劃分。當(dāng)結(jié)果

8、簇是密集的,而簇與簇之間

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。