資源描述:
《數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、一、問答題:1.數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?它們有哪些相似之處?答:區(qū)別:數(shù)據(jù)倉庫是面向主題的,集成的,不易更改且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)庫由一組內部相關的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫,是組成數(shù)據(jù)倉庫的源數(shù)據(jù).它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合.2.什么是數(shù)據(jù)挖掘?請舉例。數(shù)據(jù)挖掘:是從大量數(shù)據(jù)中提取或"挖掘"知識,也就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的數(shù)據(jù)挖掘有趣知識的過程.數(shù)據(jù)挖掘是可以從數(shù)據(jù)庫中提取有趣的知識規(guī)律或高層信息發(fā)現(xiàn)的知識,可以用于決策,過
2、程控制,信息管理,查詢處理.它不是一種從數(shù)據(jù)庫,統(tǒng)計學和機器學習發(fā)展的技術的簡單轉化,它涉及多學科技術的集成,包括數(shù)據(jù)庫技術,統(tǒng)計學,機器學習,高性能計算模式識別,神經網絡,數(shù)據(jù)可視化,信息檢索,圖象與信號處理和空間數(shù)據(jù)分析.隨著數(shù)據(jù)庫技術發(fā)展,數(shù)據(jù)的豐富帶來了對強有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述為"數(shù)據(jù)豐富,但信息貧乏",所以數(shù)據(jù)挖掘出來了.當把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程時,它涉及的步驟為:1)數(shù)據(jù)清理2)數(shù)據(jù)集成3)數(shù)據(jù)選擇4)數(shù)據(jù)變換5)數(shù)據(jù)挖掘6)模式評估7)知識表示3.試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅動的方法,而不愿使
3、用查詢驅動的方法。因為對于多個異種信息源的集成,查詢驅動方法需要復雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源,是一種低效的方法,開銷很大。而更新驅動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因為數(shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中,進行查詢的同時并不影響局部數(shù)據(jù)源上進行的處理,另外,還支持復雜的多維查詢。當異種數(shù)據(jù)源上的數(shù)據(jù)格式一致或者轉換比較容易,并且所要求的查詢比較簡單,不需要復雜的多維查詢時,查詢驅動方法可能更受歡迎。4.在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。答:1)忽略元組2)人工填寫空缺值3
4、)使用一個全局常量填充空缺值4)使用屬性的平均值填充空缺值5)使用與給定元組屬同一類的所有樣本的平均值6)使用最可能的值填充空缺值。其中,方法3到6使數(shù)據(jù)傾斜,填入的值可能不正確。不過,方法6是最常用的方法5.對于類特征化,基于數(shù)據(jù)立方體的實現(xiàn)與諸如面向屬性歸納的關系實現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。數(shù)據(jù)立方體方法是基于數(shù)據(jù)倉庫的,面向預計算的,物化視圖的方法。它在OLAP或數(shù)據(jù)挖掘查詢提交處理之前,脫機計算聚集。面向屬性歸納是面向關系數(shù)據(jù)庫查詢的,基于概化的,聯(lián)機的數(shù)據(jù)分析處理技術。面向屬性歸納方法更有效,因為在面向屬性歸納之前
5、進行數(shù)據(jù)聚焦,根據(jù)數(shù)據(jù)挖掘提供的信息進行數(shù)據(jù)收集,選擇相關的數(shù)據(jù)集不僅使數(shù)據(jù)挖掘更有效,而且與整個數(shù)據(jù)庫挖掘相比,能產生更有意義的規(guī)則?! 《?、填空題: 1.數(shù)據(jù)挖掘是一個多學科領域,這些學科包括:,數(shù)據(jù)庫系統(tǒng),統(tǒng)計學,機器學習,可視化和信息科學?! ?.數(shù)據(jù)挖掘的功能有概念/類描述,關聯(lián)分析,分類與預測,聚類分析,孤立點分析,演變分析。????3.數(shù)據(jù)挖掘的主要問題包括:挖掘方法和用戶交互問題,性能問題,數(shù)據(jù)庫類型的多樣性問題。????4.數(shù)據(jù)挖掘的性能問題包括:數(shù)據(jù)挖掘算法的有效性,算法的可伸縮性,并行、分布式、增量挖掘算法的研究?! ∪?、證明題: Apr
6、iori算法使用子集支持度性質的先驗知識。1.證明頻繁集的所有非空子集必須也是頻繁的。證明:根據(jù)定義,如果項集不滿足最小支持度閾值min_sup,則不是頻繁的,即如果想添加到,則結果項集不可能不更頻繁出現(xiàn)。因此,也不是頻繁的,即矛盾。2.證明項集的任意非空子集的支持度至少和s的支持度一樣大。同理可證?! ∷?、算法分析與擴展任意選擇《數(shù)據(jù)挖掘》書的第一章至第八章中一個算法進行分析與擴展,要求:1.描述該算法的思想,層次結構。2.寫出比較易懂的算法流程圖或偽代碼3.如果讓你用程序來實現(xiàn)算法,你準備采用什么數(shù)據(jù)結構實現(xiàn)(包括怎樣讀入和存放要處理的數(shù)據(jù)以及算法處理流程中
7、需要用到的數(shù)據(jù)結構),并做具體說明。4.指出算法的不足之處,應該從哪些方面增強算法的功能和性能。K-平均算法:算法描述:首先,隨機地選擇什對象,每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象,根據(jù)其與各個簇中心的距離,將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復,直到準則函數(shù)收斂。通常,采用平方誤差準則,其定義如下:這里的E是數(shù)據(jù)庫中所有對象的平方誤差的總和,P是空間中的點,表示給定的數(shù)據(jù)對象,m;是簇C;的平均值k和m;都是多維的人這個準則試圖使生成的結果簇盡可能地緊湊和獨立。這個算法嘗試找出使平方誤差函數(shù)值最小的k個劃分。當結果
8、簇是密集的,而簇與簇之間