數(shù)據(jù)挖掘概念與技術(shù)

數(shù)據(jù)挖掘概念與技術(shù)

ID:13202696

大小:54.50 KB

頁數(shù):8頁

時間:2018-07-21

數(shù)據(jù)挖掘概念與技術(shù)_第1頁
數(shù)據(jù)挖掘概念與技術(shù)_第2頁
數(shù)據(jù)挖掘概念與技術(shù)_第3頁
數(shù)據(jù)挖掘概念與技術(shù)_第4頁
數(shù)據(jù)挖掘概念與技術(shù)_第5頁
資源描述:

《數(shù)據(jù)挖掘概念與技術(shù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、數(shù)據(jù)挖掘概念與技術(shù)一.什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的知識體系及應(yīng)用范圍1.定義:又稱數(shù)據(jù)中的知識發(fā)現(xiàn),從大量的數(shù)據(jù)中挖掘有趣模式和知識的過程。知識發(fā)現(xiàn)的過程:?1).數(shù)據(jù)清理:除噪聲和刪除不一致數(shù)據(jù)?2).數(shù)據(jù)集成:多種數(shù)據(jù)源的組合?3).數(shù)據(jù)選擇:取和分析與任務(wù)相關(guān)的數(shù)據(jù)?4).數(shù)據(jù)變換:數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式?5).數(shù)據(jù)挖掘:使用智能方法提取數(shù)據(jù)格式?6).模式評估:識別代表知識的有趣模式?7).知識表示:使用可視化和知識表示技術(shù),向用戶提供挖掘的知識2.為什么要進行數(shù)據(jù)挖掘????未來將是大數(shù)

2、據(jù)時代,IDC(國際數(shù)據(jù)公司)研究報告指出2012年全球信息資料量為2.8ZB(2的40次方GB),而在2020年預(yù)計會達到40ZB,平均每人擁有5247GB的數(shù)據(jù)。龐大的數(shù)據(jù)量背后隱藏著巨大的潛在價值,人們手握巨量的數(shù)據(jù)卻沒有很好的手段去充分挖掘其中的價值,因此對數(shù)據(jù)挖掘的研究可以幫助我們將數(shù)據(jù)轉(zhuǎn)化成知識。3.數(shù)據(jù)挖掘的知識體系???數(shù)據(jù)挖掘作為一個應(yīng)用驅(qū)動的領(lǐng)域,吸納了許多應(yīng)用領(lǐng)域的技術(shù),包括:統(tǒng)計學(xué)、機器學(xué)習(xí)、模式識別、數(shù)據(jù)庫和數(shù)據(jù)倉庫、信息檢索、可視化、算法、高性能計算等。數(shù)據(jù)挖掘的任務(wù)分類:描

3、述性任務(wù):刻畫目標(biāo)數(shù)據(jù)的一般性質(zhì)預(yù)測性任務(wù):歸納及做出預(yù)測數(shù)據(jù)挖掘功能:1).數(shù)據(jù)特征化與數(shù)據(jù)區(qū)分2).頻繁模式3).關(guān)聯(lián)和相關(guān)性挖掘4).分類和回歸5).聚類分析6).離群點分析4.數(shù)據(jù)挖掘應(yīng)用領(lǐng)域1.金融數(shù)據(jù)分析82.零售與電信業(yè):例如分析零售數(shù)據(jù)有利于做出正確的決策;產(chǎn)品推薦;顧客保有及促銷策略3.科學(xué)與工程數(shù)據(jù)挖掘4.網(wǎng)絡(luò)數(shù)據(jù)挖掘:社交網(wǎng)絡(luò)用戶行為分析,多媒體、文本和web數(shù)據(jù)分析5.信息檢索:搜索引擎、云計算、數(shù)據(jù)倉庫?二.認(rèn)識數(shù)據(jù)1.屬性總結(jié):標(biāo)稱屬性:一些符號和事物的名稱,如頭發(fā)顏色和學(xué)歷

4、是描述人的屬性。二元屬性:只有0、1兩種狀態(tài)序數(shù)屬性:可能的值具有有意義的序,如教師職稱數(shù)值屬性:定量的,用實數(shù)值表示2.度量數(shù)據(jù)的相似性和相異性(即數(shù)據(jù)的鄰近性)非對稱二元屬性:Jaccard屬性數(shù)值屬性:歐幾里得距離、曼哈頓距離、閔可夫斯基距離、上確界距離相似性評估:余弦相似性(用于比較文檔)、Tanimoto系數(shù)3.數(shù)據(jù)預(yù)處理1).數(shù)據(jù)清理:填補缺失值、光滑噪聲、識別離群點、糾正數(shù)據(jù)不一致性,通常是一個兩步迭代過程,包括偏差檢測盒數(shù)據(jù)變換?處理缺失值:有忽略元組、人工填寫、全局常量填充、?????

5、?????????????均值或中位數(shù)填充、同類均值或中位數(shù)填充、最可能值填充六種方法。?噪聲數(shù)據(jù)處理:分箱(考察近鄰數(shù)據(jù)值,有箱均值、箱中位數(shù)、箱邊界光滑方法)???????????????回歸、離群點分析2).數(shù)據(jù)集成:將來自多個數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲實體識別問題:模式集成和對象匹配。如在一個系統(tǒng)中discount用于訂單,而在另一個系統(tǒng)中用于商品,集成不正確導(dǎo)致商品不正確打折冗余和相關(guān)分析:冗余指一個屬性能由另一個或另一組屬性導(dǎo)出,則這個屬性是冗余的,可用相關(guān)分析檢測到。標(biāo)稱數(shù)據(jù)使用卡方

6、檢驗,數(shù)值屬性用相關(guān)系數(shù)和協(xié)方差3).數(shù)據(jù)規(guī)約:簡化數(shù)據(jù)集的表示,包括維規(guī)約和數(shù)值規(guī)約維規(guī)約:數(shù)據(jù)壓縮技術(shù)(如小波變換和主成分分析),屬性子集選擇,屬性構(gòu)造數(shù)值規(guī)約:參數(shù)模型(如回歸),非參數(shù)模型(聚類、抽樣、直方圖)4).數(shù)據(jù)變換:將數(shù)據(jù)變換成適于挖掘的形式變換策略包括:光滑,屬性構(gòu)造,聚集,規(guī)范化,離散化,由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層。?8?三.數(shù)據(jù)倉庫與數(shù)據(jù)立方體技術(shù)1.數(shù)據(jù)倉庫基本概念:??1).數(shù)據(jù)倉庫定義:一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理者的決策過程。??2).數(shù)據(jù)庫與數(shù)

7、據(jù)倉庫的區(qū)別:?????主要區(qū)別在于數(shù)據(jù)庫是面向事務(wù)操作處理的,而數(shù)據(jù)倉庫是面向分析信息處理的。?????數(shù)據(jù)庫的用戶為數(shù)據(jù)庫專業(yè)人員、處理日常操作,而數(shù)據(jù)倉庫為主管和分析人員,為決策提供支持。??3).數(shù)據(jù)倉庫體系架構(gòu):底層數(shù)據(jù),中間層OLAP服務(wù)器,頂層前端工具??4).數(shù)據(jù)倉庫模型:????????企業(yè)倉庫:提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成,企業(yè)范圍的????????數(shù)據(jù)集市:包含企業(yè)范圍數(shù)據(jù)的一個子集,對特定的用戶群,咸魚選定的主題,部門范圍的。????????虛擬倉庫:操作數(shù)據(jù)庫上視圖的集合2.數(shù)據(jù)倉

8、庫建模數(shù)據(jù)立方體:允許以多維數(shù)據(jù)建模和觀察,由維(屬性)和事實(數(shù)值)定義方體:給定諸維的每個可能的自己產(chǎn)生一個方體,結(jié)果形成方體的格,方體的格稱作數(shù)據(jù)立方體。?多維模型:????????星形模式:包括一個大的中心表(事實表)、一組小的附屬表(維表),維表圍繞中心表????????雪花模式:是星形的表變種,某些維表被規(guī)范化費解到附加的表中,用于數(shù)據(jù)集市????????事實星座:多個事實表分享維表,用于復(fù)雜的應(yīng)用,常用于企業(yè)數(shù)據(jù)倉庫3.典型O

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。