數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理

數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理

ID:40210044

大?。?82.00 KB

頁數(shù):66頁

時間:2019-07-26

數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理_第1頁
數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理_第2頁
數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理_第3頁
數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理_第4頁
數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理_第5頁
資源描述:

《數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、第2章:數(shù)據(jù)預(yù)處理為什么預(yù)處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約離散化和概念分層產(chǎn)生小結(jié)1為什么數(shù)據(jù)預(yù)處理?現(xiàn)實世界中的數(shù)據(jù)是臟的不完全:缺少屬性值,缺少某些有趣的屬性,或僅包含聚集數(shù)據(jù)例,occupation=“”噪音:包含錯誤或孤立點例,Salary=“-10”不一致:編碼或名字存在差異例,Age=“42”Birthday=“03/07/2010”例,以前的等級“1,2,3”,現(xiàn)在的等級“A,B,C”例,重復(fù)記錄間的差異2數(shù)據(jù)為什么臟?不完全數(shù)據(jù)源于數(shù)據(jù)收集時未包含數(shù)據(jù)收集和數(shù)據(jù)分析時的不同考慮.人/硬件/軟件問題噪音數(shù)據(jù)源于收集錄入變換不

2、一致數(shù)據(jù)源于不同的數(shù)據(jù)源違反函數(shù)依賴3為什么數(shù)據(jù)預(yù)處理是重要的?沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的數(shù)據(jù)挖掘結(jié)果!高質(zhì)量的決策必然依賴高質(zhì)量的數(shù)據(jù)例如,重復(fù)或遺漏的數(shù)據(jù)可能導(dǎo)致不正確或誤導(dǎo)的統(tǒng)計.數(shù)據(jù)倉庫需要高質(zhì)量數(shù)據(jù)的一致集成4數(shù)據(jù)質(zhì)量:一個多維視角一種廣泛接受的多角度:正確性(Accuracy)完全性(Completeness)一致性(Consistency)合時(Timeliness):timelyupdate?可信性(Believability)可解釋性(Interpretability)可存取性(Accessibility)5數(shù)據(jù)預(yù)處

3、理的主要任務(wù)數(shù)據(jù)清理填充缺失值,識別/去除離群點,光滑噪音,并糾正數(shù)據(jù)中的不一致數(shù)據(jù)集成多個數(shù)據(jù)庫,數(shù)據(jù)立方體,或文件的集成數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約得到數(shù)據(jù)的歸約表示,它小得多,但產(chǎn)生相同或類似的分析結(jié)果:維度規(guī)約、數(shù)值規(guī)約、數(shù)據(jù)壓縮數(shù)據(jù)離散化和概念分層6數(shù)據(jù)預(yù)處理的形式7第2章:數(shù)據(jù)預(yù)處理為什么預(yù)處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約離散化和概念分層產(chǎn)生小結(jié)8數(shù)據(jù)清理DataCleaning現(xiàn)實世界de數(shù)據(jù)是臟:很多潛在的不正確的數(shù)據(jù),比如,儀器故障,人為或計算機錯誤,許多傳輸錯誤incomplete:缺少屬性值,缺少某些有趣的屬性,或僅

4、包含聚集數(shù)據(jù)e.g.,職業(yè)=“”(missingdata)noisy:包含錯誤或孤立點e.g.,Salary=“?10”(anerror)inconsistent:編碼或名字存在差異,e.g.,Age=“42”,Birthday=“03/07/2010”以前的等級“1,2,3”,現(xiàn)在等級“A,B,C”重復(fù)記錄間的差異有意的(e.g.,變相丟失的數(shù)據(jù))Jan.1aseveryone’sbirthday?9如何處理缺失數(shù)據(jù)?忽略元組:缺少類別標(biāo)簽時常用(假定涉及分類—不是很有效,當(dāng)每個屬性的缺失百分比變化大時手工填寫缺失數(shù)據(jù):乏味+費時+不可行

5、?自動填充一個全局常量:e.g.,“unknown”,anewclass?!使用屬性均值與目標(biāo)元組同一類的所有樣本的屬性均值:更巧妙最可能的值:基于推理的方法,如貝葉斯公式或決策樹10噪音數(shù)據(jù)NoisyDataNoise:被測量的變量的隨機誤差或方差不正確的屬性值可能由于錯誤的數(shù)據(jù)收集工具數(shù)據(jù)錄入問題dataentryproblems數(shù)據(jù)傳輸問題datatransmissionproblems技術(shù)限制technologylimitation不一致的命名慣例inconsistencyinnamingconvention其他需要數(shù)據(jù)清理的問題重

6、復(fù)記錄duplicaterecords數(shù)據(jù)不完整incompletedata不一致的數(shù)據(jù)inconsistentdata11如何處理噪音數(shù)據(jù)?分箱Binningmethod:排序數(shù)據(jù),分布到等頻/等寬的箱/桶中箱均值光滑、箱中位數(shù)光滑、箱邊界光滑,etc.聚類Clustering檢測和去除離群點/孤立點outliers計算機和人工檢查相結(jié)合人工檢查可疑值(e.g.,dealwithpossibleoutliers)回歸Regression回歸函數(shù)擬合數(shù)據(jù)12分箱:簡單的離散化方法等寬度Equal-width(distance)剖分:分成大小

7、相等的n個區(qū)間:均勻網(wǎng)格uniformgrid若A和B是屬性的最低和最高取值,區(qū)間寬度為:W=(B–A)/N.孤立點可能占據(jù)重要影響maydominatepresentation傾斜的數(shù)據(jù)處理不好.等頻剖分(frequency)/等深equi-depth:分成n個區(qū)間,每一個含近似相同數(shù)目的樣本Gooddatascaling類別屬性可能會非常棘手.13BinningMethodsforDataSmoothing*Sorteddataforprice(indollars):4,8,9,15,21,21,24,25,26,28,29,34*Pa

8、rtitioninto(equi-depth)bins:-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34*Smoothingbyb

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。