數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理

數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理

ID:40210044

大?。?82.00 KB

頁(yè)數(shù):66頁(yè)

時(shí)間:2019-07-26

數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理_第1頁(yè)
數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理_第2頁(yè)
數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理_第3頁(yè)
數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理_第4頁(yè)
數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理_第5頁(yè)
資源描述:

《數(shù)據(jù)挖掘概念與技術(shù) chapter2-數(shù)據(jù)預(yù)處理》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、第2章:數(shù)據(jù)預(yù)處理為什么預(yù)處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約離散化和概念分層產(chǎn)生小結(jié)1為什么數(shù)據(jù)預(yù)處理?現(xiàn)實(shí)世界中的數(shù)據(jù)是臟的不完全:缺少屬性值,缺少某些有趣的屬性,或僅包含聚集數(shù)據(jù)例,occupation=“”噪音:包含錯(cuò)誤或孤立點(diǎn)例,Salary=“-10”不一致:編碼或名字存在差異例,Age=“42”Birthday=“03/07/2010”例,以前的等級(jí)“1,2,3”,現(xiàn)在的等級(jí)“A,B,C”例,重復(fù)記錄間的差異2數(shù)據(jù)為什么臟?不完全數(shù)據(jù)源于數(shù)據(jù)收集時(shí)未包含數(shù)據(jù)收集和數(shù)據(jù)分析時(shí)的不同考慮.人/硬件/軟件問(wèn)題噪音數(shù)據(jù)源于收集錄入變換不

2、一致數(shù)據(jù)源于不同的數(shù)據(jù)源違反函數(shù)依賴3為什么數(shù)據(jù)預(yù)處理是重要的?沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的數(shù)據(jù)挖掘結(jié)果!高質(zhì)量的決策必然依賴高質(zhì)量的數(shù)據(jù)例如,重復(fù)或遺漏的數(shù)據(jù)可能導(dǎo)致不正確或誤導(dǎo)的統(tǒng)計(jì).數(shù)據(jù)倉(cāng)庫(kù)需要高質(zhì)量數(shù)據(jù)的一致集成4數(shù)據(jù)質(zhì)量:一個(gè)多維視角一種廣泛接受的多角度:正確性(Accuracy)完全性(Completeness)一致性(Consistency)合時(shí)(Timeliness):timelyupdate?可信性(Believability)可解釋性(Interpretability)可存取性(Accessibility)5數(shù)據(jù)預(yù)處

3、理的主要任務(wù)數(shù)據(jù)清理填充缺失值,識(shí)別/去除離群點(diǎn),光滑噪音,并糾正數(shù)據(jù)中的不一致數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)立方體,或文件的集成數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約得到數(shù)據(jù)的歸約表示,它小得多,但產(chǎn)生相同或類似的分析結(jié)果:維度規(guī)約、數(shù)值規(guī)約、數(shù)據(jù)壓縮數(shù)據(jù)離散化和概念分層6數(shù)據(jù)預(yù)處理的形式7第2章:數(shù)據(jù)預(yù)處理為什么預(yù)處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約離散化和概念分層產(chǎn)生小結(jié)8數(shù)據(jù)清理DataCleaning現(xiàn)實(shí)世界de數(shù)據(jù)是臟:很多潛在的不正確的數(shù)據(jù),比如,儀器故障,人為或計(jì)算機(jī)錯(cuò)誤,許多傳輸錯(cuò)誤incomplete:缺少屬性值,缺少某些有趣的屬性,或僅

4、包含聚集數(shù)據(jù)e.g.,職業(yè)=“”(missingdata)noisy:包含錯(cuò)誤或孤立點(diǎn)e.g.,Salary=“?10”(anerror)inconsistent:編碼或名字存在差異,e.g.,Age=“42”,Birthday=“03/07/2010”以前的等級(jí)“1,2,3”,現(xiàn)在等級(jí)“A,B,C”重復(fù)記錄間的差異有意的(e.g.,變相丟失的數(shù)據(jù))Jan.1aseveryone’sbirthday?9如何處理缺失數(shù)據(jù)?忽略元組:缺少類別標(biāo)簽時(shí)常用(假定涉及分類—不是很有效,當(dāng)每個(gè)屬性的缺失百分比變化大時(shí)手工填寫(xiě)缺失數(shù)據(jù):乏味+費(fèi)時(shí)+不可行

5、?自動(dòng)填充一個(gè)全局常量:e.g.,“unknown”,anewclass?!使用屬性均值與目標(biāo)元組同一類的所有樣本的屬性均值:更巧妙最可能的值:基于推理的方法,如貝葉斯公式或決策樹(shù)10噪音數(shù)據(jù)NoisyDataNoise:被測(cè)量的變量的隨機(jī)誤差或方差不正確的屬性值可能由于錯(cuò)誤的數(shù)據(jù)收集工具數(shù)據(jù)錄入問(wèn)題dataentryproblems數(shù)據(jù)傳輸問(wèn)題datatransmissionproblems技術(shù)限制technologylimitation不一致的命名慣例inconsistencyinnamingconvention其他需要數(shù)據(jù)清理的問(wèn)題重

6、復(fù)記錄duplicaterecords數(shù)據(jù)不完整incompletedata不一致的數(shù)據(jù)inconsistentdata11如何處理噪音數(shù)據(jù)?分箱Binningmethod:排序數(shù)據(jù),分布到等頻/等寬的箱/桶中箱均值光滑、箱中位數(shù)光滑、箱邊界光滑,etc.聚類Clustering檢測(cè)和去除離群點(diǎn)/孤立點(diǎn)outliers計(jì)算機(jī)和人工檢查相結(jié)合人工檢查可疑值(e.g.,dealwithpossibleoutliers)回歸Regression回歸函數(shù)擬合數(shù)據(jù)12分箱:簡(jiǎn)單的離散化方法等寬度Equal-width(distance)剖分:分成大小

7、相等的n個(gè)區(qū)間:均勻網(wǎng)格uniformgrid若A和B是屬性的最低和最高取值,區(qū)間寬度為:W=(B–A)/N.孤立點(diǎn)可能占據(jù)重要影響maydominatepresentation傾斜的數(shù)據(jù)處理不好.等頻剖分(frequency)/等深equi-depth:分成n個(gè)區(qū)間,每一個(gè)含近似相同數(shù)目的樣本Gooddatascaling類別屬性可能會(huì)非常棘手.13BinningMethodsforDataSmoothing*Sorteddataforprice(indollars):4,8,9,15,21,21,24,25,26,28,29,34*Pa

8、rtitioninto(equi-depth)bins:-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34*Smoothingbyb

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。