資源描述:
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 第四章 數(shù)據(jù)預(yù)處理》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第4章數(shù)據(jù)預(yù)處理4.1數(shù)據(jù)預(yù)處理概述4.1.1原始數(shù)據(jù)中存在的問題1.不一致2.重復(fù)3.不完整4.含噪聲5.維度高6.數(shù)據(jù)不平衡4.1.2數(shù)據(jù)預(yù)處理的方法和功能1.數(shù)據(jù)清洗(datacleaning)2.數(shù)據(jù)集成(dataintegration)3.數(shù)據(jù)變換(datatransformation)4.數(shù)據(jù)歸約(datareduction)4.2數(shù)據(jù)清洗4.2.1屬性選擇與處理1.盡可能賦予屬性名和屬性值明確的含義2.統(tǒng)一多數(shù)據(jù)源的屬性值編碼3.處理唯一屬性4.去除重復(fù)屬性5.去除可忽略字段6.合理選擇關(guān)聯(lián)字段數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)4.2.2空缺值處理1.忽略該記錄2.去
2、掉屬性3.寫空缺值4.使用默認值5.使用屬性平均值6.使用同類樣本平均值7.預(yù)測最可能的值4.2.3噪聲數(shù)據(jù)處理1.分箱(binning)2.聚類(clustering)圖4-1用聚類方法去掉噪聲3.回歸(regression)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)4.2.4不平衡數(shù)據(jù)的處理4.3數(shù)據(jù)集成和變換4.3.1數(shù)據(jù)集成1.模式匹配2.數(shù)據(jù)冗余3.數(shù)據(jù)值沖突4.3.2數(shù)據(jù)變換1.平滑(smoothing)2.聚集(clustering)3.數(shù)據(jù)概化(generalization)4.規(guī)范化(normalization)5.屬性構(gòu)造數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)4.4數(shù)據(jù)歸約4.4.1數(shù)據(jù)歸約的方法4.4.2
3、數(shù)據(jù)立方體聚集圖4-2銷售數(shù)據(jù)立方體圖4-3聚集后的銷售數(shù)據(jù)立方體數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)4.4.3維歸約1.逐步向前選擇2.逐步向后刪除3.向前選擇和向后刪除結(jié)合4.判定樹(dicisiontree)歸納圖4-4用判定數(shù)進行屬性歸約5.基于統(tǒng)計分析的歸約4.4.4數(shù)據(jù)壓縮4.4.5數(shù)值歸約1.直方圖(histogram)圖4-5購買數(shù)據(jù)的單桶直方圖數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)圖4-6購買數(shù)據(jù)的等寬直方圖(箱寬5)2.聚類3.抽樣(sampling)圖4-7示例數(shù)據(jù)集數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)圖4-8用戶數(shù)據(jù)按年齡分層抽樣4.線性回歸5.非線性回歸4.4.6離散化與概念分層生成圖4-9分箱產(chǎn)生的概念分層
4、和離散化數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)1.數(shù)值數(shù)據(jù)的離散化與概念分層生成圖4-103-4-5規(guī)則產(chǎn)生的概念分層圖4-11數(shù)據(jù)集D的分布曲線圖4-12在置信區(qū)間[5%,95%]上的第一層劃分圖4-13對缺失區(qū)間補充的劃分數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)圖4-14對圖4-13進一步分層2.分類數(shù)據(jù)的概念分層生成圖4-15對屬性組:year,month,day的概念分層習(xí)題41.列舉實際業(yè)務(wù)操作數(shù)據(jù)中存在的問題以及這些問題產(chǎn)生的原因。2.數(shù)據(jù)預(yù)處理涉及哪些方法,這些方法分別用于解決數(shù)據(jù)中的哪方面的問題?3.說明屬性選取的原則。4.說明填補空缺值的方法和這些方法的優(yōu)缺點。5.下面是一個超市某種商品連續(xù)24個月的銷售數(shù)
5、據(jù)(百元):21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17使用統(tǒng)一權(quán)重、統(tǒng)一區(qū)間、和自定義區(qū)間方法對數(shù)據(jù)分箱,做出各種分箱方法得到的直方圖。6.對上題中分箱后的數(shù)據(jù)采用平均值、邊界值或中值等方法進行平滑。7.如果挖掘算法需要把第5題中的商品銷售數(shù)據(jù)規(guī)范化到區(qū)間[0,1]上,采用最小-最大規(guī)范化方法,請寫出規(guī)范化后的結(jié)果。8.試采用一種分箱方法,對以下某種商品連續(xù)30周的銷售利潤數(shù)據(jù)進行歸約(千元):數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)3,2,5,7,4,2,5,6,8,8,4,5,4,6,2,3,7,5,5,4
6、,6,3,4,7,8,3,6,4,2,39.解釋本章中提到的幾種數(shù)據(jù)抽樣方法。10.用等寬分箱技術(shù)對排序后的數(shù)據(jù)集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58,58,58,58,58,63,63,66,66,66,69,74,74,74,78,78)進行離散化,使得每箱寬度不大于5,形成概念分層。11.對連續(xù)數(shù)值型數(shù)據(jù)集D,取值范圍為0~70,試用3-4-5規(guī)則對其進行離散化。