數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 第四章 數(shù)據(jù)預(yù)處理

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 第四章 數(shù)據(jù)預(yù)處理

ID:5601578

大?。?08.50 KB

頁(yè)數(shù):10頁(yè)

時(shí)間:2017-12-19

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 第四章 數(shù)據(jù)預(yù)處理_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 第四章 數(shù)據(jù)預(yù)處理_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 第四章 數(shù)據(jù)預(yù)處理_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 第四章 數(shù)據(jù)預(yù)處理_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 第四章 數(shù)據(jù)預(yù)處理_第5頁(yè)
資源描述:

《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 第四章 數(shù)據(jù)預(yù)處理》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第4章數(shù)據(jù)預(yù)處理4.1數(shù)據(jù)預(yù)處理概述4.1.1原始數(shù)據(jù)中存在的問(wèn)題1.不一致2.重復(fù)3.不完整4.含噪聲5.維度高6.數(shù)據(jù)不平衡4.1.2數(shù)據(jù)預(yù)處理的方法和功能1.數(shù)據(jù)清洗(datacleaning)2.數(shù)據(jù)集成(dataintegration)3.數(shù)據(jù)變換(datatransformation)4.數(shù)據(jù)歸約(datareduction)4.2數(shù)據(jù)清洗4.2.1屬性選擇與處理1.盡可能賦予屬性名和屬性值明確的含義2.統(tǒng)一多數(shù)據(jù)源的屬性值編碼3.處理唯一屬性4.去除重復(fù)屬性5.去除可忽略字段6.合理選擇關(guān)聯(lián)字段數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)4.2.2空缺值處理1.忽略

2、該記錄2.去掉屬性3.寫空缺值4.使用默認(rèn)值5.使用屬性平均值6.使用同類樣本平均值7.預(yù)測(cè)最可能的值4.2.3噪聲數(shù)據(jù)處理1.分箱(binning)2.聚類(clustering)圖4-1用聚類方法去掉噪聲3.回歸(regression)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)4.2.4不平衡數(shù)據(jù)的處理4.3數(shù)據(jù)集成和變換4.3.1數(shù)據(jù)集成1.模式匹配2.數(shù)據(jù)冗余3.數(shù)據(jù)值沖突4.3.2數(shù)據(jù)變換1.平滑(smoothing)2.聚集(clustering)3.數(shù)據(jù)概化(generalization)4.規(guī)范化(normalization)5.屬性構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)4.4數(shù)據(jù)歸約4.4.1

3、數(shù)據(jù)歸約的方法4.4.2數(shù)據(jù)立方體聚集圖4-2銷售數(shù)據(jù)立方體圖4-3聚集后的銷售數(shù)據(jù)立方體數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)4.4.3維歸約1.逐步向前選擇2.逐步向后刪除3.向前選擇和向后刪除結(jié)合4.判定樹(shù)(dicisiontree)歸納圖4-4用判定數(shù)進(jìn)行屬性歸約5.基于統(tǒng)計(jì)分析的歸約4.4.4數(shù)據(jù)壓縮4.4.5數(shù)值歸約1.直方圖(histogram)圖4-5購(gòu)買數(shù)據(jù)的單桶直方圖數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)圖4-6購(gòu)買數(shù)據(jù)的等寬直方圖(箱寬5)2.聚類3.抽樣(sampling)圖4-7示例數(shù)據(jù)集數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)圖4-8用戶數(shù)據(jù)按年齡分層抽樣4.線性回歸5.非線性回歸4.4.6離散化與概

4、念分層生成圖4-9分箱產(chǎn)生的概念分層和離散化數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)1.數(shù)值數(shù)據(jù)的離散化與概念分層生成圖4-103-4-5規(guī)則產(chǎn)生的概念分層圖4-11數(shù)據(jù)集D的分布曲線圖4-12在置信區(qū)間[5%,95%]上的第一層劃分圖4-13對(duì)缺失區(qū)間補(bǔ)充的劃分?jǐn)?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)圖4-14對(duì)圖4-13進(jìn)一步分層2.分類數(shù)據(jù)的概念分層生成圖4-15對(duì)屬性組:year,month,day的概念分層習(xí)題41.列舉實(shí)際業(yè)務(wù)操作數(shù)據(jù)中存在的問(wèn)題以及這些問(wèn)題產(chǎn)生的原因。2.數(shù)據(jù)預(yù)處理涉及哪些方法,這些方法分別用于解決數(shù)據(jù)中的哪方面的問(wèn)題?3.說(shuō)明屬性選取的原則。4.說(shuō)明填補(bǔ)空缺值的方法和這些方法的優(yōu)缺點(diǎn)

5、。5.下面是一個(gè)超市某種商品連續(xù)24個(gè)月的銷售數(shù)據(jù)(百元):21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17使用統(tǒng)一權(quán)重、統(tǒng)一區(qū)間、和自定義區(qū)間方法對(duì)數(shù)據(jù)分箱,做出各種分箱方法得到的直方圖。6.對(duì)上題中分箱后的數(shù)據(jù)采用平均值、邊界值或中值等方法進(jìn)行平滑。7.如果挖掘算法需要把第5題中的商品銷售數(shù)據(jù)規(guī)范化到區(qū)間[0,1]上,采用最小-最大規(guī)范化方法,請(qǐng)寫出規(guī)范化后的結(jié)果。8.試采用一種分箱方法,對(duì)以下某種商品連續(xù)30周的銷售利潤(rùn)數(shù)據(jù)進(jìn)行歸約(千元):數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)3,2,5,7,4

6、,2,5,6,8,8,4,5,4,6,2,3,7,5,5,4,6,3,4,7,8,3,6,4,2,39.解釋本章中提到的幾種數(shù)據(jù)抽樣方法。10.用等寬分箱技術(shù)對(duì)排序后的數(shù)據(jù)集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58,58,58,58,58,63,63,66,66,66,69,74,74,74,78,78)進(jìn)行離散化,使得每箱寬度不大于5,形成概念分層。11.對(duì)連續(xù)數(shù)值型數(shù)據(jù)集D,取值范圍為0~70

7、,試用3-4-5規(guī)則對(duì)其進(jìn)行離散化。

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。