資料探勘 -3 資料前置處理

資料探勘 -3 資料前置處理

ID:5960673

大小:274.00 KB

頁(yè)數(shù):39頁(yè)

時(shí)間:2017-11-16

資料探勘 -3 資料前置處理_第1頁(yè)
資料探勘 -3 資料前置處理_第2頁(yè)
資料探勘 -3 資料前置處理_第3頁(yè)
資料探勘 -3 資料前置處理_第4頁(yè)
資料探勘 -3 資料前置處理_第5頁(yè)
資源描述:

《資料探勘 -3 資料前置處理》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、第三章資料前置處理1第三章資料前置處理簡(jiǎn)介資料前置處理的主要工作遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化**總結(jié)2資料未經(jīng)處理的問(wèn)題資料不完整(dataincomplete)資料中某些屬性值有遺缺資料有雜訊(noise)資料有錯(cuò)誤或是特例(outlier)造成資料不一致(datainconsistency)商品在臺(tái)灣是以臺(tái)幣,在美國(guó)則是美金計(jì)價(jià)有高品質(zhì)的資料,才有高品質(zhì)的探勘結(jié)果3第三章資料前置處理簡(jiǎn)介資料前置處理的主要工作遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化**總結(jié)4前置處理

2、的主要工作資料整合整合後的資料清理過(guò)的資料資料轉(zhuǎn)換準(zhǔn)備進(jìn)行探勘的資料各種不同來(lái)源的資料資料清理5資料整合資料整合(dataintegration)解決多重資料來(lái)源的整合問(wèn)題主要工作消除資料不一致數(shù)值不一致(datavalueconflict)綱目不一致(schemaconflict)消除資料重複性數(shù)值重複綱目重複6資料清理(1)確認(rèn)資料正確性、完整性常見(jiàn)的資料正確性問(wèn)題7資料清理(2)確認(rèn)資料完整性常見(jiàn)的資料完整性問(wèn)題:8資料清理(3)其它清理工作遺缺填補(bǔ):人工填補(bǔ)或自動(dòng)填補(bǔ)雜訊消除:雜訊使探勘結(jié)果有相當(dāng)大的偏差,必須將雜訊移除或?qū)①Y料

3、做平緩化處理(smoothing)9資料轉(zhuǎn)換資料統(tǒng)整(dataaggregation)加總、統(tǒng)計(jì)或是建立資料方塊(datacube)將資料做初步整理,使得資料更適合探勘資料一般化(datageneralization)資料的概念階層(concepthierarchy)向上提升會(huì)員地址用城市或是北中南東四區(qū)取代資料精簡(jiǎn)的方法之一建立新屬性(attributeconstruction)利用舊屬性將探勘所需的新屬性建立10第三章資料前置處理簡(jiǎn)介資料前置處理的主要工作遺缺填補(bǔ)法雜訊去除法資料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化**總結(jié)1

4、1資料遺缺原因資料建立時(shí)未輸入故意或是不小心造成資料沒(méi)有被輸入設(shè)備故障例如收銀機(jī)故障,導(dǎo)致顧客消費(fèi)明細(xì)無(wú)法輸入因資料內(nèi)容不一致而被刪除當(dāng)資料內(nèi)容不一致時(shí),為了避免錯(cuò)誤的資料影響分析的準(zhǔn)確性,可能會(huì)將該項(xiàng)資料以空值取代,因此產(chǎn)生資料的遺缺12資料遺缺處理方法-直接忽略法處理資料遺缺最簡(jiǎn)單的方法適用時(shí)機(jī)進(jìn)行分類探勘時(shí),若資料的分類標(biāo)記(classlabel)為空值,這筆資料因無(wú)法被正確分類,便可直接刪除適用對(duì)象蒐集資料量很多、遺缺資料只佔(zhàn)一小部分缺點(diǎn)資料遺缺比例很可觀時(shí),會(huì)造成大量資料流失13資料遺缺處理方法-人工填補(bǔ)法處理資料遺缺的現(xiàn)象,

5、可採(cǎi)用人工來(lái)填補(bǔ)範(fàn)例當(dāng)某會(huì)員資料的生日屬性有遺缺,可打電話詢問(wèn)該會(huì)員,以取得其生日並加以填補(bǔ)。缺點(diǎn)當(dāng)資料遺缺較多時(shí),耗時(shí)且人力負(fù)擔(dān)沉重。14資料遺缺處理方法-自動(dòng)填補(bǔ)法主要兩種方式填入一個(gè)通用的常數(shù)值如填入“未知/unknown”,成為一個(gè)新的類別填入該屬性的整體平均值不會(huì)對(duì)統(tǒng)計(jì)結(jié)果造成太大的影響不影響統(tǒng)計(jì)結(jié)果的情況下,保留此資料屬性缺點(diǎn)是不夠客觀用推論法求出較可能的值來(lái)填入貝式方程式(Bayesianformula)另一種方法是利用決策樹(shù)(decisiontree)15第三章資料前置處理簡(jiǎn)介資料前置處理的主要工作遺缺填補(bǔ)法雜訊去除法資

6、料正規(guī)化資料形式轉(zhuǎn)換*資料型態(tài)轉(zhuǎn)換*資料模糊化**總結(jié)16雜訊的處理方法結(jié)合電腦和人工檢視結(jié)合電腦偵測(cè)與人工檢視資料平緩化處理回歸分析法(regressionanalysis)將資料套入回歸函數(shù)以消除雜訊裝箱法(binningmethod)將資料排序並切割成數(shù)個(gè)箱子用平均值、中位數(shù)或邊界值來(lái)取代箱子中的每一筆資料以消除雜訊17裝箱法-等寬分割法等寬分割法(或稱等距分割法,EqualWidth/Distance)將資料的數(shù)值範(fàn)圍劃分為N個(gè)間隔相同的區(qū)間若A和B分別為此屬性中的最小與最大值,則每個(gè)區(qū)間的間隔大小為:W=(B-A)/N.假設(shè)將

7、12樣商品的價(jià)格資料排序如下:12,15,18,21,28,33,36,45,50,52,60,80欲分割為四個(gè)箱子則箱子寬度=(80-12)/4=17箱子1(12-28):12,15,18,21,28箱子2(29-45):33,36,45箱子3(46-62):50,52,60箱子4(63-80):80最直覺(jué)的分割法,但特例對(duì)分割結(jié)果的影響很大不適用於偏斜的資料(skewdata)18等寬分割法示意圖12,15,18,21,28箱子1箱子233,36,45箱子350,52,6080箱子419裝箱法-等深分割法等深分割法(或稱等頻分割法,

8、EqualDepth/Frequency)將資料劃分為N個(gè)資料數(shù)量大致相同的區(qū)間《例》假設(shè)將12樣商品的價(jià)格資料排序如下:12,15,18,21,28,33,36,45,50,52,60,80四個(gè)箱子則每個(gè)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。