資源描述:
《數(shù)據(jù)挖掘3數(shù)據(jù)預(yù)處理浙大》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、數(shù)據(jù)預(yù)處理為什么要預(yù)處理數(shù)據(jù)?現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”——數(shù)據(jù)多了,什么問(wèn)題都會(huì)出現(xiàn)不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)含噪聲的:包含錯(cuò)誤或者“孤立點(diǎn)”不一致的:在編碼或者命名上存在差異沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)需要對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行一致地集成數(shù)據(jù)質(zhì)量的多維度量一個(gè)廣為認(rèn)可的多維度量觀點(diǎn):精確度完整度一致性合乎時(shí)機(jī)可信度附加價(jià)值可訪問(wèn)性跟數(shù)據(jù)本身的含義相關(guān)的內(nèi)在的、上下文的、表象的數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理填寫空缺的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除孤立點(diǎn),解決不一致性數(shù)據(jù)集成集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件數(shù)據(jù)
2、變換規(guī)范化和聚集數(shù)據(jù)歸約得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果數(shù)據(jù)離散化數(shù)據(jù)歸約的一部分,通過(guò)概念分層和數(shù)據(jù)的離散化來(lái)規(guī)約數(shù)據(jù),對(duì)數(shù)字型數(shù)據(jù)特別重要空缺值數(shù)據(jù)并不總是完整的例如:數(shù)據(jù)庫(kù)表中,很多條記錄的對(duì)應(yīng)字段沒(méi)有相應(yīng)值,比如銷售表中的顧客收入引起空缺值的原因設(shè)備異常與其他已有數(shù)據(jù)不一致而被刪除因?yàn)檎`解而沒(méi)有被輸入的數(shù)據(jù)在輸入時(shí),有些數(shù)據(jù)應(yīng)為得不到重視而沒(méi)有被輸入對(duì)數(shù)據(jù)的改變沒(méi)有進(jìn)行日志記載空缺值要經(jīng)過(guò)推斷而補(bǔ)上如何處理空缺值忽略元組:當(dāng)類標(biāo)號(hào)缺少時(shí)通常這么做(假定挖掘任務(wù)涉及分類或描述),當(dāng)每個(gè)屬性缺少值的百分比變化很大時(shí),它的效果非常差。人工填寫空缺值:工作
3、量大,可行性低使用一個(gè)全局變量填充空缺值:比如使用unknown或-∞使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定樹(shù)這樣的基于推斷的方法噪聲數(shù)據(jù)噪聲:一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差引起噪聲數(shù)據(jù)的原因數(shù)據(jù)收集工具的問(wèn)題數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)傳輸錯(cuò)誤技術(shù)限制命名規(guī)則的不一致如何處理噪聲數(shù)據(jù)分箱(binning):首先排序數(shù)據(jù),并將他們分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的邊界平滑等等聚類:監(jiān)測(cè)并且去除孤立點(diǎn)計(jì)算機(jī)和人工檢查結(jié)合計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù),然后對(duì)它們進(jìn)行人工判斷回歸通過(guò)讓數(shù)據(jù)適應(yīng)回歸函
4、數(shù)來(lái)平滑數(shù)據(jù)數(shù)據(jù)平滑的分箱方法price的排序后數(shù)據(jù)(單位:美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱邊界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25,34聚類通過(guò)聚類分析查找孤立點(diǎn),消除噪聲回歸xyy=x+1X1Y1Y1’數(shù)據(jù)集成數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)整合到一個(gè)一致的存儲(chǔ)中模式集成:整合不同數(shù)據(jù)源中的元數(shù)據(jù)實(shí)體識(shí)別問(wèn)題:匹配來(lái)自不同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體,比如:A.cust-id=
5、B.customer_no檢測(cè)并解決數(shù)據(jù)值的沖突對(duì)現(xiàn)實(shí)世界中的同一實(shí)體,來(lái)自不同數(shù)據(jù)源的屬性值可能是不同的可能的原因:不同的數(shù)據(jù)表示,不同的度量等等處理數(shù)據(jù)集成中的冗余數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫(kù)時(shí),經(jīng)常會(huì)出現(xiàn)冗余數(shù)據(jù)同一屬性在不同的數(shù)據(jù)庫(kù)中會(huì)有不同的字段名一個(gè)屬性可以由另外一個(gè)表導(dǎo)出,如“年薪”有些冗余可以被相關(guān)分析檢測(cè)到仔細(xì)將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)集成起來(lái),能夠減少或避免結(jié)果數(shù)據(jù)中的冗余與不一致性,從而可以提高挖掘的速度和質(zhì)量。數(shù)據(jù)變換平滑:去除數(shù)據(jù)中的噪聲(分箱、聚類、回歸)聚集:匯總,數(shù)據(jù)立方體的構(gòu)建數(shù)據(jù)概化:沿概念分層向上概化規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間最?。畲?/p>
6、規(guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化屬性構(gòu)造通過(guò)現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中;以增加對(duì)高維數(shù)據(jù)的結(jié)構(gòu)的理解和精確度數(shù)據(jù)變換——規(guī)范化最?。畲笠?guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化其中,j是使Max(
7、
8、)<1的最小整數(shù)數(shù)據(jù)歸約策略數(shù)據(jù)倉(cāng)庫(kù)中往往存有海量數(shù)據(jù),在其上進(jìn)行復(fù)雜的數(shù)據(jù)分析與挖掘需要很長(zhǎng)的時(shí)間數(shù)據(jù)歸約數(shù)據(jù)歸約可以用來(lái)得到數(shù)據(jù)集的歸約表示,它小得多,但可以產(chǎn)生相同的(或幾乎相同的)分析結(jié)果數(shù)據(jù)歸約策略數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值歸約離散化和概念分層產(chǎn)生用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過(guò)或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時(shí)間。數(shù)據(jù)立方體聚集最底層的方體對(duì)應(yīng)于基
9、本方體基本方體對(duì)應(yīng)于感興趣的實(shí)體在數(shù)據(jù)立方體中存在著不同級(jí)別的匯總數(shù)據(jù)立方體可以看成方體的格每個(gè)較高層次的抽象將進(jìn)一步減少結(jié)果數(shù)據(jù)數(shù)據(jù)立方體提供了對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)的快速訪問(wèn)使用與給定任務(wù)相關(guān)的最小方體在可能的情況下,對(duì)于匯總數(shù)據(jù)的查詢應(yīng)當(dāng)使用數(shù)據(jù)立方體維歸約通過(guò)刪除不相干的屬性或維減少數(shù)據(jù)量屬性子集選擇找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能的接近使用所有屬性的原分布減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解啟發(fā)式的(探索性的)方法逐步向前選擇逐步向后刪