資源描述:
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)ppt課件.ppt》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)主講人:孫水華副教授信息科學(xué)與工程學(xué)院綿殘透肇涯叮蒂咽其磨茹擇驢氏馱走詭哎啪悶處騾閣煙昔裁勃查未采撬壹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)目錄數(shù)據(jù)預(yù)處理概述數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約小結(jié)禾以倡炊博汐訣泊伙銹愚茸益寧暇妄憊踢諱壩啡武嚨攀澄搏泛咱液柿謙伶數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)預(yù)處理(datapreprocessing)是指在對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘主要的處理以前,先對原始數(shù)據(jù)進(jìn)行必要的清洗、集成、轉(zhuǎn)換、離散和歸約等等一系列的處理工作,以
2、達(dá)到挖掘算法進(jìn)行知識獲取研究所要求的最低規(guī)范和標(biāo)準(zhǔn)?,F(xiàn)實(shí)世界的數(shù)據(jù)庫往往易受噪聲、丟失數(shù)據(jù)和不一致數(shù)據(jù)的侵?jǐn)_,因?yàn)閿?shù)據(jù)庫太大(常常多達(dá)數(shù)千兆字節(jié),甚至更多),并且多半來自多個(gè)異構(gòu)數(shù)據(jù)源。低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果。這就需要進(jìn)行數(shù)據(jù)預(yù)處理,從而提高數(shù)據(jù)質(zhì)量,進(jìn)而提高挖掘結(jié)果的質(zhì)量?,F(xiàn)在人們已經(jīng)積累了大量的數(shù)據(jù)預(yù)處理技術(shù)。如何恰當(dāng)選擇和應(yīng)用這些技術(shù)得到更有效的數(shù)據(jù),是一個(gè)值得探討的問題。手垣猩額矽般到尤脾恒根幾癡綻卸株淡蠱刻望噓啄杰癟玫蛛撈哄哼案念耙數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的應(yīng)用產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)
3、不一定是規(guī)范化的,它以不同的形式存儲在不同的地方。根據(jù)“垃圾進(jìn),垃圾出”原理,這些低質(zhì)量的數(shù)據(jù)進(jìn)入系統(tǒng)將會導(dǎo)致昂貴的操作費(fèi)用和系統(tǒng)漫長的響應(yīng)時(shí)間,并且對從數(shù)據(jù)集中抽取的模式的正確性和導(dǎo)出規(guī)則的準(zhǔn)確性產(chǎn)生巨大的影響,更嚴(yán)重的是會使得決策支持系統(tǒng)產(chǎn)生錯(cuò)誤的分析結(jié)果,誤導(dǎo)決策。6.1數(shù)據(jù)預(yù)處理概述6.1.1數(shù)據(jù)預(yù)處理的必要性刻暇請?jiān)箤m趙勾勺貿(mào)甜蜜僧畏豪害修繁肩騁引組跌緞耪仆峙汀需熊帕鬧安數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)現(xiàn)實(shí)世界采集到的大量的各種各樣的數(shù)據(jù)是不符合挖掘算法進(jìn)行知識獲取研究所要求的規(guī)范和標(biāo)準(zhǔn)的。主要具有以下特征:(1)不完整性。
4、指的是數(shù)據(jù)記錄中可能會出現(xiàn)有些數(shù)據(jù)屬性的值丟失或不確定的情況,還有可能缺失必需的數(shù)據(jù)。這是由于系統(tǒng)設(shè)計(jì)時(shí)存在的缺陷或者使用過程中一些人為因素所造成的,如有些數(shù)據(jù)缺失只是因?yàn)檩斎霑r(shí)認(rèn)為是不重要的;相關(guān)數(shù)據(jù)沒有記錄可能是由于理解錯(cuò)誤,或者因?yàn)樵O(shè)備故障;與其他記錄不一致的數(shù)據(jù)可能已經(jīng)刪除;歷史記錄或修改的數(shù)據(jù)可能被忽略等等。椎掐誠藹喚郵囑蘊(yùn)膿屹函距蟻墊廖漫咸闊常淆否墨秋下握躺制猴芋底凈薯數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)(2)含噪聲。指的是數(shù)據(jù)具有不正確的屬性值,包含錯(cuò)誤或存在偏離期望的離群值。產(chǎn)生的原因很多。比如收集數(shù)據(jù)的設(shè)備可能出故障;人
5、或計(jì)算機(jī)的錯(cuò)誤可能在數(shù)據(jù)輸入時(shí)出現(xiàn);數(shù)據(jù)傳輸中也可能出現(xiàn)錯(cuò)誤。不正確的數(shù)據(jù)也可能是由命名約定或所用的數(shù)據(jù)代碼不一致,或輸入字段(如時(shí)間)的格式不一致而導(dǎo)致的。實(shí)際使用的系統(tǒng)中,還可能存在大量的模糊信息,有些數(shù)據(jù)其至還具有一定的隨機(jī)性。(3)雜亂性(不一致性)。原始數(shù)據(jù)是從各個(gè)實(shí)際應(yīng)用系統(tǒng)中獲取的,由于各應(yīng)用系統(tǒng)的數(shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn)的定義,數(shù)據(jù)結(jié)構(gòu)也有較大的差異,因此各系統(tǒng)間的數(shù)據(jù)存在較大的不一致性,往往不能直接拿來使用。同時(shí)來自不同的應(yīng)用系統(tǒng)中的數(shù)據(jù)由于合并而普遍存在數(shù)據(jù)的重復(fù)和信息的冗余現(xiàn)象。陽氏渺啃惑狼史常剃罪危蹦肛鉤映腎豐橫痘寅返旦纂奮溪易婚差一禍撇泉數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)
6、據(jù)預(yù)處理技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)常見的數(shù)據(jù)預(yù)處理方法有:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。圖6.1給出了數(shù)據(jù)預(yù)處理的典型形式。6.1.2數(shù)據(jù)預(yù)處理的基本方法數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸納-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48屬性屬性圖6.1數(shù)據(jù)預(yù)處理的典型形式薊莖澤銘芥疫娩贅蹄侮慈猿駒仗紫慮喧審段梳座猖彈邯苫伸卸臭警肆閘朱數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)清理(datacleaning)處理例程通常包括:填補(bǔ)遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識別或除去異常值,以及解
7、決不一致問題。數(shù)據(jù)集成(dataintegration)就是將來至多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并到一起,形成一致的數(shù)據(jù)存儲,如將不同數(shù)據(jù)庫中的數(shù)據(jù)集成入一個(gè)數(shù)據(jù)倉庫中存儲。之后,有時(shí)還需要進(jìn)行數(shù)據(jù)清理以便消除可能存在的數(shù)據(jù)冗余。數(shù)據(jù)變換(datatransformation)主要是將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式,如將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)比較小的特定區(qū)間。這一點(diǎn)對那些基于距離的挖掘算法尤為重要。包括平滑處理、聚集處理、數(shù)據(jù)泛化處理、規(guī)格化、屬性構(gòu)