資源描述:
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)主講人:孫水華副教授信息科學(xué)與工程學(xué)院目錄數(shù)據(jù)預(yù)處理概述數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約小結(jié)數(shù)據(jù)預(yù)處理(datapreprocessing)是指在對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘主要的處理以前,先對原始數(shù)據(jù)進(jìn)行必要的清洗、集成、轉(zhuǎn)換、離散和歸約等等一系列的處理工作,以達(dá)到挖掘算法進(jìn)行知識獲取研究所要求的最低規(guī)范和標(biāo)準(zhǔn)?,F(xiàn)實(shí)世界的數(shù)據(jù)庫往往易受噪聲、丟失數(shù)據(jù)和不一致數(shù)據(jù)的侵?jǐn)_,因?yàn)閿?shù)據(jù)庫太大(常常多達(dá)數(shù)千兆字節(jié),甚至更多),并且多半來自多個異構(gòu)數(shù)據(jù)源。低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果。這就需要進(jìn)行數(shù)據(jù)預(yù)處理,從而提高數(shù)據(jù)質(zhì)量,進(jìn)而提高挖掘結(jié)果的質(zhì)量。現(xiàn)在人們已經(jīng)積
2、累了大量的數(shù)據(jù)預(yù)處理技術(shù)。如何恰當(dāng)選擇和應(yīng)用這些技術(shù)得到更有效的數(shù)據(jù),是一個值得探討的問題。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的應(yīng)用產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)不一定是規(guī)范化的,它以不同的形式存儲在不同的地方。根據(jù)“垃圾進(jìn),垃圾出”原理,這些低質(zhì)量的數(shù)據(jù)進(jìn)入系統(tǒng)將會導(dǎo)致昂貴的操作費(fèi)用和系統(tǒng)漫長的響應(yīng)時間,并且對從數(shù)據(jù)集中抽取的模式的正確性和導(dǎo)出規(guī)則的準(zhǔn)確性產(chǎn)生巨大的影響,更嚴(yán)重的是會使得決策支持系統(tǒng)產(chǎn)生錯誤的分析結(jié)果,誤導(dǎo)決策。6.1數(shù)據(jù)預(yù)處理概述6.1.1數(shù)據(jù)預(yù)處理的必要性現(xiàn)實(shí)世界采集到的大量的各種各樣的數(shù)據(jù)是不符合挖掘算法進(jìn)行知識獲取研究所要求的規(guī)范和標(biāo)準(zhǔn)的。主要具有以下特征:(1)不完整性。指的是數(shù)據(jù)記
3、錄中可能會出現(xiàn)有些數(shù)據(jù)屬性的值丟失或不確定的情況,還有可能缺失必需的數(shù)據(jù)。這是由于系統(tǒng)設(shè)計(jì)時存在的缺陷或者使用過程中一些人為因素所造成的,如有些數(shù)據(jù)缺失只是因?yàn)檩斎霑r認(rèn)為是不重要的;相關(guān)數(shù)據(jù)沒有記錄可能是由于理解錯誤,或者因?yàn)樵O(shè)備故障;與其他記錄不一致的數(shù)據(jù)可能已經(jīng)刪除;歷史記錄或修改的數(shù)據(jù)可能被忽略等等。(2)含噪聲。指的是數(shù)據(jù)具有不正確的屬性值,包含錯誤或存在偏離期望的離群值。產(chǎn)生的原因很多。比如收集數(shù)據(jù)的設(shè)備可能出故障;人或計(jì)算機(jī)的錯誤可能在數(shù)據(jù)輸入時出現(xiàn);數(shù)據(jù)傳輸中也可能出現(xiàn)錯誤。不正確的數(shù)據(jù)也可能是由命名約定或所用的數(shù)據(jù)代碼不一致,或輸入字段(如時間)的格式不一致而導(dǎo)致的。實(shí)際使用
4、的系統(tǒng)中,還可能存在大量的模糊信息,有些數(shù)據(jù)其至還具有一定的隨機(jī)性。(3)雜亂性(不一致性)。原始數(shù)據(jù)是從各個實(shí)際應(yīng)用系統(tǒng)中獲取的,由于各應(yīng)用系統(tǒng)的數(shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn)的定義,數(shù)據(jù)結(jié)構(gòu)也有較大的差異,因此各系統(tǒng)間的數(shù)據(jù)存在較大的不一致性,往往不能直接拿來使用。同時來自不同的應(yīng)用系統(tǒng)中的數(shù)據(jù)由于合并而普遍存在數(shù)據(jù)的重復(fù)和信息的冗余現(xiàn)象。常見的數(shù)據(jù)預(yù)處理方法有:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。圖6.1給出了數(shù)據(jù)預(yù)處理的典型形式。6.1.2數(shù)據(jù)預(yù)處理的基本方法數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸納-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48屬性屬性圖6.1數(shù)據(jù)預(yù)處
5、理的典型形式數(shù)據(jù)清理(datacleaning)處理例程通常包括:填補(bǔ)遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識別或除去異常值,以及解決不一致問題。數(shù)據(jù)集成(dataintegration)就是將來至多個數(shù)據(jù)源的數(shù)據(jù)合并到一起,形成一致的數(shù)據(jù)存儲,如將不同數(shù)據(jù)庫中的數(shù)據(jù)集成入一個數(shù)據(jù)倉庫中存儲。之后,有時還需要進(jìn)行數(shù)據(jù)清理以便消除可能存在的數(shù)據(jù)冗余。數(shù)據(jù)變換(datatransformation)主要是將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式,如將屬性數(shù)據(jù)按比例縮放,使之落入一個比較小的特定區(qū)間。這一點(diǎn)對那些基于距離的挖掘算法尤為重要。包括平滑處理、聚集處理、數(shù)據(jù)泛化處理、規(guī)格化、屬性構(gòu)造。數(shù)據(jù)歸約(datare
6、duction)在不影響挖掘結(jié)果的前提下,通過數(shù)值聚集、刪除冗余特性的辦法壓縮數(shù)據(jù),提高挖掘模式的質(zhì)量,降低時間復(fù)雜度。目前,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在理論和應(yīng)用上都獲得了極大的發(fā)展,數(shù)據(jù)預(yù)處理作為其重要的、必不可少的組成部分,技術(shù)也隨之快速發(fā)展?,F(xiàn)階段數(shù)據(jù)預(yù)處理技術(shù)中研究最多的是數(shù)據(jù)清洗和數(shù)據(jù)歸約技術(shù)。6.1.3數(shù)據(jù)預(yù)處理的研究現(xiàn)狀數(shù)據(jù)清洗研究內(nèi)容主要涉及以下幾方面:(1)對數(shù)據(jù)集進(jìn)行檢測?,F(xiàn)階段主要有以下方法:可以采用統(tǒng)計(jì)學(xué)的方法來對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,計(jì)算屬性值的各種數(shù)值,如考慮屬性值之間差別大小,方差等。還有可以對與其他數(shù)據(jù)格式不一致的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,使之格式符合數(shù)據(jù)挖掘的需要。(2)對數(shù)
7、據(jù)集中重復(fù)的對象進(jìn)行消除,也就是對重復(fù)記錄的清理。對重復(fù)數(shù)據(jù)的處理在數(shù)據(jù)倉庫環(huán)境下特別重要,因?yàn)樵诰哂卸鄠€數(shù)據(jù)源的時候可能會產(chǎn)生大量的重復(fù)記錄。(3)對缺失數(shù)據(jù)的補(bǔ)齊,研究者大多采用可靠的算法將與缺失的值最相似的值替換缺失值的方法,包括貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、k-最臨近分類、粗糙集理論等,這些方法大都需要判斷缺失記錄與完整記錄之間的記錄相似度,這是其核心問題。數(shù)據(jù)歸約技術(shù)及其主要內(nèi)容為:(1)降維處理。主要采用