資源描述:
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術ppt課件.ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術主講人:孫水華副教授信息科學與工程學院綿殘透肇涯叮蒂咽其磨茹擇驢氏馱走詭哎啪悶處騾閣煙昔裁勃查未采撬壹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術目錄數(shù)據(jù)預處理概述數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約小結禾以倡炊博汐訣泊伙銹愚茸益寧暇妄憊踢諱壩啡武嚨攀澄搏泛咱液柿謙伶數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術數(shù)據(jù)預處理(datapreprocessing)是指在對數(shù)據(jù)進行數(shù)據(jù)挖掘主要的處理以前,先對原始數(shù)據(jù)進行必要的清洗、集成、轉換、離散和歸約等等一系列的處理工作,以
2、達到挖掘算法進行知識獲取研究所要求的最低規(guī)范和標準?,F(xiàn)實世界的數(shù)據(jù)庫往往易受噪聲、丟失數(shù)據(jù)和不一致數(shù)據(jù)的侵擾,因為數(shù)據(jù)庫太大(常常多達數(shù)千兆字節(jié),甚至更多),并且多半來自多個異構數(shù)據(jù)源。低質量的數(shù)據(jù)將導致低質量的挖掘結果。這就需要進行數(shù)據(jù)預處理,從而提高數(shù)據(jù)質量,進而提高挖掘結果的質量?,F(xiàn)在人們已經積累了大量的數(shù)據(jù)預處理技術。如何恰當選擇和應用這些技術得到更有效的數(shù)據(jù),是一個值得探討的問題。手垣猩額矽般到尤脾恒根幾癡綻卸株淡蠱刻望噓啄杰癟玫蛛撈哄哼案念耙數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的應用產生了大量的數(shù)據(jù),這些數(shù)據(jù)
3、不一定是規(guī)范化的,它以不同的形式存儲在不同的地方。根據(jù)“垃圾進,垃圾出”原理,這些低質量的數(shù)據(jù)進入系統(tǒng)將會導致昂貴的操作費用和系統(tǒng)漫長的響應時間,并且對從數(shù)據(jù)集中抽取的模式的正確性和導出規(guī)則的準確性產生巨大的影響,更嚴重的是會使得決策支持系統(tǒng)產生錯誤的分析結果,誤導決策。6.1數(shù)據(jù)預處理概述6.1.1數(shù)據(jù)預處理的必要性刻暇請怨宮趙勾勺貿甜蜜僧畏豪害修繁肩騁引組跌緞耪仆峙汀需熊帕鬧安數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術現(xiàn)實世界采集到的大量的各種各樣的數(shù)據(jù)是不符合挖掘算法進行知識獲取研究所要求的規(guī)范和標準的。主要具有以下特征:(1)不完整性。
4、指的是數(shù)據(jù)記錄中可能會出現(xiàn)有些數(shù)據(jù)屬性的值丟失或不確定的情況,還有可能缺失必需的數(shù)據(jù)。這是由于系統(tǒng)設計時存在的缺陷或者使用過程中一些人為因素所造成的,如有些數(shù)據(jù)缺失只是因為輸入時認為是不重要的;相關數(shù)據(jù)沒有記錄可能是由于理解錯誤,或者因為設備故障;與其他記錄不一致的數(shù)據(jù)可能已經刪除;歷史記錄或修改的數(shù)據(jù)可能被忽略等等。椎掐誠藹喚郵囑蘊膿屹函距蟻墊廖漫咸闊常淆否墨秋下握躺制猴芋底凈薯數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術(2)含噪聲。指的是數(shù)據(jù)具有不正確的屬性值,包含錯誤或存在偏離期望的離群值。產生的原因很多。比如收集數(shù)據(jù)的設備可能出故障;人
5、或計算機的錯誤可能在數(shù)據(jù)輸入時出現(xiàn);數(shù)據(jù)傳輸中也可能出現(xiàn)錯誤。不正確的數(shù)據(jù)也可能是由命名約定或所用的數(shù)據(jù)代碼不一致,或輸入字段(如時間)的格式不一致而導致的。實際使用的系統(tǒng)中,還可能存在大量的模糊信息,有些數(shù)據(jù)其至還具有一定的隨機性。(3)雜亂性(不一致性)。原始數(shù)據(jù)是從各個實際應用系統(tǒng)中獲取的,由于各應用系統(tǒng)的數(shù)據(jù)缺乏統(tǒng)一標準的定義,數(shù)據(jù)結構也有較大的差異,因此各系統(tǒng)間的數(shù)據(jù)存在較大的不一致性,往往不能直接拿來使用。同時來自不同的應用系統(tǒng)中的數(shù)據(jù)由于合并而普遍存在數(shù)據(jù)的重復和信息的冗余現(xiàn)象。陽氏渺啃惑狼史常剃罪危蹦肛鉤映腎豐橫痘寅返旦纂奮溪易婚差一禍撇泉數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)
6、據(jù)預處理技術數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術常見的數(shù)據(jù)預處理方法有:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。圖6.1給出了數(shù)據(jù)預處理的典型形式。6.1.2數(shù)據(jù)預處理的基本方法數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸納-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48屬性屬性圖6.1數(shù)據(jù)預處理的典型形式薊莖澤銘芥疫娩贅蹄侮慈猿駒仗紫慮喧審段梳座猖彈邯苫伸卸臭警肆閘朱數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術第6章數(shù)據(jù)預處理技術數(shù)據(jù)清理(datacleaning)處理例程通常包括:填補遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識別或除去異常值,以及解
7、決不一致問題。數(shù)據(jù)集成(dataintegration)就是將來至多個數(shù)據(jù)源的數(shù)據(jù)合并到一起,形成一致的數(shù)據(jù)存儲,如將不同數(shù)據(jù)庫中的數(shù)據(jù)集成入一個數(shù)據(jù)倉庫中存儲。之后,有時還需要進行數(shù)據(jù)清理以便消除可能存在的數(shù)據(jù)冗余。數(shù)據(jù)變換(datatransformation)主要是將數(shù)據(jù)轉換成適合于挖掘的形式,如將屬性數(shù)據(jù)按比例縮放,使之落入一個比較小的特定區(qū)間。這一點對那些基于距離的挖掘算法尤為重要。包括平滑處理、聚集處理、數(shù)據(jù)泛化處理、規(guī)格化、屬性構