資源描述:
《數(shù)據(jù)清洗與數(shù)據(jù)預處理》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)清洗和數(shù)據(jù)預處理掃地機http://www.chinachijie.com/wenku1教學目標認識數(shù)據(jù)挖掘前數(shù)據(jù)進行適當處理的必要性掌握常用數(shù)據(jù)預處理的方法。教學要求知識要點能力要求相關知識點數(shù)據(jù)預處理的原因(1)了解原始數(shù)據(jù)存在的主要問題(2)明白數(shù)據(jù)預處理的作用和工作任務(1)數(shù)據(jù)的一致性問題(2)數(shù)據(jù)的噪聲問題(3)原始數(shù)據(jù)的不完整和高維度問題數(shù)據(jù)預處理的方法(1)掌握數(shù)據(jù)清洗的主要任務與常用方法(2)掌握數(shù)據(jù)集成的主要內(nèi)容和常用方法(3)掌握數(shù)據(jù)變換的主要內(nèi)容和常用方法(4)掌握數(shù)據(jù)歸約的主要內(nèi)容和常用方法(1)數(shù)據(jù)清洗(2)
2、數(shù)據(jù)集成(3)數(shù)據(jù)變換(4)數(shù)據(jù)歸約為什么要預處理數(shù)據(jù)?現(xiàn)實世界的數(shù)據(jù)是“骯臟的”不完整的含噪聲的不一致的沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結果高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉庫需要對高質(zhì)量的數(shù)據(jù)進行一致地集成原始數(shù)據(jù)中存在的問題1.不一致——數(shù)據(jù)內(nèi)涵出現(xiàn)不一致情況2.重復3.不完整——感興趣的屬性沒有值4.含噪聲——數(shù)據(jù)中存在著錯誤、或異常(偏離期望值)的數(shù)據(jù)5.高維度數(shù)據(jù)預處理的方法1.數(shù)據(jù)清洗去掉噪聲和無關數(shù)據(jù)2.數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來存放在一個一致的數(shù)據(jù)存儲中3.數(shù)據(jù)變換把原始數(shù)據(jù)轉換成為適合數(shù)據(jù)挖掘的形式4.
3、數(shù)據(jù)歸約主要方法包括:數(shù)據(jù)立方體聚集,維歸約,數(shù)據(jù)壓縮,數(shù)值歸約,離散化和概念分層等數(shù)據(jù)清洗數(shù)據(jù)選取參考原則:1.盡可能賦予屬性名和屬性值明確的含義2.統(tǒng)一多數(shù)據(jù)源的屬性值編碼3.去除惟一屬性4.去除重復屬性5.去除可忽略字段6.合理選擇關聯(lián)字段進一步處理:通過填補遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),以及糾正不一致的數(shù)據(jù),去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)數(shù)據(jù)清洗——處理空缺值數(shù)據(jù)并不總是完整的在分析一個商場銷售數(shù)據(jù)時,發(fā)現(xiàn)有多個記錄中的屬性值為空,如:顧客的收入屬性對于為空的屬性值引起空缺值的原因設備異常與其他已有數(shù)據(jù)不
4、一致而被刪除因為誤解而沒有被輸入的數(shù)據(jù)在輸入時,有些數(shù)據(jù)應為得不到重視而沒有被輸入對數(shù)據(jù)的改變沒有進行日志記載數(shù)據(jù)清洗——處理空缺值空缺值要經(jīng)過推斷而補上1.忽略該記錄2.去掉屬性3.手工填寫空缺值4.使用默認值5.使用屬性平均值6.使用同類樣本平均值7.預測最可能的值數(shù)據(jù)清洗——噪聲數(shù)據(jù)的處理噪聲:在測量一個變量時可能出現(xiàn)的測量值相對于真實值的偏差或者錯誤。噪聲數(shù)據(jù)的處理——分箱分箱:把待處理的數(shù)據(jù)按照一定的規(guī)則放進一些箱子中,考察每一個箱子中的數(shù)據(jù),采用某種方法分別對各個箱子中的數(shù)據(jù)進行處理。箱子:按照屬性值劃分的子區(qū)間,如果一個屬性值
5、處于某個子區(qū)間范圍內(nèi),就稱把該屬性值放進這個子區(qū)間代表的“箱子”里。分箱技術需要確定的主要問題:分箱方法,即如何分箱數(shù)據(jù)平滑方法,即如何對每個箱子中的數(shù)據(jù)進行平滑處理噪聲數(shù)據(jù)的處理——分箱分箱的方法:分箱前對記錄集按目標屬性值的大小進行排序。等深分箱法等寬分箱法用戶自定義區(qū)間最小熵例:客戶收入屬性income排序后的值(人民幣元):800100012001500150018002000230025002800300035004000450048005000噪聲數(shù)據(jù)的處理——分箱等深分箱法(統(tǒng)一權重)按記錄行數(shù)分箱,每箱具有相同的記錄數(shù),每箱
6、記錄數(shù)稱為箱的權重,也稱箱子的深度。設定權重(箱子深度)為4,上述例子分箱后的結果如下。箱1:800100012001500箱2:1500180020002300箱3:2500280030003500箱4:4000450048005000噪聲數(shù)據(jù)的處理——分箱等寬分箱法(統(tǒng)一區(qū)間)在整個屬性值的區(qū)間上平均分布,即每個箱的區(qū)間范圍是一個常量,稱為箱子寬度。設定區(qū)間范圍(箱子寬度)為1000元人民幣,分箱后箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:480
7、05000噪聲數(shù)據(jù)的處理——分箱最小熵使在各區(qū)間分組內(nèi)的記錄具有最小的熵。信息是信號、符號或消息所表示的內(nèi)容,用以消除對客觀事物認識的不確定性信息量的直觀定義:信息量的大小取決于信息內(nèi)容消除人們認識的“不確定程度”,所消除的不確定程度越大,則所包含的信息量就越大。熵——信息的度量(利用概率來度量)A到1000人的學校去找B。傳達室人告訴他,“B是信息管理系”,而管理系有100人。他獲得的信息是100/1000=0.1,也就是將可能性空間縮小到原來的1/10.用概率來表示:-log(1/10)=log10又有人告訴他:B在信息管理與信息系統(tǒng)教
8、研室(10人),則第2個信息的確定性又縮小到原來的100/1000*10/100=10/1000,其信息量為-log100/1000+(-log10/1000)=-log10/1