數(shù)據(jù)挖掘3章數(shù)據(jù)預(yù)處理

數(shù)據(jù)挖掘3章數(shù)據(jù)預(yù)處理

ID:37791450

大?。?63.26 KB

頁數(shù):16頁

時(shí)間:2019-05-31

數(shù)據(jù)挖掘3章數(shù)據(jù)預(yù)處理_第1頁
數(shù)據(jù)挖掘3章數(shù)據(jù)預(yù)處理_第2頁
數(shù)據(jù)挖掘3章數(shù)據(jù)預(yù)處理_第3頁
數(shù)據(jù)挖掘3章數(shù)據(jù)預(yù)處理_第4頁
數(shù)據(jù)挖掘3章數(shù)據(jù)預(yù)處理_第5頁
資源描述:

《數(shù)據(jù)挖掘3章數(shù)據(jù)預(yù)處理》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、2021/7/291數(shù)據(jù)預(yù)處理2009年4月27日2021/7/2922.1數(shù)據(jù)預(yù)處理的原因正確性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability)數(shù)據(jù)質(zhì)量的含義2021/7/293數(shù)據(jù)錯(cuò)誤的不可避免性數(shù)據(jù)輸入和獲得過程數(shù)據(jù)錯(cuò)誤數(shù)據(jù)集成所表現(xiàn)出來的錯(cuò)誤數(shù)據(jù)傳輸過程所引入的錯(cuò)誤據(jù)統(tǒng)計(jì)有錯(cuò)誤的數(shù)據(jù)占總數(shù)據(jù)的5%左右[Redmen],[Orr98]數(shù)據(jù)錯(cuò)誤的危害性高昂的操作費(fèi)用糟糕的決策制定組織的不信任分散管理的注意力2021/7/294數(shù)據(jù)

2、預(yù)處理的形式數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約2021/7/2952.2描述性數(shù)據(jù)匯總均值分布式度量sum()count()min()max()代數(shù)度量average()mean()加權(quán)平均截?cái)嗥骄鶞p小極端值的影響整體度量中位數(shù)眾數(shù)中列數(shù)(max+min)/22.2.1度量數(shù)據(jù)的中心趨勢(shì)2021/7/2962.2描述性數(shù)據(jù)匯總極差、四分位數(shù)、離群點(diǎn)和箱形圖方差標(biāo)準(zhǔn)差2.2.2度量數(shù)據(jù)的離散趨勢(shì)2021/7/2972.2描述性數(shù)據(jù)匯總直方圖、分位數(shù)圖、分位數(shù)-分位數(shù)圖散點(diǎn)圖、散點(diǎn)圖陣、Loess曲線2.2.3基本

3、描述數(shù)據(jù)匯總的圖形顯示2021/7/2982.3數(shù)據(jù)清理忽略元組人工填寫空缺值使用一個(gè)全局常量填充空缺值使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值2.3.1缺失值2021/7/299分箱:按箱平均值、按箱中值、按箱邊界聚類計(jì)算機(jī)和人工檢查結(jié)合回歸2.3.2躁聲數(shù)據(jù)2.3.3數(shù)據(jù)清理作為一個(gè)過程2021/7/2910實(shí)體識(shí)別:元數(shù)據(jù)可幫助避免錯(cuò)誤屬性冗余:相關(guān)分析數(shù)據(jù)重復(fù)數(shù)據(jù)值沖突的檢測(cè)與處理:2.4數(shù)據(jù)集成和變換2.4.1數(shù)據(jù)集成2021/7/2911平滑聚集數(shù)

4、據(jù)概化規(guī)范化:最小-最大、Z-Score、按小數(shù)定標(biāo)屬性構(gòu)造2.4.2數(shù)據(jù)變換2021/7/29122.5數(shù)據(jù)歸約歸約數(shù)據(jù)集小、近似保持原數(shù)據(jù)的完整性2.5.1數(shù)據(jù)立方體聚集:聚集數(shù)據(jù)立方體使用與給定任務(wù)相關(guān)的最小方體2.5.2屬性子集選擇檢測(cè)、刪除不相關(guān)弱相關(guān)冗于的屬性和維方法:逐步向前、逐步向后、向前向后結(jié)合決策樹歸納:信息增益法2021/7/29132.5數(shù)據(jù)歸約歸約數(shù)據(jù)集小、近似保持原數(shù)據(jù)的完整性2.5.3數(shù)據(jù)壓縮:編碼機(jī)制壓縮數(shù)據(jù)方法:小波變換、主成分分析(PCA)數(shù)值壓縮:用替代的、較小的數(shù)據(jù)表示

5、數(shù)據(jù)方法:有參方法回歸和對(duì)數(shù)線性模型無參方法直方圖聚類抽樣2021/7/29142.6離散化和概念分層原始值用區(qū)間值或較高層的概念替換離散化:原始值劃分為有限個(gè)區(qū)間,減少了連續(xù)屬性值的個(gè)數(shù)概念分層:原始值用較高層的概念替換2021/7/29152.6離散化和概念分層:2.6.1對(duì)數(shù)值數(shù)據(jù):分箱直方圖分析聚類分析基于熵的離散化(entropy)通過信息增益方法確定區(qū)間邊界使用類信息,更可能將區(qū)間邊界定義準(zhǔn)確基于卡方分析的區(qū)間合并通過自然劃分分段3-4-5規(guī)則(P58):將數(shù)值數(shù)據(jù)劃分成相對(duì)一致的區(qū)間2021/7

6、/29162.6.2對(duì)分類數(shù)據(jù):分類數(shù)據(jù)是離散數(shù)據(jù)。一個(gè)分類屬性可能有有限個(gè)不同的值。方法由用戶和專家在模式級(jí)顯式的說明屬性的部分序通過顯式的數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分說明屬性集,但不說明他們的偏序只說明部分的屬性集

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。