數(shù)據(jù)挖掘chapter3數(shù)據(jù)預(yù)處理

數(shù)據(jù)挖掘chapter3數(shù)據(jù)預(yù)處理

ID:14282876

大小:294.00 KB

頁數(shù):22頁

時(shí)間:2018-07-27

數(shù)據(jù)挖掘chapter3數(shù)據(jù)預(yù)處理_第1頁
數(shù)據(jù)挖掘chapter3數(shù)據(jù)預(yù)處理_第2頁
數(shù)據(jù)挖掘chapter3數(shù)據(jù)預(yù)處理_第3頁
數(shù)據(jù)挖掘chapter3數(shù)據(jù)預(yù)處理_第4頁
數(shù)據(jù)挖掘chapter3數(shù)據(jù)預(yù)處理_第5頁
資源描述:

《數(shù)據(jù)挖掘chapter3數(shù)據(jù)預(yù)處理》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、第三章數(shù)據(jù)預(yù)處理當(dāng)今現(xiàn)實(shí)世界中的數(shù)據(jù)庫(kù)極易受噪音數(shù)據(jù)、遺漏數(shù)據(jù)和不一致性數(shù)據(jù)的侵?jǐn)_,因?yàn)閿?shù)據(jù)庫(kù)太大,常常多達(dá)數(shù)千兆,甚至更多?!叭绾晤A(yù)處理數(shù)據(jù),提高數(shù)據(jù)質(zhì)量,從而提高挖掘結(jié)果的質(zhì)量?”你可能會(huì)問。“怎樣預(yù)處理數(shù)據(jù),使得挖掘過程更加有效、更加容易?”有大量數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)清理可以去掉數(shù)據(jù)中的噪音,糾正不一致。數(shù)據(jù)集成將數(shù)據(jù)由多個(gè)源合并成一致的數(shù)據(jù)存儲(chǔ),如數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)方。數(shù)據(jù)變換(如規(guī)范化)也可以使用。例如,規(guī)范化可以改進(jìn)涉及距離度量的挖掘算法的精度和有效性。數(shù)據(jù)歸約可以通過聚集、刪除冗余特征或聚類等方法來壓縮數(shù)據(jù)

2、。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,可以大大提高數(shù)據(jù)挖掘模式的質(zhì)量,降低實(shí)際挖掘所需要的時(shí)間。本章,你將學(xué)習(xí)數(shù)據(jù)預(yù)處理的方法。這些方法包括:數(shù)據(jù)清理、數(shù)據(jù)集成和轉(zhuǎn)換、數(shù)據(jù)歸約。本章還討論數(shù)據(jù)離散化和概念分層,它們是數(shù)據(jù)歸約的一種替換形式。概念分層可以進(jìn)一步用于多抽象層挖掘。你將學(xué)習(xí)如何由給定的數(shù)據(jù)自動(dòng)地產(chǎn)生概念分層。3.1為什么要預(yù)處理數(shù)據(jù)?想象你是AllElectronics的經(jīng)理,負(fù)責(zé)分析涉及你部門的公司數(shù)據(jù)。你立即著手進(jìn)行這項(xiàng)工作。你仔細(xì)地研究和審查公司的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),找出應(yīng)當(dāng)包含在你的分析中的屬性或維,

3、如item,price和units_sold。??!你注意到,許多元組在一些屬性上沒有值。對(duì)于你的分析,你希望知道每種銷售商品是否通過廣告降價(jià)銷售,但你又發(fā)現(xiàn)這些信息根本未記錄。此外,你的數(shù)據(jù)庫(kù)系統(tǒng)用戶已經(jīng)報(bào)告一些錯(cuò)誤、不尋常的值和某些事務(wù)記錄中的不一致性。換言之,你希望使用數(shù)據(jù)挖掘技術(shù)分析的數(shù)據(jù)是不完整的(有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)),含噪音的(包含錯(cuò)誤,或存在偏離期望的局外者),并且是不一致的(例如,用于商品分類的部門編碼存在差異)。歡迎來到現(xiàn)實(shí)世界!存在不完整的、含噪音的和不一致的數(shù)據(jù)是大型的、

4、現(xiàn)實(shí)世界數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的共同特點(diǎn)。不完整數(shù)據(jù)的出現(xiàn)可能有多種原因。有些感興趣的屬性,如銷售事務(wù)數(shù)據(jù)中顧客的信息,并非總是可用的。其它數(shù)據(jù)沒有包含在內(nèi),可能只是因?yàn)檩斎霑r(shí)認(rèn)為是不重要的。相關(guān)數(shù)據(jù)沒有記錄是由于理解錯(cuò)誤,或者因?yàn)樵O(shè)備故障。此外,記錄歷史或修改的數(shù)據(jù)可能被忽略。與其它數(shù)據(jù)不一致的數(shù)據(jù)可以刪除。遺漏的數(shù)據(jù),特別是某些屬性上缺少值的元組可能需要推導(dǎo)出來。數(shù)據(jù)含噪音(具有不正確的屬性值)可能有多種原因。收集數(shù)據(jù)的設(shè)備可能出故障;人的或計(jì)算機(jī)的錯(cuò)誤可能在數(shù)據(jù)輸入時(shí)出現(xiàn);數(shù)據(jù)傳輸中的錯(cuò)誤也可能出現(xiàn)。這些可能是由于技

5、術(shù)的限制,如用于數(shù)據(jù)傳輸同步的緩沖區(qū)大小的限制。不正確的數(shù)據(jù)也可能是由命名或所用的數(shù)據(jù)代碼不一致而導(dǎo)致的。重復(fù)元組也需要數(shù)據(jù)清理。數(shù)據(jù)清理例程通過填寫遺漏的值,平滑噪音數(shù)據(jù),識(shí)別、刪除局外者,并解決不一致來“清理”數(shù)據(jù)。臟數(shù)據(jù)造成挖掘過程陷入困惑,導(dǎo)致不可靠的輸出。盡管大部分挖掘例程都有一些過程,處理不完整或噪音數(shù)據(jù),但它們并非總是強(qiáng)壯的。相反,它們更致力于避免數(shù)據(jù)過分適合所建的模型。這樣,一個(gè)有用的預(yù)處理步驟是使用某些清理例程清理你的數(shù)據(jù)。3.2節(jié)討論清理數(shù)據(jù)的方法。回到你在AllElectronics的任務(wù),假定

6、你想在你的分析中包含來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)。這涉及集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)方或文件,即數(shù)據(jù)集成。代表同一概念的屬性在不同的數(shù)據(jù)庫(kù)中可能具有不同的名字,這又導(dǎo)致不一致性和冗余。例如,關(guān)于顧客標(biāo)識(shí)符的屬性在一種數(shù)據(jù)存儲(chǔ)中為customer_id,而在另一種為cust_id。命名的不一致還可能出現(xiàn)在屬性值中。例如,同名的人可能在一個(gè)數(shù)據(jù)庫(kù)中登記為Bill,在第二個(gè)數(shù)據(jù)庫(kù)中登記為William,而在第三個(gè)數(shù)據(jù)庫(kù)中登記為“B”。此外,你可能會(huì)覺察到,有些屬性可能是由其它屬性導(dǎo)出的(例如,年收入)。含大量冗余數(shù)據(jù)可能降低知識(shí)發(fā)現(xiàn)過程的

7、性能或使之陷入困惑。顯然,除數(shù)據(jù)清理之外,必須采取步驟,避免數(shù)據(jù)集成時(shí)的冗余。通常,在為數(shù)據(jù)倉(cāng)庫(kù)準(zhǔn)備數(shù)據(jù)時(shí),數(shù)據(jù)清理和集成將作為預(yù)處理步驟進(jìn)行。還可以再次進(jìn)行數(shù)據(jù)清理,檢測(cè)和移去可能由集成導(dǎo)致的冗余?;氐侥愕臄?shù)據(jù),如果你決定要使用諸如神經(jīng)網(wǎng)絡(luò)、最臨近分類或聚類神經(jīng)網(wǎng)絡(luò)和最臨近分類在第7章介紹,而聚類在第8章討論。這樣的基于距離的挖掘算法進(jìn)行你的分析。如果要分析的數(shù)據(jù)已規(guī)格化,即按比例映射到一個(gè)特定的區(qū)間[0.0,1.0],這種方法能得到較好的結(jié)果。例如,你的顧客數(shù)據(jù)包含年齡和年薪屬性。年薪屬性的取值范圍可能比年齡更大

8、。這樣,如果屬性未規(guī)格化,在年薪上距離度量所取的權(quán)重一般要超過在年齡度量上所取的權(quán)重。此外,對(duì)于你的分析,得到每個(gè)地區(qū)的銷售額這樣的聚集信息可能有用的。這種信息不在你的數(shù)據(jù)倉(cāng)庫(kù)的任何預(yù)計(jì)算的數(shù)據(jù)方中。你很快意識(shí)到,數(shù)據(jù)變換操作,如規(guī)格化和聚集,是導(dǎo)向挖掘過程成功的預(yù)處理過程。數(shù)據(jù)集成和數(shù)據(jù)變換將在3.3節(jié)討論。隨著你進(jìn)一步考慮數(shù)據(jù),你想知道“我

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。