數(shù)據(jù)挖掘——數(shù)據(jù)預處理

數(shù)據(jù)挖掘——數(shù)據(jù)預處理

ID:19852713

大小:506.50 KB

頁數(shù):47頁

時間:2018-10-07

數(shù)據(jù)挖掘——數(shù)據(jù)預處理_第1頁
數(shù)據(jù)挖掘——數(shù)據(jù)預處理_第2頁
數(shù)據(jù)挖掘——數(shù)據(jù)預處理_第3頁
數(shù)據(jù)挖掘——數(shù)據(jù)預處理_第4頁
數(shù)據(jù)挖掘——數(shù)據(jù)預處理_第5頁
資源描述:

《數(shù)據(jù)挖掘——數(shù)據(jù)預處理》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、數(shù)據(jù)挖掘與知識發(fā)現(xiàn) (復雜數(shù)據(jù)對象的數(shù)據(jù)挖掘與知識發(fā)現(xiàn))4數(shù)據(jù)挖掘的預處理數(shù)據(jù)挖掘的困難所在NoiseSkeweddistributionMissingvalues(incompleteinfo)ScalabilityHighdimensionalityBiasindata...預處理在知識發(fā)現(xiàn)中所占份量預處理各種不同的數(shù)據(jù)源和數(shù)據(jù)對象數(shù)據(jù)的選擇、集成與整合,對問題進行限定數(shù)據(jù)庫中的數(shù)據(jù)具有噪聲、缺值、不易至數(shù)據(jù)的去噪和規(guī)范化問題,提高挖掘精度數(shù)據(jù)的變換規(guī)范化、映射到不同的空間,提高挖掘效率數(shù)據(jù)的規(guī)約取出冗余、屬性聚類來壓

2、縮數(shù)據(jù)數(shù)據(jù)的預處理是KDD&DM的重要步驟預處理的基本功能預處理主要是接受并理解KDD要求,確定發(fā)現(xiàn)任務(wù)抽取與發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)源,根據(jù)背景知識中的約束性規(guī)則對數(shù)據(jù)進行合法性檢查通過清理和歸約等操作,生成供挖掘核心使用的目標數(shù)據(jù)。它匯集了原始數(shù)據(jù)庫中與發(fā)現(xiàn)有關(guān)的所有數(shù)據(jù)的總體特征,是知識發(fā)現(xiàn)狀態(tài)空間的基底。4數(shù)據(jù)挖掘的預處理4.1數(shù)據(jù)選擇與集成4.2數(shù)據(jù)清理4.4數(shù)據(jù)歸約4.4數(shù)據(jù)變換4.5數(shù)據(jù)離散4.1數(shù)據(jù)選擇分析需求和應(yīng)用,了解業(yè)務(wù)背景確定分析主題數(shù)據(jù)庫或數(shù)據(jù)倉庫中選擇索要分析的數(shù)據(jù)利用數(shù)據(jù)轉(zhuǎn)換工具進行分析處理4.1數(shù)

3、據(jù)集成將多文件或多數(shù)據(jù)庫運行環(huán)境中的異構(gòu)數(shù)據(jù)進行合并處理,解決語義的模糊性。解決數(shù)據(jù)的沖突問題以及不一致數(shù)據(jù)的處理問題。數(shù)據(jù)來自多個系統(tǒng),存在著異構(gòu)數(shù)據(jù)的轉(zhuǎn)換問。多個數(shù)據(jù)源的之間還存在許多不一致的地方,如命名、結(jié)構(gòu)、單位、含義等。因此,數(shù)據(jù)集成并非是簡單的數(shù)據(jù)合并,而是把數(shù)據(jù)進行統(tǒng)一化和規(guī)范化處理的復雜過程。需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長不一致等,把原始數(shù)據(jù)在最低層次上加以轉(zhuǎn)換、提煉和聚集。數(shù)據(jù)集成中還應(yīng)考慮數(shù)據(jù)類型的選擇問題,盡量選擇占物理空間較小的數(shù)據(jù)類型。4.1數(shù)據(jù)集成

4、——冗余冗余的原因:數(shù)據(jù)庫設(shè)計,不同來源的數(shù)據(jù)引起的數(shù)據(jù)的相關(guān)性冗余檢驗:屬性的相關(guān)性——屬性A,B其相關(guān)性度量4.2數(shù)據(jù)清理4.1數(shù)據(jù)選擇與集成4.2數(shù)據(jù)清理4.4數(shù)據(jù)歸約4.4數(shù)據(jù)變換4.5數(shù)據(jù)離散4.2數(shù)據(jù)清理數(shù)據(jù)清理要去除源數(shù)據(jù)集中的噪聲和無關(guān)數(shù)據(jù)處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù)去除空白數(shù)據(jù)域和知識背景上的白噪聲考慮時間順序和數(shù)據(jù)變化等,主要包括重復數(shù)據(jù)處理和缺值數(shù)據(jù)處理完成一些數(shù)據(jù)類型的轉(zhuǎn)換。4.2數(shù)據(jù)清理數(shù)據(jù)清理可以分為有監(jiān)督和無監(jiān)督有監(jiān)督過程是在領(lǐng)域?qū)<业闹笇?,分析收集的?shù)據(jù),去除明顯錯誤的噪音數(shù)據(jù)和重復記錄,填補

5、缺值數(shù)據(jù);無監(jiān)督過程是用樣本數(shù)據(jù)訓練算法,使其獲得一定的經(jīng)驗,并在以后的處理過程中自動采用這些經(jīng)驗完成數(shù)據(jù)清理工作。4.2數(shù)據(jù)清理另一個重要內(nèi)容是數(shù)據(jù)類型的轉(zhuǎn)換,通常是指連續(xù)屬性的離散化離散化方法有等距區(qū)間法、等頻區(qū)間法和最大熵法。通過離散化,可以有效地減少數(shù)據(jù)表的大小,提高分類準確性。4數(shù)據(jù)挖掘的預處理4.1數(shù)據(jù)庫與數(shù)據(jù)倉庫4.2數(shù)據(jù)選擇與集成4.3數(shù)據(jù)清理4.4數(shù)據(jù)歸約4.5數(shù)據(jù)變換4.6數(shù)據(jù)離散4.4數(shù)據(jù)規(guī)約有些數(shù)據(jù)屬性對發(fā)現(xiàn)任務(wù)是沒有影響的,這些屬性的加入會大大影響挖掘效率,甚至還可能導致挖掘結(jié)果的偏差。簡化是在對

6、發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標的表達數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持數(shù)據(jù)原貌的前提下最大限度地精簡數(shù)據(jù)量。4.4數(shù)據(jù)規(guī)約主要有兩個途徑:屬性選擇和數(shù)據(jù)抽樣,分別針對數(shù)據(jù)庫中的屬性和記錄。屬性選擇包括針對屬性進行剪枝、并枝、找相關(guān)等操作。數(shù)據(jù)抽樣是進行數(shù)據(jù)記錄之間的相關(guān)性分析,用少量的記錄基底的線性組合來表示大量的記錄。它主要得用統(tǒng)計學中的抽樣方法如簡單隨機抽樣、等距抽樣、分層抽樣等。4.4數(shù)據(jù)規(guī)約——基于粗糙集理論的約簡法粗糙集(RoughSet,RS)一種研究不精確、不確定性知識的

7、數(shù)據(jù)學工具,目前受到了KDD研究者的廣泛重視,用RS理論對數(shù)據(jù)時行處理是一種十分有效的精簡數(shù)據(jù)維數(shù)的方法。我們所處理的數(shù)據(jù)一般存在信息的含糊性問題,含糊性有三種,術(shù)語的模糊性,知識自身的不確定性;數(shù)據(jù)的不確定性。4.4數(shù)據(jù)規(guī)約——基于粗糙集理論的約簡法粗糙集(RoughSet,RS)RS理論的最大特點是無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗信息,其基本思路是利用定義在數(shù)據(jù)集合U上等價關(guān)系對U進行劃分。對于數(shù)據(jù)表來說,這種等價關(guān)系可以是某個屬性,或者是幾個屬性的集合。因此按照不同屬性的組合就把數(shù)據(jù)表劃分成不同的基本類。

8、在這些基本類的基礎(chǔ)上進一步求得最小約簡集。4.4數(shù)據(jù)規(guī)約——基于粗糙集理論的約簡法粗糙集(RoughSet,RS)采用RS理論作為數(shù)據(jù)預處理方法具有許多的優(yōu)點:不需要預先知道額外信息;算法簡單、易于操作。應(yīng)用RS的屬性約簡可以有效地去除冗余現(xiàn)象,同樣可以應(yīng)用RS方法中的約簡技術(shù)刪除某些屬性的多余值,從而

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。