數(shù)據(jù)挖掘——數(shù)據(jù)預(yù)處理

數(shù)據(jù)挖掘——數(shù)據(jù)預(yù)處理

ID:19852713

大小:506.50 KB

頁(yè)數(shù):47頁(yè)

時(shí)間:2018-10-07

數(shù)據(jù)挖掘——數(shù)據(jù)預(yù)處理_第1頁(yè)
數(shù)據(jù)挖掘——數(shù)據(jù)預(yù)處理_第2頁(yè)
數(shù)據(jù)挖掘——數(shù)據(jù)預(yù)處理_第3頁(yè)
數(shù)據(jù)挖掘——數(shù)據(jù)預(yù)處理_第4頁(yè)
數(shù)據(jù)挖掘——數(shù)據(jù)預(yù)處理_第5頁(yè)
資源描述:

《數(shù)據(jù)挖掘——數(shù)據(jù)預(yù)處理》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn) (復(fù)雜數(shù)據(jù)對(duì)象的數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn))4數(shù)據(jù)挖掘的預(yù)處理數(shù)據(jù)挖掘的困難所在NoiseSkeweddistributionMissingvalues(incompleteinfo)ScalabilityHighdimensionalityBiasindata...預(yù)處理在知識(shí)發(fā)現(xiàn)中所占份量預(yù)處理各種不同的數(shù)據(jù)源和數(shù)據(jù)對(duì)象數(shù)據(jù)的選擇、集成與整合,對(duì)問(wèn)題進(jìn)行限定數(shù)據(jù)庫(kù)中的數(shù)據(jù)具有噪聲、缺值、不易至數(shù)據(jù)的去噪和規(guī)范化問(wèn)題,提高挖掘精度數(shù)據(jù)的變換規(guī)范化、映射到不同的空間,提高挖掘效率數(shù)據(jù)的規(guī)約取出冗余、屬性聚類(lèi)來(lái)壓

2、縮數(shù)據(jù)數(shù)據(jù)的預(yù)處理是KDD&DM的重要步驟預(yù)處理的基本功能預(yù)處理主要是接受并理解KDD要求,確定發(fā)現(xiàn)任務(wù)抽取與發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)源,根據(jù)背景知識(shí)中的約束性規(guī)則對(duì)數(shù)據(jù)進(jìn)行合法性檢查通過(guò)清理和歸約等操作,生成供挖掘核心使用的目標(biāo)數(shù)據(jù)。它匯集了原始數(shù)據(jù)庫(kù)中與發(fā)現(xiàn)有關(guān)的所有數(shù)據(jù)的總體特征,是知識(shí)發(fā)現(xiàn)狀態(tài)空間的基底。4數(shù)據(jù)挖掘的預(yù)處理4.1數(shù)據(jù)選擇與集成4.2數(shù)據(jù)清理4.4數(shù)據(jù)歸約4.4數(shù)據(jù)變換4.5數(shù)據(jù)離散4.1數(shù)據(jù)選擇分析需求和應(yīng)用,了解業(yè)務(wù)背景確定分析主題數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中選擇索要分析的數(shù)據(jù)利用數(shù)據(jù)轉(zhuǎn)換工具進(jìn)行分析處理4.1數(shù)

3、據(jù)集成將多文件或多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,解決語(yǔ)義的模糊性。解決數(shù)據(jù)的沖突問(wèn)題以及不一致數(shù)據(jù)的處理問(wèn)題。數(shù)據(jù)來(lái)自多個(gè)系統(tǒng),存在著異構(gòu)數(shù)據(jù)的轉(zhuǎn)換問(wèn)。多個(gè)數(shù)據(jù)源的之間還存在許多不一致的地方,如命名、結(jié)構(gòu)、單位、含義等。因此,數(shù)據(jù)集成并非是簡(jiǎn)單的數(shù)據(jù)合并,而是把數(shù)據(jù)進(jìn)行統(tǒng)一化和規(guī)范化處理的復(fù)雜過(guò)程。需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長(zhǎng)不一致等,把原始數(shù)據(jù)在最低層次上加以轉(zhuǎn)換、提煉和聚集。數(shù)據(jù)集成中還應(yīng)考慮數(shù)據(jù)類(lèi)型的選擇問(wèn)題,盡量選擇占物理空間較小的數(shù)據(jù)類(lèi)型。4.1數(shù)據(jù)集成

4、——冗余冗余的原因:數(shù)據(jù)庫(kù)設(shè)計(jì),不同來(lái)源的數(shù)據(jù)引起的數(shù)據(jù)的相關(guān)性冗余檢驗(yàn):屬性的相關(guān)性——屬性A,B其相關(guān)性度量4.2數(shù)據(jù)清理4.1數(shù)據(jù)選擇與集成4.2數(shù)據(jù)清理4.4數(shù)據(jù)歸約4.4數(shù)據(jù)變換4.5數(shù)據(jù)離散4.2數(shù)據(jù)清理數(shù)據(jù)清理要去除源數(shù)據(jù)集中的噪聲和無(wú)關(guān)數(shù)據(jù)處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù)去除空白數(shù)據(jù)域和知識(shí)背景上的白噪聲考慮時(shí)間順序和數(shù)據(jù)變化等,主要包括重復(fù)數(shù)據(jù)處理和缺值數(shù)據(jù)處理完成一些數(shù)據(jù)類(lèi)型的轉(zhuǎn)換。4.2數(shù)據(jù)清理數(shù)據(jù)清理可以分為有監(jiān)督和無(wú)監(jiān)督有監(jiān)督過(guò)程是在領(lǐng)域?qū)<业闹笇?dǎo)下,分析收集的數(shù)據(jù),去除明顯錯(cuò)誤的噪音數(shù)據(jù)和重復(fù)記錄,填補(bǔ)

5、缺值數(shù)據(jù);無(wú)監(jiān)督過(guò)程是用樣本數(shù)據(jù)訓(xùn)練算法,使其獲得一定的經(jīng)驗(yàn),并在以后的處理過(guò)程中自動(dòng)采用這些經(jīng)驗(yàn)完成數(shù)據(jù)清理工作。4.2數(shù)據(jù)清理另一個(gè)重要內(nèi)容是數(shù)據(jù)類(lèi)型的轉(zhuǎn)換,通常是指連續(xù)屬性的離散化離散化方法有等距區(qū)間法、等頻區(qū)間法和最大熵法。通過(guò)離散化,可以有效地減少數(shù)據(jù)表的大小,提高分類(lèi)準(zhǔn)確性。4數(shù)據(jù)挖掘的預(yù)處理4.1數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)4.2數(shù)據(jù)選擇與集成4.3數(shù)據(jù)清理4.4數(shù)據(jù)歸約4.5數(shù)據(jù)變換4.6數(shù)據(jù)離散4.4數(shù)據(jù)規(guī)約有些數(shù)據(jù)屬性對(duì)發(fā)現(xiàn)任務(wù)是沒(méi)有影響的,這些屬性的加入會(huì)大大影響挖掘效率,甚至還可能導(dǎo)致挖掘結(jié)果的偏差。簡(jiǎn)化是在對(duì)

6、發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴(lài)于發(fā)現(xiàn)目標(biāo)的表達(dá)數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下最大限度地精簡(jiǎn)數(shù)據(jù)量。4.4數(shù)據(jù)規(guī)約主要有兩個(gè)途徑:屬性選擇和數(shù)據(jù)抽樣,分別針對(duì)數(shù)據(jù)庫(kù)中的屬性和記錄。屬性選擇包括針對(duì)屬性進(jìn)行剪枝、并枝、找相關(guān)等操作。數(shù)據(jù)抽樣是進(jìn)行數(shù)據(jù)記錄之間的相關(guān)性分析,用少量的記錄基底的線性組合來(lái)表示大量的記錄。它主要得用統(tǒng)計(jì)學(xué)中的抽樣方法如簡(jiǎn)單隨機(jī)抽樣、等距抽樣、分層抽樣等。4.4數(shù)據(jù)規(guī)約——基于粗糙集理論的約簡(jiǎn)法粗糙集(RoughSet,RS)一種研究不精確、不確定性知識(shí)的

7、數(shù)據(jù)學(xué)工具,目前受到了KDD研究者的廣泛重視,用RS理論對(duì)數(shù)據(jù)時(shí)行處理是一種十分有效的精簡(jiǎn)數(shù)據(jù)維數(shù)的方法。我們所處理的數(shù)據(jù)一般存在信息的含糊性問(wèn)題,含糊性有三種,術(shù)語(yǔ)的模糊性,知識(shí)自身的不確定性;數(shù)據(jù)的不確定性。4.4數(shù)據(jù)規(guī)約——基于粗糙集理論的約簡(jiǎn)法粗糙集(RoughSet,RS)RS理論的最大特點(diǎn)是無(wú)需提供問(wèn)題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息,其基本思路是利用定義在數(shù)據(jù)集合U上等價(jià)關(guān)系對(duì)U進(jìn)行劃分。對(duì)于數(shù)據(jù)表來(lái)說(shuō),這種等價(jià)關(guān)系可以是某個(gè)屬性,或者是幾個(gè)屬性的集合。因此按照不同屬性的組合就把數(shù)據(jù)表劃分成不同的基本類(lèi)。

8、在這些基本類(lèi)的基礎(chǔ)上進(jìn)一步求得最小約簡(jiǎn)集。4.4數(shù)據(jù)規(guī)約——基于粗糙集理論的約簡(jiǎn)法粗糙集(RoughSet,RS)采用RS理論作為數(shù)據(jù)預(yù)處理方法具有許多的優(yōu)點(diǎn):不需要預(yù)先知道額外信息;算法簡(jiǎn)單、易于操作。應(yīng)用RS的屬性約簡(jiǎn)可以有效地去除冗余現(xiàn)象,同樣可以應(yīng)用RS方法中的約簡(jiǎn)技術(shù)刪除某些屬性的多余值,從而

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。