數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理53210new

數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理53210new

ID:34520507

大?。?70.12 KB

頁(yè)數(shù):4頁(yè)

時(shí)間:2019-03-07

數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理53210new_第1頁(yè)
數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理53210new_第2頁(yè)
數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理53210new_第3頁(yè)
數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理53210new_第4頁(yè)
資源描述:

《數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理53210new》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、計(jì)算機(jī)科學(xué)!?,#?附·%數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理’&?(?)?+)?!++,,?./一.(??.1./&?0劉明吉王秀峰黃亞樓2南開(kāi)大學(xué)計(jì)算機(jī)與系統(tǒng)科學(xué)系天津3?45,??+?(?.?.一8?.+!(?+,+??;!?.(=.?(??,+??+?·++??,++?+?一!??(?67((&?0/2&059::<>7?(:?9?>>·48.!(Α>+?,=(一8.+++,,??!!,!+?(??+?!++,,.(!++((+?+??++.(!?!?(,.ΑΒ(>Χ><<Α/Χ:ΔΑΧΕ&0

2、?/Α:Χ=(一8:>Ε>><:ΦΕ>+(8+?,!,;?,,++(!,?.!+,?,+=.?(??+?!++,,·>?一4Γ?>Α(:Χ:>>(++:.!?/Α>><<Α./Η+Β9!?>,&?(?.Α./,Ι?/7?Κ.+Α?/:Χ熟的算法對(duì)其處理的數(shù)據(jù)集合

3、一般都有一定的要求,4引言、、比如數(shù)據(jù)完整性好數(shù)據(jù)的冗余性少屬性之間的相關(guān)。,、數(shù)據(jù)挖掘2&?(?,.,./,&05,性小然而實(shí)際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性0簡(jiǎn)稱(chēng)也稱(chēng)為數(shù)據(jù)庫(kù),。Η&&2Η.!9?+>/+&,,;!+?ΒΑ.冗余性和模糊性很少能直接滿(mǎn)足&0算法的要求中的知識(shí)發(fā)現(xiàn)(?,+,,,&?7?5是近幾年來(lái)隨著數(shù)據(jù)庫(kù)和人工智能發(fā)展起另外海量的實(shí)際數(shù)據(jù)中無(wú)意義的成分很多嚴(yán)重影響來(lái)。日了&0算法的執(zhí)行效率1而且由于其中的噪音千擾還的一門(mén)新興的數(shù)據(jù)庫(kù)技術(shù)其處理對(duì)象是大量的,。,常業(yè)務(wù)數(shù)據(jù)目的是為了

4、從這些數(shù)據(jù)中抽取一些有價(jià)會(huì)造成挖掘結(jié)果的偏差因此如何對(duì)不理想的原始數(shù)值的知識(shí)或信息Λ原始業(yè)務(wù)數(shù)據(jù)是知識(shí)和信息提取的據(jù)進(jìn)行有效的歸納和預(yù)處理,已經(jīng)成為&0系統(tǒng)實(shí)現(xiàn),。源泉對(duì)于數(shù)據(jù)挖掘就顯得十分重要目前所進(jìn)行的關(guān)過(guò)程中的關(guān)鍵問(wèn)題。于數(shù)據(jù)挖掘的研究工作,大多著眼于數(shù)據(jù)挖掘算法的數(shù)據(jù)挖掘過(guò)程一般包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù),。,。探討而忽視了對(duì)數(shù)據(jù)處理的研究川目前一些比較成據(jù)開(kāi)采以及知識(shí)評(píng)價(jià)和呈現(xiàn)其過(guò)程可以用圖4表示Μ采集巳選擇圃原始數(shù)據(jù)知識(shí)圖4數(shù)據(jù)挖掘過(guò)程圖,。,Λ數(shù)據(jù)預(yù)處理是&0的重要一環(huán)而且必不可少據(jù)

5、缺乏統(tǒng)一標(biāo)準(zhǔn)和定義數(shù)據(jù)結(jié)構(gòu)也有較大的差異因要使挖掘內(nèi)核更有效地挖掘,,出知識(shí)就必須為它提供此各系統(tǒng)間的數(shù)據(jù)存在較大的不一致性共享問(wèn)題嚴(yán)、、。干凈準(zhǔn)確簡(jiǎn)潔的數(shù)據(jù)然而實(shí)際應(yīng)用系統(tǒng)中收集到重,往往不能直接拿來(lái)使用?!啊薄?·。的原始數(shù)據(jù)是臟的Ν比通常存在以下幾方面的問(wèn)重復(fù)性是指對(duì)于同一個(gè)客觀事物在數(shù)據(jù)庫(kù)中存Ο。題在其兩個(gè)或兩個(gè)以上完全相同的物理描述由于應(yīng)用·。雜亂性原始數(shù)據(jù)是從各個(gè)實(shí)際應(yīng)用系統(tǒng)中獲取系統(tǒng)實(shí)際使用中存在的一些問(wèn)題,幾乎所有應(yīng)用系統(tǒng)、,。的2多種數(shù)據(jù)庫(kù)多種文件系統(tǒng)5由于各應(yīng)用系統(tǒng)的數(shù)中都存在數(shù)

6、據(jù)的重復(fù)和信息的冗余現(xiàn)象‘‘·”Λ,5本論文的工作得到天津市白然基金項(xiàng)目大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘技術(shù)研究2ΠΘ3Ρ。。%445資助劉明古博士研究生研究領(lǐng),、,Λ域?yàn)閿?shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘1王秀峰博1導(dǎo)研究領(lǐng)域?yàn)檫z傳算法計(jì)算智能技術(shù)黃亞樓博導(dǎo)研究領(lǐng)域?yàn)闄C(jī)器人和數(shù)據(jù)挖掘8%·。不完整性由于實(shí)際系統(tǒng)設(shè)計(jì)時(shí)存在的缺陷以及,并完成包括重復(fù)數(shù)據(jù)處理和缺值數(shù)據(jù)處理一些數(shù)據(jù),一些使用過(guò)程中人為因素所造成的影響數(shù)據(jù)記錄中類(lèi)型的轉(zhuǎn)換??赡軙?huì)出現(xiàn)有些數(shù)據(jù)屬性的值丟失或不確定的情況,數(shù)據(jù)清理可以分為有監(jiān)督和無(wú)監(jiān)督兩類(lèi)。有監(jiān)督。還可

7、能缺少必需的數(shù)據(jù)而造成數(shù)據(jù)不完整實(shí)際使用過(guò)程是在領(lǐng)域?qū)<业闹笇?dǎo)下,分析收集的數(shù)據(jù),去除明,,的系統(tǒng)中存在大量的模糊信息有些數(shù)據(jù)甚,1至還具有顯錯(cuò)誤的噪音數(shù)據(jù)和重復(fù)記錄填補(bǔ)缺值數(shù)據(jù)無(wú)監(jiān)督一定的隨機(jī)性質(zhì)。過(guò)程是用樣本數(shù)據(jù)訓(xùn)練算法,使其獲得一定的經(jīng)驗(yàn),并一個(gè)完整的數(shù)據(jù)挖掘系統(tǒng)必須包含數(shù)據(jù)預(yù)處理模在以后的處理過(guò)程中自動(dòng)采用這些經(jīng)驗(yàn)完成數(shù)據(jù)清理塊。它以發(fā)現(xiàn)任務(wù)作為目標(biāo),以領(lǐng)域知識(shí)作為指導(dǎo),用工作?!啊碌臉I(yè)務(wù)模型,來(lái)組織原來(lái)的業(yè)務(wù)數(shù)據(jù),擯棄一些數(shù)據(jù)清理的另一個(gè)重要內(nèi)容是數(shù)據(jù)類(lèi)型的轉(zhuǎn)換,與挖掘目標(biāo)不相關(guān)的屬性

8、,為數(shù)據(jù)挖掘內(nèi)核算法提供通常是指連續(xù)屬性的離散化。一般來(lái)說(shuō),與類(lèi)別無(wú)關(guān)的、、,干凈準(zhǔn)確更有針對(duì)性的數(shù)據(jù)從而減少挖掘內(nèi)核的離散化方法有等距區(qū)間法、等頻。與區(qū)間法和最大嫡法,,Μ數(shù)據(jù)處理量提高了挖掘效率提高了知識(shí)發(fā)現(xiàn)的起點(diǎn)類(lèi)別有關(guān)的方法有劃分法2,)?Α((Α./5和歸并法2Χ+Ι/。。。,,和知識(shí)的準(zhǔn)確度/5等通過(guò)離散化可以有效地減少數(shù)據(jù)表的大小提高分類(lèi)的準(zhǔn)確性。#預(yù)處理的基本功能#Λ3數(shù)據(jù)變換2.?(?Ι??.,Ε!?Χ?(ΑΛ5數(shù)據(jù)挖掘中的預(yù)處理主要是接受并理解用戶(hù)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。