資源描述:
《數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究胡秀(荊楚理工學(xué)院計(jì)算機(jī)工程學(xué)院,湖北荊門(mén)448000)摘要:本文旨在研究數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理技術(shù),首先通過(guò)簡(jiǎn)單介紹數(shù)據(jù)挖掘的基本概念以及數(shù)據(jù)挖掘的邏輯構(gòu)成,介紹了數(shù)據(jù)預(yù)處理在整個(gè)數(shù)據(jù)挖掘過(guò)程中所處的階段,然后從數(shù)據(jù)預(yù)處理的數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)簡(jiǎn)化等數(shù)據(jù)預(yù)處理操作入手,詳細(xì)介紹了填充缺失值、弱化噪聲數(shù)據(jù)、數(shù)據(jù)集成等數(shù)據(jù)預(yù)處理技術(shù),最后給予專(zhuān)門(mén)的數(shù)據(jù)預(yù)處理的流程來(lái)實(shí)現(xiàn)數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理的過(guò)程..jyqkation)、數(shù)據(jù)集成(DataIntegration)、數(shù)據(jù)簡(jiǎn)化
2、(DataReduction)等數(shù)據(jù)處理過(guò)程,主要包括了消除噪聲數(shù)據(jù)、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、按成數(shù)據(jù)類(lèi)型轉(zhuǎn)換等數(shù)據(jù)操作.得到預(yù)處理數(shù)據(jù)之后,就可以利用數(shù)據(jù)挖掘的技術(shù),對(duì)這些數(shù)據(jù)進(jìn)行智能挖掘和分類(lèi)的過(guò)程,主要是基于某種思想,設(shè)計(jì)相應(yīng)的算法,最后通過(guò)對(duì)預(yù)處理之后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘算法的處理,最終是生成而分類(lèi)的數(shù)據(jù).當(dāng)然,這時(shí)數(shù)據(jù)挖掘的過(guò)程并沒(méi)有結(jié)束,這些數(shù)據(jù)只是以某種數(shù)據(jù)挖掘的思想進(jìn)行分類(lèi)存儲(chǔ),并沒(méi)有以具有現(xiàn)實(shí)意義的形式展現(xiàn)出來(lái),所以此時(shí)還需要開(kāi)發(fā)人員,基于自己的業(yè)務(wù)邏輯和需求,開(kāi)發(fā)相應(yīng)的分析或評(píng)估功能
3、,對(duì)數(shù)據(jù)挖掘之后的數(shù)據(jù)進(jìn)行形象顯示,從而形成對(duì)企業(yè)有用的知識(shí).3數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過(guò)程中必不可少的一部分,進(jìn)行數(shù)據(jù)預(yù)處理過(guò)程的主要原因是因?yàn)閺脑紨?shù)據(jù)選取的目標(biāo)數(shù)據(jù),是以原有的數(shù)據(jù)庫(kù)初始定義的格式和結(jié)構(gòu)進(jìn)行存儲(chǔ)的數(shù)據(jù),存在很多空白數(shù)據(jù)、重復(fù)數(shù)據(jù)、復(fù)雜數(shù)據(jù)、不可用數(shù)據(jù)等,這些數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)非常不適用,而且會(huì)增加數(shù)據(jù)挖掘的復(fù)雜度,所以需要數(shù)據(jù)預(yù)處理的過(guò)程來(lái)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,從而生成預(yù)處理之后的數(shù)據(jù).由圖1.可以看出,數(shù)據(jù)預(yù)處理的過(guò)程對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)是非常重要的,是為后期數(shù)據(jù)挖掘過(guò)
4、程奠定堅(jiān)實(shí)基礎(chǔ)的過(guò)程.常見(jiàn)的數(shù)據(jù)預(yù)處理的過(guò)程包括,數(shù)據(jù)清洗(DataCleaning)、數(shù)據(jù)變換(DataTransformation)、數(shù)據(jù)集成(DataIntegration)、數(shù)據(jù)簡(jiǎn)化(DataReduction)等內(nèi)容.其中數(shù)據(jù)清洗(DataCleaning)的主要操作就是在根據(jù)一定的原則和規(guī)定對(duì)目標(biāo)數(shù)據(jù)樣本進(jìn)行消除無(wú)關(guān)數(shù)據(jù)或者噪聲數(shù)據(jù)的操作,包括處理數(shù)據(jù)樣本內(nèi)的重復(fù)數(shù)據(jù)以及缺省數(shù)據(jù)等.數(shù)據(jù)變換(DataTransformation)的操作主要是對(duì)處理后的數(shù)據(jù)進(jìn)行降維處理,從而消除原始特征力度無(wú)效屬性
5、,找到真正有用的特征,以方便后期數(shù)據(jù)挖掘的處理和計(jì)算.數(shù)據(jù)集成(DataIntegration)的操作主要是合并目標(biāo)數(shù)據(jù)樣本內(nèi)存在的異構(gòu)數(shù)據(jù),主要包括數(shù)據(jù)的選擇、不同數(shù)據(jù)庫(kù)文件之間的數(shù)據(jù)沖突以及不一致等問(wèn)題的處理操作.數(shù)據(jù)簡(jiǎn)化(DataReduction)的過(guò)程是在挖掘目標(biāo)的有用特征以及對(duì)數(shù)據(jù)自身內(nèi)容理解的基礎(chǔ)上,盡量保持目標(biāo)數(shù)據(jù)樣本原有的數(shù)據(jù)特性的基礎(chǔ)上,最大限度地對(duì)目標(biāo)數(shù)據(jù)樣本進(jìn)行精簡(jiǎn)處理的過(guò)程,主要包括數(shù)據(jù)樣本的參考屬性選擇以及數(shù)據(jù)抽樣的數(shù)據(jù)處理.3.1數(shù)據(jù)預(yù)處理主要方法數(shù)據(jù)預(yù)處理的主要方法是填充目標(biāo)數(shù)
6、據(jù)缺失值、消弱噪聲數(shù)據(jù)、數(shù)據(jù)集成等.在我們?cè)O(shè)計(jì)信息管理系統(tǒng)伊始,會(huì)考慮到各種各樣的問(wèn)題,所以在設(shè)計(jì)數(shù)據(jù)存儲(chǔ)表時(shí)會(huì)牽涉到各方面的信息,而在實(shí)際的應(yīng)用過(guò)程中,之前設(shè)計(jì)的數(shù)據(jù)表的內(nèi)容有很多時(shí)候并未有實(shí)際的數(shù)據(jù),而是使用了缺失值存儲(chǔ),如果這些數(shù)據(jù)作為數(shù)據(jù)挖掘處理,會(huì)帶來(lái)諸多不便,所以對(duì)于這些缺失值的處理,可以直接使用人工填寫(xiě)的方法來(lái)彌補(bǔ)缺失值,或者用該字段的所有屬性值的均值,其他同類(lèi)的屬性值,利用回歸或貝葉形式化的推理工具得出的最有可能值或最鄰近的值的來(lái)代替,從而對(duì)缺失值進(jìn)行填充彌補(bǔ),形成完成的數(shù)據(jù).此外,在目標(biāo)數(shù)據(jù)
7、中,統(tǒng)一類(lèi)的屬性值可能有某些偏離正常數(shù)據(jù),這些數(shù)據(jù)我們稱(chēng)之為噪聲數(shù)據(jù),對(duì)于噪聲數(shù)據(jù)的數(shù)據(jù)預(yù)處理也需要專(zhuān)門(mén)的方法或技術(shù)來(lái)對(duì)其進(jìn)行噪聲消除.常見(jiàn)的方法有分箱法,即對(duì)某一個(gè)區(qū)域內(nèi)的近鄰數(shù)據(jù)進(jìn)行觀察,從而形成局部噪聲消除;回歸法則是利用回歸函數(shù)找出某兩個(gè)屬性值的回歸線,通過(guò)一個(gè)屬性來(lái)對(duì)另外一個(gè)屬性進(jìn)行預(yù)測(cè);中心點(diǎn)距離法就是計(jì)算目標(biāo)數(shù)據(jù)的該屬性值的平均值,然后計(jì)算所有數(shù)據(jù)對(duì)象與中心點(diǎn)的歐氏距離,并對(duì)其進(jìn)行排序,而后根據(jù)數(shù)據(jù)性質(zhì)和背景知識(shí)確定一個(gè)距離閾值,而與中心點(diǎn)距離大于該閾值的數(shù)據(jù)對(duì)象則為孤立點(diǎn).在我們?cè)O(shè)計(jì)信息系統(tǒng)數(shù)
8、據(jù)表時(shí),各個(gè)表格之間需要存在一些冗余來(lái)提高各個(gè)表之間的關(guān)聯(lián)性,方便信息系統(tǒng)的數(shù)據(jù)表的關(guān)聯(lián)查詢(xún).這也就導(dǎo)致了在得到的目標(biāo)數(shù)據(jù)中,可能是因?yàn)閿?shù)據(jù)信息的相同或者業(yè)務(wù)邏輯數(shù)據(jù)信息的類(lèi)似,會(huì)有一部分的數(shù)據(jù)信息冗余,這些冗余對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)也是沒(méi)有必要的,或者最后需要數(shù)據(jù)挖掘的對(duì)象是來(lái)自不通數(shù)據(jù)庫(kù)內(nèi)容的信息,所以要通過(guò)數(shù)據(jù)集成的方法來(lái)對(duì)冗余數(shù)據(jù)或者不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)進(jìn)行集成.在使用數(shù)據(jù)集成的方法來(lái)對(duì)數(shù)據(jù)信息進(jìn)行