資源描述:
《基于粗糙集理論的數(shù)據(jù)挖掘算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、Y782874授了.單化代碼:一10451研究生學(xué)號(hào):~020衛(wèi)L密級(jí):鄭州大學(xué)碩士學(xué)位論文論文題目研究生姓名學(xué)科門(mén)類一級(jí)學(xué)科專業(yè)研究方向?qū)?、職稱基王塑糙篡理論的塑握撞型篡這鯉筮萱綞塞工堂控制型堂皇工程控制理論與控制1二程麴堡撞趔皇翅遲叁塑匱叢墅.熬援二零零氕年五月八同摘要進(jìn)入網(wǎng)絡(luò)信息時(shí)代,隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,使得各個(gè)行業(yè)領(lǐng)域的信息急劇增加,如何從大量的、雜亂無(wú)章的數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價(jià)值的、簡(jiǎn)潔的知識(shí)呢?數(shù)據(jù)挖掘(DM)和知識(shí)發(fā)現(xiàn)(KDD)技術(shù)應(yīng)運(yùn)而生。粗糙集理論與方法作為數(shù)據(jù)挖掘或者知識(shí)發(fā)現(xiàn)方法的一種,它與基于概率論的數(shù)據(jù)挖掘方法、基于
2、模糊理論的數(shù)據(jù)挖掘方法和基于證據(jù)理論的數(shù)據(jù)挖掘方法等其他處理不確定性問(wèn)題理論的方法最顯著的區(qū)別是它不需要提供問(wèn)題所需處理的數(shù)據(jù)集之外的任何先驗(yàn)知識(shí),而且與處理其他不確定性問(wèn)題的理論有很強(qiáng)的互補(bǔ)性,特別是模糊理論。但是,粗糙集理論的基本運(yùn)算是建立在求集合的并交補(bǔ)和求等價(jià)關(guān)系基礎(chǔ)之上的,利用粗糙集理論挖掘一般決策表的最簡(jiǎn)規(guī)則或者所有規(guī)則是一個(gè)NP—Hard問(wèn)題,NP_—Hard問(wèn)題是計(jì)算數(shù)學(xué)的一個(gè)普遍難題,它的解決依賴于某個(gè)NP—Hard問(wèn)題的解決,因此,如何降低算法的復(fù)雜度成為限制粗糙集理論應(yīng)用的一個(gè)根本性問(wèn)題。本文介紹了粗糙集理論的基本概念和擴(kuò)展的粗糙集理論
3、模型,研究了粗糙集理論進(jìn)行數(shù)據(jù)挖掘算法的特點(diǎn),通過(guò)證明一個(gè)半群一有限集合代數(shù)系統(tǒng)的可表示定理,將有限集合代數(shù)系統(tǒng)用一個(gè)與之同構(gòu)的位向量代數(shù)系統(tǒng)來(lái)描述,將集合的并交補(bǔ)運(yùn)算轉(zhuǎn)化為位向量代數(shù)系統(tǒng)的與或非運(yùn)算,該定理具有一定的普適性一基本上所有的基于粗糙集理論的各種算法都可以適用。在該定理的基礎(chǔ)上,設(shè)計(jì)了一種基于粗糙集論的數(shù)據(jù)挖掘?qū)傩约s簡(jiǎn)算法和規(guī)則挖掘算法,與一般的算法比較,時(shí)間復(fù)雜度大大降低;空間的復(fù)雜度降為一般算法的八分之一。利用該算法開(kāi)發(fā)了一個(gè)原型系統(tǒng)RSDM和一個(gè)MATLAB仿真軟件包,以進(jìn)行數(shù)據(jù)挖掘的進(jìn)一步研究和應(yīng)用。另一方面,粗糙挖掘算法的時(shí)間復(fù)雜度問(wèn)題
4、并沒(méi)有得到完全的解決,因此本文介紹了基于消息傳遞的并行計(jì)算模型,在此模型基礎(chǔ)上,利用MPICH并行計(jì)算軟件包,初步研究了粗糙挖掘的并行計(jì)算算法。現(xiàn)將本文的主要工作列舉如下:1.給出并證明有限集合代數(shù)系統(tǒng)可表示定理,設(shè)計(jì)基于粗糙集理論的數(shù)據(jù)挖掘(以下簡(jiǎn)稱粗糙挖掘1串行實(shí)現(xiàn)算法。2.介紹了一般知識(shí)發(fā)現(xiàn)過(guò)程,研究了粗糙挖掘的過(guò)程,設(shè)計(jì)開(kāi)發(fā)了粗糙挖掘的原型系統(tǒng)RSDM和一個(gè)MATLAB粗糙挖掘軟件包。3.研究了基于Windows2000集群式系統(tǒng)上,采用消息傳遞的并行計(jì)算模型,利用MPI初步研究了基于粗糙理論的數(shù)據(jù)挖掘并行實(shí)現(xiàn)算法。關(guān)鍵詞:粗糙集,RoughSet,
5、數(shù)據(jù)挖掘,MPIAbstractNow,wearesteppinginaneraofnetinformation,Withthehigh—speeddevelopmentofcomputertechnologyandnettechnology,theinformationindifferentfieldshasincreasedextremely.Howtopickupthepotential,valuableandcompactknowledgefromthevastanddisordereddatahasbecomeadesiderativeproble
6、m?Thetechnologiesofdatamining(DM)andknowledgedatabasediscovery(KDD)haveemergedwitllsuchneeds.TheroughsettheoryisusedasanapproachofDMorKDD.Thedistinctdifferenceoftheroughsetapproachcomparedwithotherapproachesofdealingwimtheuncertainproblemsuchasthedataminingapproachbasedonprobabilit
7、y,thedataminingapproachbasedOilfuzzytheoryandthedataⅡlillingapproachbasedonprooftheoryisthatthemethodneednotprovideanyknownknowledgewhichisoutoftheapproachingdatasetdomains。Theroughsetmethodisworkedasallstrongerauxiliaryfunction、加Ⅱ1theothermethodsofdealingwithuncertainproblem.espec
8、iallywiththeapproachofthef