資源描述:
《基于粗糙集的生產(chǎn)環(huán)境數(shù)據(jù)挖掘系統(tǒng)方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第26卷第3期南方冶金學(xué)院學(xué)報(bào)Vo1.26,No.32005年6月JOURNALOFSOUTHERNINSTITUTEOFMETALLURGYJun.2005基于粗糙集的生產(chǎn)環(huán)境數(shù)據(jù)挖掘系統(tǒng)方法劉發(fā)升毛林春2(1.江西理工大學(xué)信息工程學(xué)院,江西贛州341∞0;2.江西理工大學(xué)應(yīng)用科學(xué)學(xué)院,江西贛州341∞0)摘要:針對(duì)粗糙集確定性模型缺乏處理不確定信息的特點(diǎn),Z.Pawlak等提出了粗糙集的概率模型.但該模型沒有包括如何處理生產(chǎn)數(shù)據(jù)集紛繁復(fù)雜數(shù)據(jù)的方法.因此提出了應(yīng)用粗糙集于生產(chǎn)環(huán)境數(shù)據(jù)挖掘的一種系統(tǒng)方法,并應(yīng)用UCI的數(shù)據(jù)集對(duì)該方法進(jìn)行了檢驗(yàn).實(shí)驗(yàn)結(jié)果體現(xiàn)了它的性能與有效性.
2、關(guān)鍵詞:粗糙集概率模型;數(shù)據(jù)挖掘;生產(chǎn)環(huán)境數(shù)據(jù)集中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-1229(2005)03-0016-051問題的提出粗糙集理論[IJ是一個(gè)代數(shù)模型,它不足以處理源于分類問題的不確定信息,其中基本的問題在于該模型基于確定性的方法而忽視了可用的概率信息.粗糙集的概率模型即是在這樣的背景下提出的[2-4J.Z.Pawlak[2J等提出了粗糙集概率模型,有效地解決了利用概率信息進(jìn)行不確定分類的問題.但是,該模型只是解決了獲取的規(guī)則應(yīng)該有不確定性的問題,而未能很好的解決獲取的規(guī)則的有效性問題,即沒有把一個(gè)規(guī)則是否有一定的支持度、是否來自于偶然的實(shí)例
3、等問題考慮進(jìn)去.另外,該模型也忽略了通常為使用粗糙集進(jìn)行數(shù)據(jù)挖掘而進(jìn)行的從實(shí)際數(shù)據(jù)集到粗糙集數(shù)據(jù)表的轉(zhuǎn)換過程中可能造成的數(shù)據(jù)信息的某些變化因此,為了采用粗糙集概率模型進(jìn)行實(shí)際生產(chǎn)環(huán)境數(shù)據(jù)挖掘,就必須加人避免偶然規(guī)則的機(jī)制以及把反映原始數(shù)據(jù)信息的一些手段與該模型有機(jī)結(jié)合起來.本文的主要內(nèi)容是①為把粗糙集應(yīng)用于生產(chǎn)環(huán)境的數(shù)據(jù)挖掘?qū)υ紨?shù)據(jù)集需要做的各種預(yù)處理以及數(shù)據(jù)預(yù)處理后原始數(shù)據(jù)集信息的傳遞方法、避免偶然規(guī)則機(jī)制的引人;②基于上述方法提出應(yīng)用粗糙集概率模型于數(shù)據(jù)挖掘的一種啟發(fā)式策略;最后,用實(shí)驗(yàn)數(shù)據(jù)對(duì)該挖掘方法進(jìn)行有效性檢驗(yàn).2數(shù)據(jù)集基于數(shù)據(jù)域原始底層數(shù)據(jù)級(jí)的信息歸納與預(yù)處理以及
4、避免偶然規(guī)則機(jī)制的引入在數(shù)據(jù)挖掘的應(yīng)用中,應(yīng)用領(lǐng)域的背景知識(shí)常常起到至關(guān)重要的作用.雖然可以在原始數(shù)據(jù)級(jí)上挖掘某些規(guī)則性,在更高的概念級(jí)別卻常??梢酝诰虻搅钊烁信d趣以及具有強(qiáng)支持度收稿日期:2004-11-08基金項(xiàng)目:江西省自然科學(xué)基金資助項(xiàng)目(0411046),江西省教育廳2003年科技攻關(guān)計(jì)劃項(xiàng)目,江西理工大學(xué)博士研究基金項(xiàng)目作者簡介:劉發(fā)升(1963-),男,副教授.第26卷第3期劉發(fā)升等:基于粗糙集的生產(chǎn)環(huán)境數(shù)據(jù)挖掘系統(tǒng)方法17的規(guī)則.因此,常常需要把數(shù)據(jù)庫中原始的底層數(shù)據(jù)進(jìn)行概念提升以期在更高的概念水平上進(jìn)行有效的挖掘.同時(shí),在原始底層的數(shù)據(jù)級(jí)上挖掘出的規(guī)則常常過
5、于繁雜,其中很多規(guī)則也不是用戶所感興趣的,使得有效利用這些規(guī)則變得十分困難.所以通過概念提升聚焦挖掘?qū)ο缶妥兊檬直匾?在挖掘過程中,背景知識(shí)如相關(guān)的概念層次的使用不僅可以改善挖掘的效率而且可以表示用戶的挖掘喜好,因此,提高挖掘結(jié)果的興趣度也是十分必要的.(1)概念分類層次樹與數(shù)據(jù)離散化.概念分類層次樹首先是一棵樹,并且按照從普遍到特殊的序構(gòu)成偏序.樹根表示最一般的概念類,樹葉表示最特殊的概念類即數(shù)據(jù)庫中的原始級(jí)別的數(shù)據(jù).樹的每個(gè)節(jié)點(diǎn)表示一個(gè)概念類,節(jié)點(diǎn)的子節(jié)點(diǎn)表示對(duì)應(yīng)類的子類.每個(gè)節(jié)點(diǎn)的所有子節(jié)點(diǎn)的集合構(gòu)成該節(jié)點(diǎn)的一個(gè)等價(jià)分割,即每個(gè)類的子類之間互不相交、但其所有子類的并窮盡
6、該類覆蓋的所有實(shí)例.概念分類層次樹定義從一個(gè)概念集合到它們相對(duì)應(yīng)的更高層概念之間的映射.對(duì)于概念屬性(Ca怡goricalAtt由ute),有幾種方法可以得到概念屬性的分類層次樹,包括①根據(jù)習(xí)慣分類的方法,如地名可以按"洲一國家一省一縣"的層次進(jìn)行分類:②根據(jù)領(lǐng)域?qū)<姨峁┑姆椒ㄟM(jìn)行分類,比如皮膚病的分類;③采用其他的方法進(jìn)行分類,比如機(jī)器學(xué)習(xí)的方法.數(shù)值屬性的分類通常也有概念屬性的幾種方法,比如學(xué)生的成績、人的年齡等等,與概念屬性不同的是數(shù)值屬性可以用比較通用的機(jī)器學(xué)習(xí)方法一一離散化方法進(jìn)行分割陽.(2)數(shù)據(jù)域基于概念分類層次樹的變換.設(shè)數(shù)據(jù)域D對(duì)應(yīng)的概念分類層次樹由遞增的分割
7、序列凡P2,…,凡(Pi~三月,Vi町,i,j=l,2,""",n)構(gòu)成,則由層次樹的構(gòu)造可知,樹中的每個(gè)節(jié)點(diǎn)所包含的信息覆蓋其子節(jié)點(diǎn)所包含的所有信息.如果把子節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)概念用其父節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)概念表示,則整個(gè)數(shù)據(jù)域的基數(shù)將相應(yīng)的變小.這種對(duì)數(shù)據(jù)域的操作稱為數(shù)據(jù)域基于概念分類層次樹的變換.這種變換過程實(shí)際上是數(shù)據(jù)的一種壓縮表示過程,是把底層概念數(shù)據(jù)用高層概念數(shù)據(jù)表示的一個(gè)概念提升的普遍化過程.變換的結(jié)果使得整個(gè)數(shù)據(jù)集的規(guī)模大大的縮小,使得數(shù)據(jù)集包含信息的粒度增大.為使數(shù)據(jù)集在各屬性數(shù)據(jù)域