資源描述:
《基于粗集理論的數(shù)據(jù)離散化新算法‘》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、2002年3月重慶太學(xué)學(xué)報(bào)(自然科學(xué)版)v01.25No.3第25卷第3期】ofCi*ongqingUniversity(NaturalSeienoeEdition)Mar.2002文章編號(hào):1000—582X《2~o2)03—0018—04基于粗集理論的數(shù)據(jù)離散化新算法‘趙軍,王國(guó)埔L2,吳中福,李華(1.重慶太學(xué)計(jì)算機(jī)學(xué)院,重慶400044;2.重慶郵電學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)研究所,重慶~065)摘要:連續(xù)屬性值的離散化一直是機(jī)器學(xué)習(xí)領(lǐng)域中殛待解決的關(guān)鍵問(wèn)題之一,他對(duì)于提高后繼學(xué)習(xí)算法的運(yùn)行速度、降低算法的實(shí)際空間要求和時(shí)間消耗、提高學(xué)習(xí)結(jié)果的聚類能力等都具有
2、極其重要的意jL。本文首先分析了基于粗集模型的數(shù)據(jù)離散化方法的特點(diǎn)和基本思路,研完了候選斷點(diǎn)重要性的衡量方式,在此基礎(chǔ)上提出兩種新的從候選集合中最終確定離散化斷點(diǎn)的啟發(fā)式算法。這兩種算法考慮并體現(xiàn)了粗集理論的基本特點(diǎn)和優(yōu)點(diǎn),選擇的斷點(diǎn)都能夠保證信息系統(tǒng)的分辨關(guān)系,并能夠取得較理想的離散化姑果。關(guān)鍵詞:粗集;分辨關(guān)系;離散化;斷點(diǎn)中圖分類號(hào):】8文獻(xiàn)標(biāo)識(shí)碼:A決策系統(tǒng)中連續(xù)屬性的離散化,即實(shí)型屬性空間粗集理論的特殊性,直接把其它學(xué)科中的相應(yīng)方法用向整型屬性空間的映射問(wèn)題對(duì)數(shù)據(jù)挖掘而言具有非常來(lái)對(duì)信息系統(tǒng)進(jìn)行離散化,其結(jié)果往往不能保證原有重要的意義:首先,若決策系統(tǒng)
3、中存在連續(xù)屬性,那么信息系統(tǒng)的分辨關(guān)系;另一類方法則充分考慮了粗集對(duì)一個(gè)新的待識(shí)別樣本而言,將很難通過(guò)其屬性值矢理論的特殊要求,其結(jié)果能夠保證信息系統(tǒng)的分辨關(guān)量與訓(xùn)練數(shù)據(jù)表進(jìn)行數(shù)據(jù)匹配的方式而得到識(shí)別,而系。其中,前一類方法的典型代表是粗集工具軟件有效的離散化就會(huì)顯著地提高系統(tǒng)的聚類能力,增強(qiáng)Rosetta提供的離散化方法一;后一類方法的典型代表系統(tǒng)對(duì)輸入的待識(shí)別樣本中數(shù)據(jù)噪音的魯棒性;其次,是基于布爾邏輯和粗集理論的離散化方法。離散化結(jié)果將會(huì)減小系統(tǒng)對(duì)存儲(chǔ)空間的實(shí)際需求,加數(shù)據(jù)的離散化在其它領(lǐng)域也被稱為“量化”,它并快后繼數(shù)據(jù)挖掘算法的運(yùn)行速度,減小后繼算法的
4、空不是一類新課題,人們已經(jīng)對(duì)它進(jìn)行了大量的深入研間開銷;此外,若離散化過(guò)程將某一連續(xù)屬性的所有屬究,取得了豐碩的研究成果。但是,離散化問(wèn)題也不是性值均映射到同一結(jié)果,則該屬性存在與否都不會(huì)影各學(xué)科可以完全通用的研究課題,實(shí)際上它在不同領(lǐng)響系統(tǒng)對(duì)樣本的分辨能力,因而它可以被刪除。從這一域中有自己獨(dú)特的要求和處理方式。由于粗集理論最角度來(lái)說(shuō),離散化過(guò)程同時(shí)也是屬性約簡(jiǎn)的過(guò)程。枋的概念就是樣本之間的“分辨關(guān)系”,因此,基于粗集理論的數(shù)據(jù)離散化方法要求能夠保持信息系統(tǒng)1基于粗集理論的數(shù)據(jù)離散化所表達(dá)的樣本分辨關(guān)系,否則將會(huì)導(dǎo)致信息丟失或者在處理不確定、不精確的含糊信息方
5、面,粗集理引入錯(cuò)誤信息,從而影響所得結(jié)果的準(zhǔn)確性。論“0具有不需要外界信息或先驗(yàn)知識(shí)的獨(dú)特優(yōu)對(duì)連續(xù)屬性的離散化過(guò)程,從本質(zhì)上來(lái)看,就是用點(diǎn)】,人們對(duì)這一工具在數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用越來(lái)越一定的閾值(粗集的離散化理論中稱之為“斷點(diǎn)”)對(duì)重視,對(duì)基于粗集模型的離散化方法也進(jìn)行了相應(yīng)的屬性空間進(jìn)行劃分的過(guò)程。為了提高后繼階段的機(jī)器研究,并取得了一些有價(jià)值的研究成果。這些成果大致學(xué)習(xí)結(jié)果的聚類能力和識(shí)別能力,離散化過(guò)程要求防可以分為兩類:其中一類方法很少甚至是完全不考慮止對(duì)屬性空間的過(guò)分細(xì)化。在保證離散化結(jié)果性能要·收藕日期:2001.10-16基金項(xiàng)目:國(guó)家自然科學(xué)基金(
6、69803014)、攀登特另忮持費(fèi)、重慶市科委攻關(guān)基金資助作者簡(jiǎn)介:趙軍(1卯1一),男,重慶人,重慶大學(xué)博士研究生。主要研究領(lǐng)域?yàn)橹悄軘?shù)據(jù)分析和處理、計(jì)算機(jī)網(wǎng)絡(luò)與通信、現(xiàn)代遠(yuǎn)程教育技術(shù)等?!に_卸時(shí)旭CroupRossetaTeehnlealRegerence吼I丑I,1999第25卷第3期趙軍等:基于粗集理論的數(shù)據(jù)離散化新算法19求的前提下,用盡可能少的斷點(diǎn)將屬性空間劃分成盡此衡量標(biāo)準(zhǔn)的合理性將會(huì)直接影響到算法的性能??赡苌俚淖涌臻g,就成了離散化算法的追求目標(biāo)。文獻(xiàn)表l中斷點(diǎn)的重要性可以從兩個(gè)方面來(lái)衡量:從[5]認(rèn)為:在保證信息系統(tǒng)分辨關(guān)系的前提下,采用基列方
7、向來(lái)看,某列值為l的元素個(gè)數(shù)越多,則對(duì)應(yīng)的斷數(shù)最小的斷點(diǎn)集合對(duì)系統(tǒng)進(jìn)行的離散化就是基于粗集點(diǎn)對(duì)樣本的分辨能力越強(qiáng),斷點(diǎn)的重要性越高;從行方理論的最優(yōu)離散化。從這一定義不難發(fā)現(xiàn),對(duì)一個(gè)給定向來(lái)看,某行值為1的元素個(gè)數(shù)越少,則表明能夠分辨的信息系統(tǒng),存在一種或多種最優(yōu)的離散化結(jié)果。但遺對(duì)應(yīng)樣本的斷點(diǎn)越少,相應(yīng)地這些斷點(diǎn)的重要程度越憾的是,人們已經(jīng)證明連續(xù)屬性的最優(yōu)離散化問(wèn)題是高。啟發(fā)式算法在選擇斷點(diǎn)時(shí),主要依據(jù)斷點(diǎn)的這些特一個(gè)NP難題,因此對(duì)具有豐富樣本的信息系統(tǒng)而性。顯然,列方向和行方向特征對(duì)斷點(diǎn)重要性的反映方言,求得最優(yōu)離散化結(jié)果的時(shí)間開銷將是令人無(wú)法忍式是不同
8、的,前者能夠直接反映斷點(diǎn)