粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用

粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用

ID:27633244

大?。?4.50 KB

頁數(shù):6頁

時(shí)間:2018-12-05

粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用_第1頁
粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用_第2頁
粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用_第3頁
粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用_第4頁
粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用_第5頁
資源描述:

《粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用  摘要:針對靜態(tài)算法對大數(shù)據(jù)和增量數(shù)據(jù)處理不足的問題,構(gòu)造了基于粗決策樹的動態(tài)規(guī)則提取算法,并將其應(yīng)用于旋轉(zhuǎn)機(jī)械故障診斷中。將粗集與決策樹結(jié)合,用增量方式實(shí)現(xiàn)樣本抽取;經(jīng)過動態(tài)約簡、決策樹構(gòu)造、規(guī)則提取與選擇、匹配4個(gè)步驟的循環(huán)迭代過程,實(shí)現(xiàn)了數(shù)據(jù)的動態(tài)規(guī)則提取,使得提取的規(guī)則具有更高的可信度;同時(shí),將算法應(yīng)用于旋轉(zhuǎn)機(jī)械故障診斷這一動態(tài)問題中,驗(yàn)證了算法的有效性;最后,將所提算法分別與靜態(tài)算法和增量式動態(tài)算法進(jìn)行了效率對比分析,實(shí)驗(yàn)結(jié)果表明,所提算法能夠以最精簡的規(guī)則獲得更多數(shù)據(jù)隱含信息?! £P(guān)鍵詞:

2、粗集;靜態(tài)算法;動態(tài)約簡;動態(tài)規(guī)則;決策樹  引言  粗集理論[1]主要用來處理模糊和不確定性知識,對數(shù)據(jù)進(jìn)行約簡、去除冗余,在保持分類能力不變的前提下,通過知識約簡導(dǎo)出問題的決策和分類規(guī)則。近年來,吳順祥等[2]利用粗集進(jìn)行規(guī)則提取,提出了一種基于粗集理論的規(guī)則提取方法;譚俊璐等[3]利用決策樹(decisiontree)提取規(guī)則實(shí)現(xiàn)分類計(jì)算;丁春榮等[4]將粗集與決策樹結(jié)合構(gòu)造規(guī)則提取算法。石凱[5]將粗集理論中的屬性約簡與決策樹算法相結(jié)合,提出了改進(jìn)算法;胡煜等[6]從ID3算法的缺點(diǎn)出發(fā),根據(jù)粗集理論完成了對ID3算法的改進(jìn),為

3、建立決策樹分析模型奠定了基礎(chǔ)?! ∫陨线@些算法均是在靜態(tài)數(shù)據(jù)研究背景下提出的,可以從海量數(shù)據(jù)中提取相對精確的知識,但這種規(guī)則提取方法只能針對靜態(tài)數(shù)據(jù),對于現(xiàn)實(shí)生活中的大量動態(tài)數(shù)據(jù),以往的基于靜態(tài)數(shù)據(jù)的規(guī)則提取算法很難得到正確的規(guī)則。而目前我們處于大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)數(shù)據(jù)、股票數(shù)據(jù)、機(jī)械故障診斷收集數(shù)據(jù)等均具有明顯的動態(tài)特征,直接應(yīng)用靜態(tài)數(shù)據(jù)下的算法,勢必會使提取的規(guī)則產(chǎn)生很大的誤差,因此,研究適合動態(tài)數(shù)據(jù)的規(guī)則提取算法顯得尤為重要?! ∧壳?,關(guān)于動態(tài)規(guī)則提取算法的研究也有相關(guān)報(bào)道:如余峰林等[7]提出的基于差別矩陣的動態(tài)約簡及規(guī)則提取和尹阿

4、東等[8]提出的動態(tài)決策樹算法研究等,但這些算法存在著求解速度慢、約簡程度不夠等缺陷。王楊等[9]提出的基于粗集和決策樹的增量式規(guī)則約簡算法比傳統(tǒng)算法和粗集決策樹增量知識獲取算法(RoughsetRuletreeIncrementalkno,RRIA)在效率方面有所提高,但仍存在著提取的規(guī)則集不夠精簡等缺陷。因此,本文提出將粗集與決策樹相結(jié)合,設(shè)計(jì)動態(tài)規(guī)則提取算法,同時(shí)兼顧約簡精確程度和約簡時(shí)間兩方面,從而更有效地實(shí)現(xiàn)決策規(guī)則的提取。  本文算法的基本思想:抽取樣本進(jìn)行屬性約簡;按約簡結(jié)果建立決策樹;通過規(guī)則的準(zhǔn)確度和覆蓋度進(jìn)行規(guī)則提取

5、;用未抽取樣本進(jìn)行規(guī)則匹配,確定規(guī)則的有效性,并判斷屬性約簡是否穩(wěn)定(若得到穩(wěn)定約簡,即匹配成功;若沒有匹配成功,則增大抽取樣本,直到達(dá)到要求為止)。  一、基本理論  1.1不可區(qū)分關(guān)系  信息系統(tǒng)S=(U,A,V,f),其中U為論域;A=C∪D,C為條件屬性,D為決策屬性;V是屬性的值域;f是信息函數(shù),a∈A,x∈U,f(x,a)∈V。當(dāng)RC,IND(R)={(x,y)∈(U,U)

6、a∈B,f(x,a)=f(y,a)},表示是屬性R不可區(qū)分的?! /IND(R)為U的等價(jià)類

7、[10]?! ?.2屬性約簡和屬性依賴度  R為一族等價(jià)類,當(dāng)a∈R,若IND(R)=IND(R-{a}),則稱a為R中不必要的;否則a為必要的。如果a∈A都是R中必要的,稱R獨(dú)立;否則稱R為依賴的。  若QP,如果Q是獨(dú)立的,且IND(Q)=IND(P),稱Q為P的一個(gè)約簡。CORE(P)=∩RED(P),其中CORE(P)為P的核,RED(P)為P的約簡?! 傩砸蕾嚩龋篕=max{

8、XiYj

9、/

10、Yj

11、},K表示決策分類對條件屬性集的依賴度?! ?.3動態(tài)約簡  S=(U,CUd7p6q4u)為一決策表,S&p

12、rime;=(U′,C∪fnvj80o)為決策表的子決策表,U′U。F是決策表S的子決策表集合,簡稱F族。將F族中所有子決策表約簡的交集稱為決策表S的F動態(tài)約簡[11],即為DR(S,F(xiàn))。表達(dá)式為:  DR(S,F(xiàn))=RED(S,d)∩∩S′∈FRED(S′,d  此方法限制太大,所以選擇更為普遍的(F,ε)的約簡:  DR(S,F(xiàn))={C∈RED(S,d):  

13、S′∈F:C∈RED(S′,

14、d)

15、

16、F

17、≥1-ε}  其中ε∈[0,1],記為DRε(S,F(xiàn))?! ?.4區(qū)分矩陣與區(qū)分函數(shù)  決策表S=(U,C∪D,V,f)的

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。