資源描述:
《粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、粗決策樹動態(tài)規(guī)則提取算法研究及應(yīng)用 摘要:針對靜態(tài)算法對大數(shù)據(jù)和增量數(shù)據(jù)處理不足的問題,構(gòu)造了基于粗決策樹的動態(tài)規(guī)則提取算法,并將其應(yīng)用于旋轉(zhuǎn)機(jī)械故障診斷中。將粗集與決策樹結(jié)合,用增量方式實(shí)現(xiàn)樣本抽取;經(jīng)過動態(tài)約簡、決策樹構(gòu)造、規(guī)則提取與選擇、匹配4個(gè)步驟的循環(huán)迭代過程,實(shí)現(xiàn)了數(shù)據(jù)的動態(tài)規(guī)則提取,使得提取的規(guī)則具有更高的可信度;同時(shí),將算法應(yīng)用于旋轉(zhuǎn)機(jī)械故障診斷這一動態(tài)問題中,驗(yàn)證了算法的有效性;最后,將所提算法分別與靜態(tài)算法和增量式動態(tài)算法進(jìn)行了效率對比分析,實(shí)驗(yàn)結(jié)果表明,所提算法能夠以最精簡的規(guī)則獲得更多數(shù)據(jù)隱含信息?! £P(guān)鍵詞:
2、粗集;靜態(tài)算法;動態(tài)約簡;動態(tài)規(guī)則;決策樹 引言 粗集理論[1]主要用來處理模糊和不確定性知識,對數(shù)據(jù)進(jìn)行約簡、去除冗余,在保持分類能力不變的前提下,通過知識約簡導(dǎo)出問題的決策和分類規(guī)則。近年來,吳順祥等[2]利用粗集進(jìn)行規(guī)則提取,提出了一種基于粗集理論的規(guī)則提取方法;譚俊璐等[3]利用決策樹(decisiontree)提取規(guī)則實(shí)現(xiàn)分類計(jì)算;丁春榮等[4]將粗集與決策樹結(jié)合構(gòu)造規(guī)則提取算法。石凱[5]將粗集理論中的屬性約簡與決策樹算法相結(jié)合,提出了改進(jìn)算法;胡煜等[6]從ID3算法的缺點(diǎn)出發(fā),根據(jù)粗集理論完成了對ID3算法的改進(jìn),為
3、建立決策樹分析模型奠定了基礎(chǔ)?! ∫陨线@些算法均是在靜態(tài)數(shù)據(jù)研究背景下提出的,可以從海量數(shù)據(jù)中提取相對精確的知識,但這種規(guī)則提取方法只能針對靜態(tài)數(shù)據(jù),對于現(xiàn)實(shí)生活中的大量動態(tài)數(shù)據(jù),以往的基于靜態(tài)數(shù)據(jù)的規(guī)則提取算法很難得到正確的規(guī)則。而目前我們處于大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)數(shù)據(jù)、股票數(shù)據(jù)、機(jī)械故障診斷收集數(shù)據(jù)等均具有明顯的動態(tài)特征,直接應(yīng)用靜態(tài)數(shù)據(jù)下的算法,勢必會使提取的規(guī)則產(chǎn)生很大的誤差,因此,研究適合動態(tài)數(shù)據(jù)的規(guī)則提取算法顯得尤為重要?! ∧壳?,關(guān)于動態(tài)規(guī)則提取算法的研究也有相關(guān)報(bào)道:如余峰林等[7]提出的基于差別矩陣的動態(tài)約簡及規(guī)則提取和尹阿
4、東等[8]提出的動態(tài)決策樹算法研究等,但這些算法存在著求解速度慢、約簡程度不夠等缺陷。王楊等[9]提出的基于粗集和決策樹的增量式規(guī)則約簡算法比傳統(tǒng)算法和粗集決策樹增量知識獲取算法(RoughsetRuletreeIncrementalkno,RRIA)在效率方面有所提高,但仍存在著提取的規(guī)則集不夠精簡等缺陷。因此,本文提出將粗集與決策樹相結(jié)合,設(shè)計(jì)動態(tài)規(guī)則提取算法,同時(shí)兼顧約簡精確程度和約簡時(shí)間兩方面,從而更有效地實(shí)現(xiàn)決策規(guī)則的提取。 本文算法的基本思想:抽取樣本進(jìn)行屬性約簡;按約簡結(jié)果建立決策樹;通過規(guī)則的準(zhǔn)確度和覆蓋度進(jìn)行規(guī)則提取
5、;用未抽取樣本進(jìn)行規(guī)則匹配,確定規(guī)則的有效性,并判斷屬性約簡是否穩(wěn)定(若得到穩(wěn)定約簡,即匹配成功;若沒有匹配成功,則增大抽取樣本,直到達(dá)到要求為止)。 一、基本理論 1.1不可區(qū)分關(guān)系 信息系統(tǒng)S=(U,A,V,f),其中U為論域;A=C∪D,C為條件屬性,D為決策屬性;V是屬性的值域;f是信息函數(shù),a∈A,x∈U,f(x,a)∈V。當(dāng)RC,IND(R)={(x,y)∈(U,U)
6、a∈B,f(x,a)=f(y,a)},表示是屬性R不可區(qū)分的?! /IND(R)為U的等價(jià)類
7、[10]?! ?.2屬性約簡和屬性依賴度 R為一族等價(jià)類,當(dāng)a∈R,若IND(R)=IND(R-{a}),則稱a為R中不必要的;否則a為必要的。如果a∈A都是R中必要的,稱R獨(dú)立;否則稱R為依賴的。 若QP,如果Q是獨(dú)立的,且IND(Q)=IND(P),稱Q為P的一個(gè)約簡。CORE(P)=∩RED(P),其中CORE(P)為P的核,RED(P)為P的約簡?! 傩砸蕾嚩龋篕=max{
8、XiYj
9、/
10、Yj
11、},K表示決策分類對條件屬性集的依賴度?! ?.3動態(tài)約簡 S=(U,CUd7p6q4u)為一決策表,S&p
12、rime;=(U′,C∪fnvj80o)為決策表的子決策表,U′U。F是決策表S的子決策表集合,簡稱F族。將F族中所有子決策表約簡的交集稱為決策表S的F動態(tài)約簡[11],即為DR(S,F(xiàn))。表達(dá)式為: DR(S,F(xiàn))=RED(S,d)∩∩S′∈FRED(S′,d 此方法限制太大,所以選擇更為普遍的(F,ε)的約簡: DR(S,F(xiàn))={C∈RED(S,d):
13、S′∈F:C∈RED(S′,
14、d)
15、
16、F
17、≥1-ε} 其中ε∈[0,1],記為DRε(S,F(xiàn))?! ?.4區(qū)分矩陣與區(qū)分函數(shù) 決策表S=(U,C∪D,V,f)的