資源描述:
《基于粗糙集和決策樹的數(shù)據(jù)挖掘方法》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、第27卷第5期東北大學學報(自然科學版)Vol27,No.52006年5月JournalofNortheasternUniversity(NaturalScience)May2006文章編號:1005-3026(2006)05-0481-04基于粗糙集和決策樹的數(shù)據(jù)挖掘方法1222吳成東,許可,韓中華,裴濤(1.東北大學信息科學與工程學院,遼寧沈陽110004;2.沈陽建筑大學信息與控制工程學院,遼寧沈陽110168)摘要:從粗糙集和決策樹兩種方法具有的優(yōu)勢互補性出發(fā),提出了一種基于粗糙集和決策樹相結合的數(shù)據(jù)挖掘新方法以膠合板缺陷檢測數(shù)據(jù)分析為應用對象,利
2、用粗糙集理論對膠合板數(shù)據(jù)庫中的特征信息進行缺陷識別利用譜系聚類重心距離法對數(shù)據(jù)進行離散化處理,采用粗糙集進行屬性約簡,得到低維樣本數(shù)據(jù),最后用決策樹方法產(chǎn)生決策規(guī)則實驗證明,這種數(shù)據(jù)挖掘方法保留了原始數(shù)據(jù)的內(nèi)部特點,加快了獲取知識的進程,提高了模型的分類準確率,增強了規(guī)則的可解釋性,取得了滿意的研究結果關鍵詞:粗糙集;決策樹;數(shù)據(jù)離散化;數(shù)據(jù)挖掘;譜系聚類;屬性約簡中圖分類號:TP391文獻標識碼:A隨著計算機技術和信息技術的發(fā)展,信息的的、有用的規(guī)則信息等情況由于粗糙集和決策樹增長速度呈指數(shù)上升,最近幾十年產(chǎn)生了很多超具有很強的優(yōu)勢互補性,因此,如果將兩
3、種方法有大型數(shù)據(jù)庫,涉及超級市場銷售、銀行存款、制造機結合,即采用粗糙集進行數(shù)據(jù)約簡,去除冗余屬業(yè)和科學研究等領域信息量的急劇增長,使傳統(tǒng)性,然后利用決策樹方法來產(chǎn)生分類規(guī)則,有可能分析方法遠遠不能滿足現(xiàn)實的需求面對海量數(shù)形成新的有效分類方法據(jù),如何從中發(fā)現(xiàn)有價值的信息或知識,成為一項1數(shù)據(jù)挖掘方法設計重要和艱巨的任務,需要提供一種去粗存精、去偽存真的技術,而數(shù)據(jù)挖掘作為一種潛在的、功能強11基于譜系聚類的數(shù)據(jù)離散化大的新技術,能夠幫助用戶在海量的、隱含的、事譜系聚類法是廣泛應用的一種聚類方法,它先未知的數(shù)據(jù)中找到重要的和有價值的信息,能是根據(jù)植物分類學的思想對
4、研究對象進行分類的預測未來趨勢和行為,使商務活動具有前瞻性,有方法在植物分類學中,分類的單位是門、綱、目、助于用戶做出基于知識的決策科、屬和種,其中,種是分類的基本單位,分類單位目前,數(shù)據(jù)挖掘主要研究熱點是由單一的數(shù)越小,它所包含的植物就越少,植物間的共同特征據(jù)挖掘方法發(fā)展為多種方法相結合來獲取知識就越多利用這種分類思想,譜系聚類首先使各樣本文提出了一種基于粗糙集和決策樹結合的數(shù)據(jù)品或變量自成一類,然后把最相似(距離最小或相挖掘新方法粗糙集理論在處理大數(shù)據(jù)量,消除冗似系數(shù)最大)的樣品或變量聚為小類,再將已聚合余信息等方面具有一定的優(yōu)勢,因此廣泛應用于的小類按其相似
5、性(用類間距離度量)再聚合,隨數(shù)據(jù)挖掘的數(shù)據(jù)預處理、屬性約簡等方面但是,著相似性的減弱,最后將子類都聚合成一個大類,由于粗糙集理論的分類通常是確定的,且缺乏交從而得到一個按相似性大小聚結起來的一個譜系互驗證功能,所以其結果往往不穩(wěn)定,精度不圖譜系聚類法是根據(jù)類間距離進行聚類的,類與[1,2]高決策樹是一種類似于流程圖的樹狀結構,類之間的距離有多種定義方式,比較常用的有如這種方法具有速度快,易于轉換成簡單而便于理下5種方法:最短距離法、最長距離法、類平均距解的分類規(guī)則,易于轉換成數(shù)據(jù)庫查詢語言等優(yōu)離法、重心距離法、離差平方和距離法由于重心點然而,當數(shù)據(jù)集中的屬性過多
6、時,用決策樹分距離法與其他方法相比,具有聚類精度高、速度快類易出現(xiàn)結構性差,難以發(fā)現(xiàn)一些本來可以找到等優(yōu)點,故本文采用重心距離法進行數(shù)據(jù)離散化收稿日期:2005-06-22基金項目:科技部國際合作重點項目(2003DF020009)作者簡介:吳成東(1960-),男,遼寧大連人,東北大學教授,博士生導師482東北大學學報(自然科學版)第27卷處理重心距離法定義為有用戶界面,所以操作直觀,容易理解國際上最Dp,q=d(xp,xq)(1)有影響和最早的決策樹方法是J.R.Quinlan提出[6]其中,以i,j分別表示樣品xi,xj的序號,(i
7、=1,的ID3方法,其基本思路是選擇具有最高信息2,,p;j=1,2,,q),以di,j記i與j的距離d增益的屬性作為當前節(jié)點的測試屬性對測試屬(xi,xj),Gp和Gq分別表示兩個類,設它們分別性的每個已知的值,創(chuàng)建一個分支,并據(jù)此劃分樣含有np和nq個樣品,若類Gp中有樣品x1,x2,本,根節(jié)點屬性的每個值都是一個子集這個過程,xp,則其均值可以遞歸地應用到每個子樹上進一步劃分,直到np子集中的所有元素都是同一類時停止劃分,便生1xp=nxi(2)成一棵決策樹ID3方法基本原理是設屬性A具pi=