資源描述:
《[精品]決策樹算法及應用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、決策樹算法及應用一決策樹算法簡介⑴⑹⑻決策樹算法是一種歸納分類算法,它通過對訓練集的學習,挖掘出有用的規(guī)則,用丁?對新集進行預測。決策樹算法可設計成具冇良好可伸縮性的算法,能夠很好地與超大型數(shù)據(jù)庫結(jié)合,處理相關(guān)的多種數(shù)據(jù)類型,并且,其運算結(jié)果容易被人理解,其分類模式容易轉(zhuǎn)化成分類規(guī)則。因此,在過去的幾十年中,決策樹算法在機器學習(machinelearning)和數(shù)據(jù)挖掘(datamining)領域一直受到廣泛地重視。決策樹算法以樹狀結(jié)構(gòu)表示數(shù)據(jù)分類的結(jié)果。樹的非葉結(jié)點表示對數(shù)據(jù)屈性(attribute)的測試。每個分枝代表一個測試輸出,而每個葉結(jié)點代表一個分類。出根結(jié)點到各個葉結(jié)點
2、的路徑描述可得到各種分類規(guī)則。打前冇多種形式的決策樹算法。其屮最值得注意的是CART和ID3/C4.5。許多其它的算法都是由它們演變而來。下面介紹決策樹算法ID3(Quinlan,1979)在實際中的一例應用。決策樹算法1D3使用信息增益(InformationGain)作為選擇屈性對節(jié)點進行劃分的指標。信息增益表示系統(tǒng)由于分類獲得的信息量,該量由系統(tǒng)爛的減少值定量描述。?(Entropy)是一個反映信息量大小的概念。最終信息增益最高的劃分將被作為分裂方案。決策樹和決策規(guī)則是實際應用中分類問題的數(shù)據(jù)挖掘方法。決策樹表示法是應用最廣泛的邏輯方法,它通過一組輸入-輸出樣本構(gòu)建決策樹的冇指
3、導的學習方法。對于分類決策樹來說,需要先對原始資料來進行分類訓練,經(jīng)出不斷的屬性分類后,得到預期的分類結(jié)果。判定樹歸納的基木算法是貪心算法,它采用自上而下、分而治之的遞歸方式來構(gòu)造一個決策樹。ID3算法是一種著名的判定樹歸納算法,偽代碼如下:FunctionGcncratc_dccision_trcc(訓練樣木samples,候選屈性attributelist){創(chuàng)建節(jié)點N:ifsamples都在同一個類Cthen返回N作為葉節(jié)點,以類C標記;ifattribute_list為空then返冋N為葉節(jié)點,標記為samples屮最普通類://多數(shù)表決定選擇attribute_list屮冇
4、最高信息增益的屈性test_attribute:標記節(jié)點N為tcst_attributc;foreachtest_attribute中的已知位ai//劃分samples由節(jié)點N長出一個條件為test_attribute=ai的分枝;設Si是samples中testattribute=ai樣本的集合;//一個劃分IfSi為空then加上一個樹葉,標記為samples中最普通的類;Else加上一個曲Genereite_desdecision_tree(Si,attribute_list_test_attribute)返冋的節(jié)點:}在樹的毎個節(jié)點上使用具有最高信息增益的屬性作為當前節(jié)點的測
5、試屬性。該屬性使得對結(jié)果劃分屮的樣本分類所需的信息量最小,并確保找到一棵簡單的樹。二數(shù)據(jù)挖掘技術(shù)的基本概念⑺?數(shù)據(jù)挖掘是從人量數(shù)據(jù)中挖掘出隱含的、先詢未知的、對決策冇潛在價值的知識和規(guī)則。它所挖掘出的規(guī)則蘊涵了數(shù)據(jù)庫屮一組對象之間的特定關(guān)系,揭示出了許多有用的信息,為經(jīng)營決策、市場策劃、金融預測等提供依據(jù)。通過數(shù)據(jù)挖掘,冇價值的知識、規(guī)則或高層次的信息能從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,并從不同的角度顯示,從而使大型數(shù)據(jù)庫成為一個豐富可靠的資源,為知識歸納服務。數(shù)據(jù)挖掘發(fā)現(xiàn)的知識通常是以概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patter
6、ns)、約束(Constraints)、可視化(Visualizations)等形式表現(xiàn)。這些知識可以直接提供給決策者,用以輔助決策過程,或者捉供給領威專家,修正專家已冇的知識體系,也可以作為新知識轉(zhuǎn)存到相應系統(tǒng)的知識存儲機構(gòu)中,比如專家系統(tǒng)(ExpertSystem)、規(guī)則庫等(RuleBase)。數(shù)據(jù)挖掘應用領域的不斷擴展,為數(shù)據(jù)挖掘的發(fā)展帶來了蓬勃的生機.三決策樹在許多領域的應用基于決策樹C4.5算法的我國商業(yè)銀行信用風險評估模型實證分析⑵⑸1.實證分析的樣木來源本文從某銀行的信息系統(tǒng)中隨機抽取了某行業(yè)(2004年)100個貸款企業(yè)的資料作為建模樣本,其屮冇81個企業(yè)的財務數(shù)據(jù)
7、資料完整,可以作為分析研究的對象。在這81個企業(yè)中有64個企業(yè)貸款履約,17個企業(yè)貸款違約,不良貸款率為20.1%,與該行業(yè)的整體貸款不良率非常接近,因此,隨機抽取的81個企業(yè)財務資料具有代表性,可以用此樣木對總體進行統(tǒng)計推斷。1.指標體系的建'、/〔適當?shù)剡x擇財務指標建立反映企業(yè)信用風險的指標體系,是信用風險評估的基礎。依據(jù)全面性、有效性和可操作性的原則,選擇了5個方面的9項指標構(gòu)建了信用風險評估指標體系。(1)負債水平資產(chǎn)負債率XI。適度的資產(chǎn)負債率表