資源描述:
《決策樹算法及應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、決策樹算法及應(yīng)用一決策樹算法簡介⑴⑹⑻決策樹算法是一種歸納分類算法,它通過對訓(xùn)練集的學(xué)習(xí),挖掘出有用的規(guī)則,用于對新集進(jìn)行預(yù)測。決策樹算法可設(shè)計(jì)成具有良好可仲縮性的算法,能夠很好地與超大型數(shù)據(jù)庫結(jié)合,處理相關(guān)的多種數(shù)據(jù)類型,并且,其運(yùn)算結(jié)果容易被人理解,其分類模式容易轉(zhuǎn)化成分類規(guī)則。因此,在過去的幾十年屮,決策樹算法在機(jī)器學(xué)習(xí)(machinelearning)和數(shù)據(jù)挖掘(datamining)領(lǐng)域一直受到廣泛地重視。決策樹算法以樹狀結(jié)構(gòu)表示數(shù)據(jù)分類的結(jié)果。樹的非葉結(jié)點(diǎn)表示對數(shù)據(jù)屬性(attribute)的
2、測試。每個(gè)分枝代表一個(gè)測試輸出,而每個(gè)葉結(jié)點(diǎn)代表一個(gè)分類。由根結(jié)點(diǎn)到各個(gè)葉結(jié)點(diǎn)的路徑描述可得到各種分類規(guī)則。目前有多種形式的決策樹算法。其中最值得注意的是CART和TD3/C4.5。許多其它的算法都是由它們演變而來。下面介紹決策樹算法ID3(Quinlan,1979)在實(shí)際中的一例應(yīng)用。決策樹算法1D3使用信息增益(InformationGain)作為選擇屬性對節(jié)點(diǎn)進(jìn)行劃分的指標(biāo)。信息增益表示系統(tǒng)由于分類獲得的信息量,該量由系統(tǒng)爛的減少值定量描述。(Entropy)是一個(gè)反映信息量大小的概念。最終信息增益
3、最高的劃分將被作為分裂方案。決策樹和決策規(guī)則是實(shí)際應(yīng)用中分類問題的數(shù)據(jù)挖掘方法。決策樹表示法是應(yīng)用最廣泛的邏輯方法,它通過一組輸入-輸出樣本構(gòu)建決策樹的有指導(dǎo)的學(xué)習(xí)方法。對于分類決策樹來說,需要先對原始資料來進(jìn)行分類訓(xùn)練,經(jīng)由不斷的屬性分類后,得到預(yù)期的分類結(jié)果。判定樹歸納的基本算法是貪心算法,它采用自上而下、分而治之的遞歸方式來構(gòu)造一個(gè)決策樹。ID3算法是一種著名的判定樹歸納算法,偽代碼如下:FunctionGeneratedecisiontree(訓(xùn)練樣本samples,候選屬性attributeli
4、st){創(chuàng)建節(jié)點(diǎn)N:ifsamples都在同一個(gè)類Cthen返回N作為葉節(jié)點(diǎn),以類C標(biāo)記;ifattribute_list為空then返冋N為葉節(jié)點(diǎn),標(biāo)記為samples中最普通類://多數(shù)表決定選擇attributelist中有最高信息增益的屬性testattribute:標(biāo)記節(jié)點(diǎn)N為testattribute;foreachtest_attribute中的已知位ai//劃分samples由節(jié)點(diǎn)N長出一個(gè)條件為test_attribute=ai的分枝;設(shè)Si是samples中testattribute二
5、ai樣木的集合;//一個(gè)劃分IfSi為空then加上一個(gè)樹葉,標(biāo)記為samples中最普通的類;Else加I上一個(gè)由Generate_desdecision_tree(Si,attribute_list_test_attribute)返冋的節(jié)點(diǎn):}在樹的每個(gè)節(jié)點(diǎn)上使用具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測試屬性。該屬性使得對結(jié)果劃分中的樣本分類所需的信息量最小,并確保找到一棵簡單的樹。二數(shù)據(jù)挖掘技術(shù)的基本概念⑺?數(shù)據(jù)挖掘是從大量數(shù)據(jù)屮挖掘出隱含的、先前未知的、對決策有潛在價(jià)值的知識和規(guī)則。它所挖掘出的規(guī)則
6、蘊(yùn)涵了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示出了許多有用的信息,為經(jīng)營決策、市場策劃、金融預(yù)測等提供依據(jù)。通過數(shù)據(jù)挖掘,有價(jià)值的知識、規(guī)則或高層次的信息能從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,并從不同的角度顯示,從而使大型數(shù)據(jù)庫成為一個(gè)豐富可靠的資源,為知識歸納服務(wù)。數(shù)據(jù)挖掘發(fā)現(xiàn)的知識通常是以概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)、約束(Constraints)、可視化(Visualizations)等形式表現(xiàn)。這些知識可以直接提供給決策者,用以
7、輔助決策過程,或者提供給領(lǐng)域?qū)<?,修正專家己有的知識體系,也可以作為新知識轉(zhuǎn)存到相應(yīng)系統(tǒng)的知識存儲機(jī)構(gòu)中,比如專家系統(tǒng)(ExpertSystem)、規(guī)則庫等(RuleBase)o數(shù)據(jù)挖掘應(yīng)用領(lǐng)域的不斷擴(kuò)展,為數(shù)據(jù)挖掘的發(fā)展帶來了蓬勃的生機(jī)。三決策樹在許多領(lǐng)域的應(yīng)用基于決策樹C4.5算法的我國商業(yè)銀行信用風(fēng)險(xiǎn)評估模型實(shí)證分析⑵⑸1.實(shí)證分析的樣本來源木文從某銀行的信息系統(tǒng)中隨機(jī)抽取了某行業(yè)(2004年)100個(gè)貸款企業(yè)的資料作為建模樣本,其中有81個(gè)企業(yè)的財(cái)務(wù)數(shù)據(jù)資料完整,可以作為分析研究的對象。在這81個(gè)
8、企業(yè)中有64個(gè)企業(yè)貸款履約,17個(gè)企業(yè)貸款違約,不良貸款率為20.1%,與該行業(yè)的整體貸款不良率非常接近,因此,隨機(jī)抽取的81個(gè)企業(yè)財(cái)務(wù)資料具有代表性,可以用此樣本對總體進(jìn)行統(tǒng)計(jì)推斷。2.指標(biāo)體系的建立適當(dāng)?shù)剡x擇財(cái)務(wù)指標(biāo)建立反映企業(yè)信用風(fēng)險(xiǎn)的指標(biāo)體系,是信用風(fēng)險(xiǎn)評估的基礎(chǔ)。依據(jù)全而性、有效性和可操作性的原則,選擇了5個(gè)方面的9項(xiàng)指標(biāo)構(gòu)建了信用風(fēng)險(xiǎn)評估指標(biāo)體系。(1)負(fù)債水平資產(chǎn)負(fù)債率XI。適度的資產(chǎn)負(fù)債率表明企業(yè)投資人、債權(quán)人