11.決策樹和隨機(jī)森林

11.決策樹和隨機(jī)森林

ID:32343975

大小:2.94 MB

頁數(shù):72頁

時間:2019-02-03

11.決策樹和隨機(jī)森林_第1頁
11.決策樹和隨機(jī)森林_第2頁
11.決策樹和隨機(jī)森林_第3頁
11.決策樹和隨機(jī)森林_第4頁
11.決策樹和隨機(jī)森林_第5頁
資源描述:

《11.決策樹和隨機(jī)森林》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、法律聲明?本課件包括演示文稿、示例、代碼、題庫、視頻和聲音等內(nèi)容,小象學(xué)院和主講老師擁有完全知識產(chǎn)權(quán)的權(quán)利;只限于善意學(xué)習(xí)者在本課程使用,不得在課程范圍外向任何第三方散播。任何其他人或機(jī)構(gòu)不得盜版、復(fù)制、仿造其中的創(chuàng)意及內(nèi)容,我們保留一切通過法律手段追究違反者的權(quán)利。?課程詳情請咨詢?微信公眾號:小象?新浪微博:ChinaHadoop互聯(lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者1/72決策樹和隨機(jī)森林鄒博目標(biāo)任務(wù)與主要內(nèi)容?復(fù)習(xí)信息熵?熵、聯(lián)合熵、條件熵、互信息?決策樹學(xué)習(xí)算法?信息增益?ID3、C4.5、CART?Bagging與隨機(jī)森林互聯(lián)網(wǎng)新技術(shù)

2、在線教育領(lǐng)航者3/72CART?輸入數(shù)據(jù)x:M個樣本數(shù)據(jù),每個數(shù)據(jù)包括年齡、性別、職業(yè)、每日使用計算機(jī)時間等?輸出y:該樣本是否喜歡計算機(jī)游戲互聯(lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者4/72隨機(jī)森林互聯(lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者5/72決策樹:Level互聯(lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者6/72決策樹互聯(lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者7/72條件熵?H(X,Y)–H(X)?(X,Y)發(fā)生所包含的熵,減去X單獨發(fā)生包含的熵:在X發(fā)生的前提下,Y發(fā)生“新”帶來的熵?該式子定義為X發(fā)生前提下,Y的熵:?條件熵H(YX)互聯(lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者8/72推導(dǎo)條件熵的定義式H(

3、X,Y)?H(X)???p(x,y)logp(x,y)??p(x)logp(x)x,yx?????p(x,y)logp(x,y)?????p(x,y)??logp(x)x,yx?y????p(x,y)logp(x,y)??p(x,y)logp(x)x,yx,yp(x,y)???p(x,y)logx,yp(x)???p(x,y)logp(yx)x,y互聯(lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者9/72根據(jù)條件熵的定義式,可以得到H(X,Y)?H(X)???p(x,y)logp(yx)x,y????p(x,y)logp(yx)xy????p(x)p(yx)

4、logp(yx)xy???p(x)?p(yx)logp(yx)xy????p(x)????p(yx)logp(yx)??x?y???p(x)H?YX?x?x互聯(lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者10/72決策樹的實例(自帶測試數(shù)據(jù))注:Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費的,非商業(yè)化(與之對應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine)的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machinelearning)以及數(shù)據(jù)挖掘(dataminining)

5、軟件。它和它的源代碼可在其官方網(wǎng)站下載?;ヂ?lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者11/72決策樹示意圖互聯(lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者12/72決策樹(DecisionTree)?決策樹是一種樹型結(jié)構(gòu),其中每個內(nèi)部結(jié)點表示在一個屬性上的測試,每個分支代表一個測試輸出,每個葉結(jié)點代表一種類別。?決策樹學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)。?決策樹學(xué)習(xí)采用的是自頂向下的遞歸方法,其基本思想是以信息熵為度量構(gòu)造一棵熵值下降最快的樹,到葉子節(jié)點處的熵值為零,此時每個葉節(jié)點中的實例都屬于同一類?;ヂ?lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者13/72決策樹學(xué)習(xí)算法的特點?決策樹學(xué)習(xí)算法的最大

6、優(yōu)點是,它可以自學(xué)習(xí)。在學(xué)習(xí)的過程中,不需要使用者了解過多背景知識,只需要對訓(xùn)練實例進(jìn)行較好的標(biāo)注,就能夠進(jìn)行學(xué)習(xí)。?顯然,屬于有監(jiān)督學(xué)習(xí)。?從一類無序、無規(guī)則的事物(概念)中推理出決策樹表示的分類規(guī)則?;ヂ?lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者14/72決策樹學(xué)習(xí)的生成算法?建立決策樹的關(guān)鍵,即在當(dāng)前狀態(tài)下選擇哪個屬性作為分類依據(jù)。根據(jù)不同的目標(biāo)函數(shù),建立決策樹主要有一下三種算法。?ID3?IterativeDichotomiser?C4.5?CART?ClassificationAndRegressionTree互聯(lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者15/7

7、2信息增益?概念:當(dāng)熵和條件熵中的概率由數(shù)據(jù)估計(特別是極大似然估計)得到時,所對應(yīng)的熵和條件熵分別稱為經(jīng)驗熵和經(jīng)驗條件熵。?信息增益表示得知特征A的信息而使得類X的信息的不確定性減少的程度。?定義:特征A對訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A),定義為集合D的經(jīng)驗熵H(D)與特征A給定條件下D的經(jīng)驗條件熵H(DA)之差,即:?g(D,A)=H(D)–H(DA)?顯然,這即為訓(xùn)練數(shù)據(jù)集D和特征A的互信息?;ヂ?lián)網(wǎng)新技術(shù)在線教育領(lǐng)航者16/72基本記號?設(shè)訓(xùn)練數(shù)據(jù)集為D,D表示樣本個數(shù)。?設(shè)有K個類Ck,k?1,2?K,Ck為屬于類Ck的樣本

8、個數(shù),有:?Ck?Dk?設(shè)特征A有n個不同的取值?a,a?a?,根據(jù)特12n征A的取值將D劃分為n個子集D1,D2?Dn,Di為Di的樣本個數(shù),有:?Di?Di?記子集Di中屬于類Ck的樣本的集合為Dik,Dik為Dik

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。