11.決策樹和隨機森林

11.決策樹和隨機森林

ID:32343975

大?。?.94 MB

頁數:72頁

時間:2019-02-03

11.決策樹和隨機森林_第1頁
11.決策樹和隨機森林_第2頁
11.決策樹和隨機森林_第3頁
11.決策樹和隨機森林_第4頁
11.決策樹和隨機森林_第5頁
資源描述:

《11.決策樹和隨機森林》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫

1、法律聲明?本課件包括演示文稿、示例、代碼、題庫、視頻和聲音等內容,小象學院和主講老師擁有完全知識產權的權利;只限于善意學習者在本課程使用,不得在課程范圍外向任何第三方散播。任何其他人或機構不得盜版、復制、仿造其中的創(chuàng)意及內容,我們保留一切通過法律手段追究違反者的權利。?課程詳情請咨詢?微信公眾號:小象?新浪微博:ChinaHadoop互聯(lián)網新技術在線教育領航者1/72決策樹和隨機森林鄒博目標任務與主要內容?復習信息熵?熵、聯(lián)合熵、條件熵、互信息?決策樹學習算法?信息增益?ID3、C4.5、CART?Bagging與隨機森林互聯(lián)網新技術

2、在線教育領航者3/72CART?輸入數據x:M個樣本數據,每個數據包括年齡、性別、職業(yè)、每日使用計算機時間等?輸出y:該樣本是否喜歡計算機游戲互聯(lián)網新技術在線教育領航者4/72隨機森林互聯(lián)網新技術在線教育領航者5/72決策樹:Level互聯(lián)網新技術在線教育領航者6/72決策樹互聯(lián)網新技術在線教育領航者7/72條件熵?H(X,Y)–H(X)?(X,Y)發(fā)生所包含的熵,減去X單獨發(fā)生包含的熵:在X發(fā)生的前提下,Y發(fā)生“新”帶來的熵?該式子定義為X發(fā)生前提下,Y的熵:?條件熵H(YX)互聯(lián)網新技術在線教育領航者8/72推導條件熵的定義式H(

3、X,Y)?H(X)???p(x,y)logp(x,y)??p(x)logp(x)x,yx?????p(x,y)logp(x,y)?????p(x,y)??logp(x)x,yx?y????p(x,y)logp(x,y)??p(x,y)logp(x)x,yx,yp(x,y)???p(x,y)logx,yp(x)???p(x,y)logp(yx)x,y互聯(lián)網新技術在線教育領航者9/72根據條件熵的定義式,可以得到H(X,Y)?H(X)???p(x,y)logp(yx)x,y????p(x,y)logp(yx)xy????p(x)p(yx)

4、logp(yx)xy???p(x)?p(yx)logp(yx)xy????p(x)????p(yx)logp(yx)??x?y???p(x)H?YX?x?x互聯(lián)網新技術在線教育領航者10/72決策樹的實例(自帶測試數據)注:Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費的,非商業(yè)化(與之對應的是SPSS公司商業(yè)數據挖掘產品--Clementine)的,基于JAVA環(huán)境下開源的機器學習(machinelearning)以及數據挖掘(dataminining)

5、軟件。它和它的源代碼可在其官方網站下載?;ヂ?lián)網新技術在線教育領航者11/72決策樹示意圖互聯(lián)網新技術在線教育領航者12/72決策樹(DecisionTree)?決策樹是一種樹型結構,其中每個內部結點表示在一個屬性上的測試,每個分支代表一個測試輸出,每個葉結點代表一種類別。?決策樹學習是以實例為基礎的歸納學習。?決策樹學習采用的是自頂向下的遞歸方法,其基本思想是以信息熵為度量構造一棵熵值下降最快的樹,到葉子節(jié)點處的熵值為零,此時每個葉節(jié)點中的實例都屬于同一類。互聯(lián)網新技術在線教育領航者13/72決策樹學習算法的特點?決策樹學習算法的最大

6、優(yōu)點是,它可以自學習。在學習的過程中,不需要使用者了解過多背景知識,只需要對訓練實例進行較好的標注,就能夠進行學習。?顯然,屬于有監(jiān)督學習。?從一類無序、無規(guī)則的事物(概念)中推理出決策樹表示的分類規(guī)則?;ヂ?lián)網新技術在線教育領航者14/72決策樹學習的生成算法?建立決策樹的關鍵,即在當前狀態(tài)下選擇哪個屬性作為分類依據。根據不同的目標函數,建立決策樹主要有一下三種算法。?ID3?IterativeDichotomiser?C4.5?CART?ClassificationAndRegressionTree互聯(lián)網新技術在線教育領航者15/7

7、2信息增益?概念:當熵和條件熵中的概率由數據估計(特別是極大似然估計)得到時,所對應的熵和條件熵分別稱為經驗熵和經驗條件熵。?信息增益表示得知特征A的信息而使得類X的信息的不確定性減少的程度。?定義:特征A對訓練數據集D的信息增益g(D,A),定義為集合D的經驗熵H(D)與特征A給定條件下D的經驗條件熵H(DA)之差,即:?g(D,A)=H(D)–H(DA)?顯然,這即為訓練數據集D和特征A的互信息?;ヂ?lián)網新技術在線教育領航者16/72基本記號?設訓練數據集為D,D表示樣本個數。?設有K個類Ck,k?1,2?K,Ck為屬于類Ck的樣本

8、個數,有:?Ck?Dk?設特征A有n個不同的取值?a,a?a?,根據特12n征A的取值將D劃分為n個子集D1,D2?Dn,Di為Di的樣本個數,有:?Di?Di?記子集Di中屬于類Ck的樣本的集合為Dik,Dik為Dik

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。