數(shù)據(jù)挖掘十大經(jīng)典算法

ID：22411542

大小：55.90 KB

頁數(shù)：19頁

時間：2018-10-29

資源描述：

《數(shù)據(jù)挖掘十大經(jīng)典算法》由會員上傳分享，免費在線閱讀，更多相關內(nèi)容在應用文檔-天天文庫。

1、數(shù)據(jù)挖掘十大經(jīng)典算法?一、C4.5??C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法.?C4.5算法繼承了ID3算法的優(yōu)點，并在以下幾方面對ID3算法進行了改進：??1)用信息增益率來選擇屬性，克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足；??2)在樹構造過程中進行剪枝；??3)能夠完成對連續(xù)屬性的離散化處理；??4)能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。??C4.5算法有如下優(yōu)點：產(chǎn)生的分類規(guī)則易于理解，準確率較高。其缺點是：在構造樹的過程中，需要對數(shù)據(jù)集進行多次的順序掃描

2、和排序，因而導致算法的低效。1、機器學習中，決策樹是一個預測模型；他代表的是對象屬性與對象值之間的一種映射關系。樹中每個節(jié)點表示某個對象，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則?對應從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出，若欲有復數(shù)輸出，可以建立獨立的決策樹以處理不同輸出。??2、從數(shù)據(jù)產(chǎn)生決策樹的機器學習技術叫做決策樹學習,?通俗說就是決策樹。??3、決策樹學習也是數(shù)據(jù)挖掘中一個普通的方法。在這里，每個決策樹都表述了一種樹型結構，他由他的分支來對該類型

3、的對象依靠屬性進行分類。每個決策樹可以依靠對源數(shù)據(jù)庫的分割?進行數(shù)據(jù)測試。這個過程可以遞歸式的對樹進行修剪。當不能再進行分割或一個單獨的類可以被應用于某一分支時，遞歸過程就完成了。另外，隨機森林分類器將許多決策樹結合起來?以提升分類的正確率。?決策樹是如何工作的？???1、決策樹一般都是自上而下的來生成的。??2、選擇分割的方法有好幾種，但是目的都是一致的：對目標類嘗試進行最佳的分割。?3、從根到葉子節(jié)點都有一條路徑，這條路徑就是一條―規(guī)則??4、決策樹可以是二叉的，也可以是多叉的。??對每個節(jié)點

4、的衡量：??1)????通過該節(jié)點的記錄數(shù)??2)????如果是葉子節(jié)點的話，分類的路徑??3)????對葉子節(jié)點正確分類的比例。??有些規(guī)則的效果可以比其他的一些規(guī)則要好。??由于ID3算法在實際應用中存在一些問題，于是Quilan提出了C4.5算法，嚴格上說C4.5只能是ID3的一個改進算法。相信大家對ID3算法都很.熟悉了，這里就不做介紹。??C4.5算法繼承了ID3算法的優(yōu)點，?并在以下幾方面對ID3算法進行了改進：??1)用信息增益率來選擇屬性，克服了用信息增益選擇屬性時偏向選擇取值多的

5、屬性的不足；?2)在樹構造過程中進行剪枝；??3)能夠完成對連續(xù)屬性的離散化處理；??4)能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。??C4.5算法有如下優(yōu)點：產(chǎn)生的分類規(guī)則易于理解，準確率較高。其缺點是：在構造樹的過程中，需要對數(shù)據(jù)集進行多次的順序掃描和排序，因而導致算法的低效。此外，C4.5只適合于?能夠駐留于內(nèi)存的數(shù)據(jù)集，當訓練集大得無法在內(nèi)存容納時程序無法運行。??來自搜索的其他內(nèi)容：???C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法.??分類決策樹算法是從大量事例中進行提取分

6、類規(guī)則的自上而下的決策樹.?決策樹的各部分是:?????????根:??學習的事例集.?????????枝:??分類的判定條件.?????????葉:??分好的各個類.????ID3算法?????1.概念提取算法CLS??1)???初始化參數(shù)C={E},E包括所有的例子,為根.??2)????IF???C中的任一元素e同屬于同一個決策類則創(chuàng)建一個葉子????????????節(jié)點YES終止.????????ELSE???依啟發(fā)式標準,選擇特征Fi={V1,V2,V3,．．．Vn}并創(chuàng)建???????

7、???????判定節(jié)點?????劃分C為互不相交的N個集合C1,C2,C3,．．．,Cn；??3)???對任一個Ci遞歸.?????2.???ID3算法??1)???隨機選擇C的一個子集W??(窗口).??2)???調(diào)用CLS生成W的分類樹DT(強調(diào)的啟發(fā)式標準在后).??3)???順序掃描C搜集DT的意外(即由DT無法確定的例子).??4)???組合W與已發(fā)現(xiàn)的意外,形成新的W.??????5)???重復2)到4),直到無例外為止.?????啟發(fā)式標準:??????只跟本身與其子樹有關,采取信息

8、理論用熵來量度.??????熵是選擇事件時選擇自由度的量度,其計算方法為??????????P??=??freq(Cj,S)/

9、S

10、;??????INFO(S)=??-??SUM(??P*LOG(P)??)??;????SUM()函數(shù)是求j從1到n和.??????Gain(X)=Info(X)-Infox(X);??????Infox(X)=SUM(??(

11、Ti

12、/

13、T

14、)*Info(X);??為保證生成的決策樹最小,ID3算法在生成子樹時,選取使生成的子樹的熵(即Gain(S))

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 19



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

數(shù)據(jù)挖掘十大經(jīng)典算法

數(shù)據(jù)挖掘十大經(jīng)典算法

相關文章

相關標簽