數(shù)據(jù)挖掘十大經(jīng)典算法

數(shù)據(jù)挖掘十大經(jīng)典算法

ID:22411542

大小:55.90 KB

頁數(shù):19頁

時間:2018-10-29

數(shù)據(jù)挖掘十大經(jīng)典算法_第1頁
數(shù)據(jù)挖掘十大經(jīng)典算法_第2頁
數(shù)據(jù)挖掘十大經(jīng)典算法_第3頁
數(shù)據(jù)挖掘十大經(jīng)典算法_第4頁
數(shù)據(jù)挖掘十大經(jīng)典算法_第5頁
資源描述:

《數(shù)據(jù)挖掘十大經(jīng)典算法》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在應用文檔-天天文庫

1、數(shù)據(jù)挖掘十大經(jīng)典算法?一、C4.5??C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法.?C4.5算法繼承了ID3算法的優(yōu)點,并在以下幾方面對ID3算法進行了改進:??1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;??2)在樹構造過程中進行剪枝;??3)能夠完成對連續(xù)屬性的離散化處理;??4)能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。??C4.5算法有如下優(yōu)點:產(chǎn)生的分類規(guī)則易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描

2、和排序,因而導致算法的低效。1、機器學習中,決策樹是一個預測模型;他代表的是對象屬性與對象值之間的一種映射關系。樹中每個節(jié)點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則?對應從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復數(shù)輸出,可以建立獨立的決策樹以處理不同輸出。??2、從數(shù)據(jù)產(chǎn)生決策樹的機器學習技術叫做決策樹學習,?通俗說就是決策樹。??3、決策樹學習也是數(shù)據(jù)挖掘中一個普通的方法。在這里,每個決策樹都表述了一種樹型結構,他由他的分支來對該類型

3、的對象依靠屬性進行分類。每個決策樹可以依靠對源數(shù)據(jù)庫的分割?進行數(shù)據(jù)測試。這個過程可以遞歸式的對樹進行修剪。當不能再進行分割或一個單獨的類可以被應用于某一分支時,遞歸過程就完成了。另外,隨機森林分類器將許多決策樹結合起來?以提升分類的正確率。?決策樹是如何工作的????1、決策樹一般都是自上而下的來生成的。??2、選擇分割的方法有好幾種,但是目的都是一致的:對目標類嘗試進行最佳的分割。?3、從根到葉子節(jié)點都有一條路徑,這條路徑就是一條―規(guī)則??4、決策樹可以是二叉的,也可以是多叉的。??對每個節(jié)點

4、的衡量:??1)????通過該節(jié)點的記錄數(shù)??2)????如果是葉子節(jié)點的話,分類的路徑??3)????對葉子節(jié)點正確分類的比例。??有些規(guī)則的效果可以比其他的一些規(guī)則要好。??由于ID3算法在實際應用中存在一些問題,于是Quilan提出了C4.5算法,嚴格上說C4.5只能是ID3的一個改進算法。相信大家對ID3算法都很.熟悉了,這里就不做介紹。??C4.5算法繼承了ID3算法的優(yōu)點,?并在以下幾方面對ID3算法進行了改進:??1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的

5、屬性的不足;?2)在樹構造過程中進行剪枝;??3)能夠完成對連續(xù)屬性的離散化處理;??4)能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。??C4.5算法有如下優(yōu)點:產(chǎn)生的分類規(guī)則易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導致算法的低效。此外,C4.5只適合于?能夠駐留于內(nèi)存的數(shù)據(jù)集,當訓練集大得無法在內(nèi)存容納時程序無法運行。??來自搜索的其他內(nèi)容:???C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法.??分類決策樹算法是從大量事例中進行提取分

6、類規(guī)則的自上而下的決策樹.?決策樹的各部分是:?????????根:??學習的事例集.?????????枝:??分類的判定條件.?????????葉:??分好的各個類.????ID3算法?????1.概念提取算法CLS??1)???初始化參數(shù)C={E},E包括所有的例子,為根.??2)????IF???C中的任一元素e同屬于同一個決策類則創(chuàng)建一個葉子????????????節(jié)點YES終止.????????ELSE???依啟發(fā)式標準,選擇特征Fi={V1,V2,V3,...Vn}并創(chuàng)建???????

7、???????判定節(jié)點?????劃分C為互不相交的N個集合C1,C2,C3,...,Cn;??3)???對任一個Ci遞歸.?????2.???ID3算法??1)???隨機選擇C的一個子集W??(窗口).??2)???調(diào)用CLS生成W的分類樹DT(強調(diào)的啟發(fā)式標準在后).??3)???順序掃描C搜集DT的意外(即由DT無法確定的例子).??4)???組合W與已發(fā)現(xiàn)的意外,形成新的W.??????5)???重復2)到4),直到無例外為止.?????啟發(fā)式標準:??????只跟本身與其子樹有關,采取信息

8、理論用熵來量度.??????熵是選擇事件時選擇自由度的量度,其計算方法為??????????P??=??freq(Cj,S)/

9、S

10、;??????INFO(S)=??-??SUM(??P*LOG(P)??)??;????SUM()函數(shù)是求j從1到n和.??????Gain(X)=Info(X)-Infox(X);??????Infox(X)=SUM(??(

11、Ti

12、/

13、T

14、)*Info(X);??為保證生成的決策樹最小,ID3算法在生成子樹時,選取使生成的子樹的熵(即Gain(S))

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。