[工學(xué)]數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)

ID：22865697

大?。?013.50 KB

頁(yè)數(shù)：58頁(yè)

時(shí)間：2018-11-01

[工學(xué)]數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)_第1頁(yè)

[工學(xué)]數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)_第2頁(yè)

[工學(xué)]數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)_第3頁(yè)

[工學(xué)]數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)_第4頁(yè)

[工學(xué)]數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)_第5頁(yè)

資源描述：

《[工學(xué)]數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)》由會(huì)員上傳分享，免費(fèi)在線(xiàn)閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。

1、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的經(jīng)典算法總結(jié)1決策樹(shù)算法機(jī)器學(xué)習(xí)中，決策樹(shù)是一個(gè)預(yù)測(cè)模型；它代表的是對(duì)象屬性值與對(duì)象值之間的一種映射關(guān)系。樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象，每個(gè)分叉路徑則代表的某個(gè)可能的屬性值，而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)具有上述屬性值的子對(duì)象。決策樹(shù)僅有單一輸出；若需要多個(gè)輸出，可以建立獨(dú)立的決策樹(shù)以處理不同輸出。從數(shù)據(jù)產(chǎn)生決策樹(shù)的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹(shù)學(xué)習(xí),通俗說(shuō)就是決策樹(shù)。決策樹(shù)學(xué)習(xí)也是數(shù)據(jù)挖掘中一個(gè)普通的方法。在這里，每個(gè)決策樹(shù)都表述了一種樹(shù)型結(jié)構(gòu)，它由它的分支來(lái)對(duì)該類(lèi)型的對(duì)象依靠屬性進(jìn)行分類(lèi)。每個(gè)決策樹(shù)可以依靠對(duì)源數(shù)據(jù)庫(kù)的分割進(jìn)行數(shù)據(jù)測(cè)試。這個(gè)過(guò)程可以遞歸式的對(duì)樹(shù)進(jìn)行修剪。

2、當(dāng)不能再進(jìn)行分割或一個(gè)單獨(dú)的類(lèi)可以被應(yīng)用于某一分支時(shí)，遞歸過(guò)程就完成了。另外，隨機(jī)森林分類(lèi)器將許多決策樹(shù)結(jié)合起來(lái)以提升分類(lèi)的正確率。決策樹(shù)同時(shí)也可以依靠計(jì)算條件概率來(lái)構(gòu)造。決策樹(shù)如果依靠數(shù)學(xué)的計(jì)算方法可以取得更加理想的效果。1.1決策樹(shù)的工作原理決策樹(shù)一般都是自上而下的來(lái)生成的。選擇分割的方法有多種，但是目的都是一致的，即對(duì)目標(biāo)類(lèi)嘗試進(jìn)行最佳的分割。從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)都有一條路徑，這條路徑就是一條“規(guī)則”。決策樹(shù)可以是二叉的，也可以是多叉的。對(duì)每個(gè)節(jié)點(diǎn)的衡量：1)通過(guò)該節(jié)點(diǎn)的記錄數(shù)；2)如果是葉子節(jié)點(diǎn)的話(huà)，分類(lèi)的路徑；3)對(duì)葉子節(jié)點(diǎn)正確分類(lèi)的比例。有些規(guī)則的效果可以比其

3、他的一些規(guī)則要好。YYYYNNNNw1Tx≥0w4Tx≥0w3Tx≥0w2Tx≥0二叉決策樹(shù)框圖1.2ID3算法1.2.1概念提取算法CLS1)初始化參數(shù)C={E}，E包括所有的例子，為根；2)如果C中的任一元素e同屬于同一個(gè)決策類(lèi)則創(chuàng)建一個(gè)葉子節(jié)點(diǎn)YES終止；否則依啟發(fā)式標(biāo)準(zhǔn)，選擇特征Fi={V1,V2,V3,……,Vn}并創(chuàng)建判定節(jié)點(diǎn)，劃分C為互不相交的N個(gè)集合C1，C2，C3，……，Cn；3)對(duì)任一個(gè)Ci遞歸。1.2.2ID3算法1)隨機(jī)選擇C的一個(gè)子集W(窗口)；2)調(diào)用CLS生成W的分類(lèi)樹(shù)DT(強(qiáng)調(diào)的啟發(fā)式標(biāo)準(zhǔn)在后)；3)順序掃描C搜集DT的意外(即由DT無(wú)法

4、確定的例子)；4)組合W與已發(fā)現(xiàn)的意外，形成新的W；5)重復(fù)2)到4)，直到無(wú)例外為止。啟發(fā)式標(biāo)準(zhǔn)：只跟本身與其子樹(shù)有關(guān)，采取信息理論用熵來(lái)量度。熵是選擇事件時(shí)選擇自由度的量度，其計(jì)算方法為：P=freq(Cj,S)/

5、S

6、；INFO(S)=-SUM(P*LOG(P))；SUM()函數(shù)是求j從1到n的和。Gain(X)=Info(X)-Infox(X)；Infox(X)=SUM((

7、Ti

8、/

9、T

10、)*Info(X)；為保證生成的決策樹(shù)最小，ID3算法在生成子樹(shù)時(shí)，選取使生成的子樹(shù)的熵(即Gain(S))最小的特征來(lái)生成子樹(shù)。ID3算法對(duì)數(shù)據(jù)的要求：1)所有屬性必須為離散

11、量；2)所有的訓(xùn)練例的所有屬性必須有一個(gè)明確的值；3)相同的因素必須得到相同的結(jié)論且訓(xùn)練例必須唯一。1.3C4.5算法由于ID3算法在實(shí)際應(yīng)用中存在一些問(wèn)題，于是Quilan提出了C4.5算法，嚴(yán)格上說(shuō)C4.5只能是ID3的一個(gè)改進(jìn)算法。C4.5算法繼承了ID3算法的優(yōu)點(diǎn)，并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn)：1)用信息增益率來(lái)選擇屬性，克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足；2)在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝；3)能夠完成對(duì)連續(xù)屬性的離散化處理；4)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。C4.5算法有如下優(yōu)點(diǎn)：產(chǎn)生的分類(lèi)規(guī)則易于理解，準(zhǔn)確率較高。C4.5算法有如下缺點(diǎn)：在構(gòu)

12、造樹(shù)的過(guò)程中，需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序，因而導(dǎo)致算法的低效。此外，C4.5只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集，當(dāng)訓(xùn)練集大得無(wú)法在內(nèi)存容納時(shí)程序無(wú)法運(yùn)行。分類(lèi)決策樹(shù)算法：C4.5算法是機(jī)器學(xué)習(xí)算法中的一種分類(lèi)決策樹(shù)算法，其核心算法是ID3算法。分類(lèi)決策樹(shù)算法是從大量事例中進(jìn)行提取分類(lèi)規(guī)則的自上而下的決策樹(shù)。決策樹(shù)的各部分是：根：學(xué)習(xí)的事例集；枝：分類(lèi)的判定條件；葉：分好的各個(gè)類(lèi)。1.3.1C4.5對(duì)ID3算法的改進(jìn)1)熵的改進(jìn)，加上了子樹(shù)的信息。Split_Infox(X)=-SUM((

13、T

14、/

15、Ti

16、)*LOG(

17、Ti

18、/

19、T

20、))；Gainratio(X)=G

21、ain(X)/Split_Infox(X);2)在輸入數(shù)據(jù)上的改進(jìn)①因素屬性的值可以是連續(xù)量，C4.5對(duì)其排序并分成不同的集合后按照ID3算法當(dāng)作離散量進(jìn)行處理，但結(jié)論屬性的值必須是離散值。②訓(xùn)練例的因素屬性值可以是不確定的，以?表示，但結(jié)論必須是確定的。3)對(duì)已生成的決策樹(shù)進(jìn)行裁剪，減小生成樹(shù)的規(guī)模。2Thek-meansalgorithm（k平均算法）k-meansalgorithm是一個(gè)聚類(lèi)算法，把n個(gè)對(duì)象根據(jù)它們的屬性分為k個(gè)分割，k

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 58



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳，版權(quán)歸屬用戶(hù)，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。

[工學(xué)]數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)

[工學(xué)]數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)

相關(guān)文章

相關(guān)標(biāo)簽