資料探勘方式

ID：43224285

大?。?71.50 KB

頁數(shù)：57頁

時間：2019-10-04

資源描述：

《資料探勘方式》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、第14章：資料探勘方式k-Means族群推算法k-近鄰法決策樹關(guān)聯(lián)法神經(jīng)網(wǎng)路系統(tǒng)本章學(xué)習(xí)重點族群推算法的目的是將資料歸類為不同的族群，而k為族群的數(shù)目。k-Means族群推算法的步驟如下：1.決定要找出多少個族群。換句話說，決定k值。2.隨意選出k個資料來當(dāng)做這k個族群的中心點。14-1k-Means族群推算法k-Means族群推算法的步驟(續(xù))：3.由這k個資料點為起頭，建立出首輪的k族群。在這個時候，每一筆資料都暫時屬於某一個族群。4.找出每一個族群新的中心點。5.重複步驟3及步驟4，直到終止條件成立。k-Means族群推算法最常被用到的終止條件有兩

2、種：每個族群的中心點不再改變。某種收斂標(biāo)準(zhǔn)已經(jīng)達到。一種常見的收斂標(biāo)準(zhǔn)是SumofSquaredErrors(SSE)：代表在族群i中的每一個資料點，是族群i的中心點，而代表每一個資料點和它所屬族群中心點的距離。k-Means族群推算法SSE=k-Means族群推算法-範(fàn)例a(1,3)b(2,5)c(3,5)d(1,6)e(4,1)f(5,2)g(6,2)h(6,3)i(2,2)9個點分成3群k-Means族群推算法-範(fàn)例-續(xù)資料點與m1的距離與m2的距離與m3的距離族群a0.002.242.83族群1b2.240.001.00族群2c2.831.000

3、.00族群3d3.001.412.24族群2e3.614.474.12族群1f4.124.243.61族群3g5.105.004.24族群3h5.004.473.61族群3i1.413.003.16族群1步驟1:k=3步驟2:隨意選出3個資料來當(dāng)作這3個族群的中心點步驟3:由這3個資料點為起點，建立出首輪的3個族群k-Means族群推算法-範(fàn)例-續(xù)步驟4:找出每一個族群新的中心點族群1={(1+4+2)/3,(3+1+2)/3}=(2.33,2)族群2={(2+1)/2,(5+6)/2}=(1.5,5.5)族群3={(3+5+6+6)/4,(5+2+2+

4、3)/4}=(5,3)族群1族群2族群3k-Means族群推算法-範(fàn)例-續(xù)資料點與m1的距離與m2的距離與m3的距離族群a1.662.554.00族群1b3.020.713.61族群2c3.071.582.83族群2d4.220.715.00族群2e1.955.152.24族群1f2.674.951.00族群3g3.675.701.41族群3h3.805.151.00族群3i0.333.543.16族群1步驟3(第二次疊代):由新的資料中心點為起點，建立出第二輪的3個族群k-Means族群推算法-範(fàn)例-續(xù)步驟4(第二次疊代):找出每一個族群新的中心點族群

5、1={(1+4+2)/3,(3+1+2)/3}=(2.33,2)族群2={(2+3+1)/3,(5+5+6)/3}=(2,5.33)族群3={(5+6+6)/3,(2+2+3)/3}=(5.67,2.33)族群1族群2族群3k-Means族群推算法-範(fàn)例-續(xù)資料點與m1的距離與m2的距離與m3的距離族群a1.662.544.72族群1b3.020.334.54族群2c3.071.053.78族群2d4.221.25.94族群2e1.954.772.13族群1f2.674.480.75族群3g3.675.20.47族群3h3.804.630.75族群3i0

6、.333.333.68族群1步驟3(第三次疊代):由新的資料中心點為起點，建立出第二輪的3個族群k-Means族群推算法-範(fàn)例-續(xù)步驟4(第三次疊代):找出每一個族群新的中心點族群1={(1+4+2)/3,(3+1+2)/3}=(2.33,2)族群2={(2+3+1)/3,(5+5+6)/3}=(2,5.33)族群3={(5+6+6)/3,(2+2+3)/3}=(5.67,2.33)族群1族群2族群3abcdefghi這種方式的目的是要由已知的屬性來找出未知屬性的值。它的概念是類似的資料會有類似的值。如果兩筆資料的已知屬性很接近，那它們未知屬性的值也會很

7、接近。k-近鄰法k-近鄰法的步驟如下：決定要以多少個最接近的資料點來決定我們要求的數(shù)值。換句話說，決定k值。加入訓(xùn)練集的資料。當(dāng)有新的資料時，我們就找出訓(xùn)練資料集中k個與這筆新資料最近的資料值。由於這k個資料的值是已知的，我們就可以由這些已知的值中來推算新資料這個屬性的值。k-近鄰法距離函數(shù)是被用來找出不同筆資料之間的距離。在計算距離時，需要能夠?qū)⒉煌S度的距離用同一種標(biāo)準(zhǔn)顯現(xiàn)出來。最常用的有以下兩種方式：距離函數(shù)Min-MaxNormalization：Z-ScoreStandardization：在找出k-近鄰之後，有以下兩種方式?jīng)Q定未知資料值：假設(shè)

8、每k筆接近的資料都是一樣的重要。假設(shè)與新資料越接近的資料值比重應(yīng)該越大。一個資料

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 57



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

資料探勘方式

資料探勘方式

相關(guān)文章

相關(guān)標(biāo)簽