資源描述:
《資料探勘方式》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第14章:資料探勘方式k-Means族群推算法k-近鄰法決策樹關(guān)聯(lián)法神經(jīng)網(wǎng)路系統(tǒng)本章學(xué)習(xí)重點族群推算法的目的是將資料歸類為不同的族群,而k為族群的數(shù)目。k-Means族群推算法的步驟如下:1.決定要找出多少個族群。換句話說,決定k值。2.隨意選出k個資料來當(dāng)做這k個族群的中心點。14-1k-Means族群推算法k-Means族群推算法的步驟(續(xù)):3.由這k個資料點為起頭,建立出首輪的k族群。在這個時候,每一筆資料都暫時屬於某一個族群。4.找出每一個族群新的中心點。5.重複步驟3及步驟4,直到終止條件成立。k-Means族群推算法最常被用到的終止條件有兩
2、種:每個族群的中心點不再改變。某種收斂標(biāo)準(zhǔn)已經(jīng)達到。一種常見的收斂標(biāo)準(zhǔn)是SumofSquaredErrors(SSE):代表在族群i中的每一個資料點,是族群i的中心點,而代表每一個資料點和它所屬族群中心點的距離。k-Means族群推算法SSE=k-Means族群推算法-範(fàn)例a(1,3)b(2,5)c(3,5)d(1,6)e(4,1)f(5,2)g(6,2)h(6,3)i(2,2)9個點分成3群k-Means族群推算法-範(fàn)例-續(xù)資料點與m1的距離與m2的距離與m3的距離族群a0.002.242.83族群1b2.240.001.00族群2c2.831.000
3、.00族群3d3.001.412.24族群2e3.614.474.12族群1f4.124.243.61族群3g5.105.004.24族群3h5.004.473.61族群3i1.413.003.16族群1步驟1:k=3步驟2:隨意選出3個資料來當(dāng)作這3個族群的中心點步驟3:由這3個資料點為起點,建立出首輪的3個族群k-Means族群推算法-範(fàn)例-續(xù)步驟4:找出每一個族群新的中心點族群1={(1+4+2)/3,(3+1+2)/3}=(2.33,2)族群2={(2+1)/2,(5+6)/2}=(1.5,5.5)族群3={(3+5+6+6)/4,(5+2+2+
4、3)/4}=(5,3)族群1族群2族群3k-Means族群推算法-範(fàn)例-續(xù)資料點與m1的距離與m2的距離與m3的距離族群a1.662.554.00族群1b3.020.713.61族群2c3.071.582.83族群2d4.220.715.00族群2e1.955.152.24族群1f2.674.951.00族群3g3.675.701.41族群3h3.805.151.00族群3i0.333.543.16族群1步驟3(第二次疊代):由新的資料中心點為起點,建立出第二輪的3個族群k-Means族群推算法-範(fàn)例-續(xù)步驟4(第二次疊代):找出每一個族群新的中心點族群
5、1={(1+4+2)/3,(3+1+2)/3}=(2.33,2)族群2={(2+3+1)/3,(5+5+6)/3}=(2,5.33)族群3={(5+6+6)/3,(2+2+3)/3}=(5.67,2.33)族群1族群2族群3k-Means族群推算法-範(fàn)例-續(xù)資料點與m1的距離與m2的距離與m3的距離族群a1.662.544.72族群1b3.020.334.54族群2c3.071.053.78族群2d4.221.25.94族群2e1.954.772.13族群1f2.674.480.75族群3g3.675.20.47族群3h3.804.630.75族群3i0
6、.333.333.68族群1步驟3(第三次疊代):由新的資料中心點為起點,建立出第二輪的3個族群k-Means族群推算法-範(fàn)例-續(xù)步驟4(第三次疊代):找出每一個族群新的中心點族群1={(1+4+2)/3,(3+1+2)/3}=(2.33,2)族群2={(2+3+1)/3,(5+5+6)/3}=(2,5.33)族群3={(5+6+6)/3,(2+2+3)/3}=(5.67,2.33)族群1族群2族群3abcdefghi這種方式的目的是要由已知的屬性來找出未知屬性的值。它的概念是類似的資料會有類似的值。如果兩筆資料的已知屬性很接近,那它們未知屬性的值也會很
7、接近。k-近鄰法k-近鄰法的步驟如下:決定要以多少個最接近的資料點來決定我們要求的數(shù)值。換句話說,決定k值。加入訓(xùn)練集的資料。當(dāng)有新的資料時,我們就找出訓(xùn)練資料集中k個與這筆新資料最近的資料值。由於這k個資料的值是已知的,我們就可以由這些已知的值中來推算新資料這個屬性的值。k-近鄰法距離函數(shù)是被用來找出不同筆資料之間的距離。在計算距離時,需要能夠?qū)⒉煌S度的距離用同一種標(biāo)準(zhǔn)顯現(xiàn)出來。最常用的有以下兩種方式:距離函數(shù)Min-MaxNormalization:Z-ScoreStandardization:在找出k-近鄰之後,有以下兩種方式?jīng)Q定未知資料值:假設(shè)
8、每k筆接近的資料都是一樣的重要。假設(shè)與新資料越接近的資料值比重應(yīng)該越大。一個資料