資源描述:
《模糊聚類分析方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第二節(jié)模糊聚類分析方法在科學(xué)技術(shù)、經(jīng)濟(jì)管理中常常要按一定的標(biāo)準(zhǔn)(相似程度或親疏關(guān)系)進(jìn)行分類。例如,根據(jù)生物的某些性狀可對生物分類,根據(jù)土壤的性質(zhì)可對土壤分類等。對所研究的事物按一定標(biāo)準(zhǔn)進(jìn)行分類的數(shù)學(xué)方法稱為聚類分析,它是多元統(tǒng)計(jì)“物以類聚”的一種分類方法。由于科學(xué)技術(shù)、經(jīng)濟(jì)管理中的分類界限往往不分明,因此采用模糊聚類方法通常比較符合實(shí)際。一、模糊聚類分析的一般步驟1、第一步:數(shù)據(jù)標(biāo)準(zhǔn)化[9](1)數(shù)據(jù)矩陣設(shè)論域?yàn)楸环诸悓ο?,每個(gè)對象又有個(gè)指標(biāo)表示其性狀,即,于是,得到原始數(shù)據(jù)矩陣為。其中表示第個(gè)分類對象的第個(gè)指標(biāo)的原始
2、數(shù)據(jù)。(2)數(shù)據(jù)標(biāo)準(zhǔn)化在實(shí)際問題中,不同的數(shù)據(jù)一般有不同的量綱,為了使不同的量綱也能進(jìn)行比較,通常需要對數(shù)據(jù)做適當(dāng)?shù)淖儞Q。但是,即使這樣,得到的數(shù)據(jù)也不一定在區(qū)間上。因此,這里說的數(shù)據(jù)標(biāo)準(zhǔn)化,就是要根據(jù)模糊矩陣的要求,將數(shù)據(jù)壓縮到區(qū)間上。通常有以下幾種變換:①平移·標(biāo)準(zhǔn)差變換其中,。經(jīng)過變換后,每個(gè)變量的均值為0,標(biāo)準(zhǔn)差為1,且消除了量綱的影響。但是,再用得到的還不一定在區(qū)間上。②平移·極差變換,顯然有,而且也消除了量綱的影響。③對數(shù)變換取對數(shù)以縮小變量間的數(shù)量級。2、第二步:標(biāo)定(建立模糊相似矩陣)設(shè)論域,,依照傳統(tǒng)聚
3、類方法確定相似系數(shù),建立模糊相似矩陣,與的相似程度。確定的方法主要借用傳統(tǒng)聚類的相似系數(shù)法、距離法以及其他方法。具體用什么方法,可根據(jù)問題的性質(zhì),選取下列公式之一計(jì)算。(1)相似系數(shù)法①夾角余弦法。②最大最小法。③算術(shù)平均最小法。④幾何平均最小法。以上3種方法中要求,否則也要做適當(dāng)變換。⑤數(shù)量積法,其中。⑥相關(guān)系數(shù)法,其中,。⑦指數(shù)相似系數(shù)法,其中,而。(2)距離法①直接距離法,其中為適當(dāng)選取的參數(shù),使得,表示他們之間的距離。經(jīng)常用的距離有●海明距離?!駳W幾里得距離?!袂斜妊┓蚓嚯x。②倒數(shù)距離法。其中為適當(dāng)選取的參數(shù),使
4、得。③指數(shù)距離法。3、第三步:聚類(求動(dòng)態(tài)聚類圖)(1)基于模糊等價(jià)矩陣聚類方法①傳遞閉包法根據(jù)標(biāo)定所得的模糊矩陣還要將其改造稱模糊等價(jià)矩陣。用二次方法求的傳遞閉包,即=。再讓由大變小,就可形成動(dòng)態(tài)聚類圖。②布爾矩陣法[10]布爾矩陣法的理論依據(jù)是下面的定理:定理2.2.1設(shè)是上的一個(gè)相似的布爾矩陣,則具有傳遞性(當(dāng)是等價(jià)布爾矩陣時(shí))矩陣在任一排列下的矩陣都沒有形如的特殊子矩陣。布爾矩陣法的具體步驟如下:①求模糊相似矩陣的截矩陣.②若按定理2.2.1判定為等價(jià)的,則由可得在水平上的分類,若判定為不等價(jià),則在某一排列下有上
5、述形式的特殊子矩陣,此時(shí)只要將其中特殊子矩陣的0一律改成1直到不再產(chǎn)生上述形式的子矩陣即可。如此得到的為等價(jià)矩陣。因此,由可得水平上的分類(2)直接聚類法所謂直接聚類法,是指在建立模糊相似矩陣之后,不去求傳遞閉包,也不用布爾矩陣法,而是直接從模糊相似矩陣出發(fā)求得聚類圖。其步驟如下:①?。ㄗ畲笾担?,對每個(gè)作相似類,且=,即將滿足的與放在一類,構(gòu)成相似類。相似類與等價(jià)類的不同之處是,不同的相似類可能有公共元素,即可出現(xiàn),,.此時(shí)只要將有公共元素的相似類合并,即可得水平上的等價(jià)分類。②取為次大值,從中直接找出相似度為的元素對(
6、即),將對應(yīng)于的等價(jià)分類中所在的類與所在的類合并,將所有的這些情況合并后,即得到對應(yīng)于的等價(jià)分類。③取為第三大值,從中直接找出相似度為的元素對(即),將對應(yīng)于的等價(jià)分類中所在的類與所在的類合并,將所有的這些情況合并后,即得到對應(yīng)于的等價(jià)分類。④以此類推,直到合并到成為一類為止。二、最佳閾值的確定在模糊聚類分析中對于各個(gè)不同的,可得到不同的分類,許多實(shí)際問題需要選擇某個(gè)閾值,確定樣本的一個(gè)具體分類,這就提出了如何確定閾值的問題。一般有以下兩個(gè)方法:①按實(shí)際需要,在動(dòng)態(tài)聚類圖中,調(diào)整的值以得到適當(dāng)?shù)姆诸?,而不需要事先?zhǔn)確地估
7、計(jì)好樣本應(yīng)分成幾類。當(dāng)然,也可由具有豐富經(jīng)驗(yàn)的專家結(jié)合專業(yè)知識(shí)確定閾值,從而得出在水平上的等價(jià)分類②用F統(tǒng)計(jì)量確定最佳值。[11]設(shè)論域?yàn)闃颖究臻g(樣本總數(shù)為),而每個(gè)樣本有個(gè)特征:,。于是得到原始數(shù)據(jù)矩陣,如下表所示,其中,稱為總體樣本的中心向量。樣本指標(biāo)12km設(shè)對應(yīng)于值的分類數(shù)為,第類的樣本數(shù)為,第類的樣本記為:,第類的聚類中心為向量,其中為第個(gè)特征的平均值,即,,作統(tǒng)計(jì)量,其中為與間的距離,為第類中第個(gè)樣本與其中心間的距離。稱為統(tǒng)計(jì)量,它是遵從自由度為,的分布。它的分子表征類與類之間的距離,分母表征類內(nèi)樣本間的距
8、離。因此,值越大,說明類與類之間的距離越大;類與類間的差異越大,分類就越好?;谀:垲惙治龅亩鄬傩詻Q策方法的實(shí)際應(yīng)用聚類分析是將事物根據(jù)一定的特征,并按某種特定要求或規(guī)律分類的方法。由于聚類分析的對象必定是尚未分類的群體,而且現(xiàn)實(shí)的分類問題往往帶有模糊性,對帶有模糊特征的事物進(jìn)行聚類分析,分類過程中不是僅僅考慮事物