資源描述:
《模糊C均值聚類算法的改進研究.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第10卷第3期淮陰師范學(xué)院學(xué)報(自然科學(xué))Vol.10No.32011年6月JOURNALOFHUAIYINTEACHERSCOLLEGE(NaturalScience)Jun.2011模糊C均值聚類算法的改進研究賈丙靜,王傳安,宋雪亞(安徽科技學(xué)院理學(xué)院,安徽風(fēng)陽233100)摘要:模糊C均值聚類算法(FCM)是一種比較有代表性的模糊聚類算法,主要是通過迭代更新聚類中心和隸屬度矩陣,使目標函數(shù)值達到最小.FCM算法還有很多缺陷和不足,其中最主要的就是選取不同的初始中心,會得到不同的聚類結(jié)果,影響到聚類的穩(wěn)定性和準確率.本文對要聚類的數(shù)據(jù)集采用數(shù)據(jù)分區(qū)技
2、術(shù)進行預(yù)處理,根據(jù)物質(zhì)質(zhì)心的定義及質(zhì)心運動原理,計算每個數(shù)據(jù)分區(qū)的質(zhì)心做為FCM聚類的初始聚類中心.實驗結(jié)果表明,改進后的算法FCM能夠降低迭代次數(shù)和運行時間,得到比較穩(wěn)定的聚類結(jié)果.關(guān)鍵詞:模糊C均值聚類算法;數(shù)據(jù)分區(qū);質(zhì)心中圖分類號:O159文獻標識碼:A文章編號:1671-6876(2011)03-0226-040引言隨著計算機、通信和網(wǎng)絡(luò)技術(shù)的發(fā)展,人們被海量信息淹沒的同時又面臨著知識的貧乏,因此,開始思考采用一定的方法從蘊含著豐富信息的數(shù)據(jù)中抽取感興趣的知識和信息,包括有效的、新穎的、潛在有用的概念、規(guī)律和模式等,這就是數(shù)據(jù)挖掘.在數(shù)據(jù)挖掘技術(shù)
3、中,聚類分析是其中最主要的研究課題之一,其主要功能是根據(jù)對象的屬性,將大規(guī)模的數(shù)據(jù)集合分為由類似的對象組成的多個類.其中,類內(nèi)具有最大的相似性,類間具有最小的相似性.目前,常用的聚類分析方法有劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法和模糊聚類方法.由于在現(xiàn)實生活中,很多對象沒有嚴格的屬性,不能把它絕對的劃分到某個類別中,因此,模糊聚類分析成為聚類的研究主流,它得到的是樣本屬于某個類別的不確定程度,更能客[1,2]觀的反映真實的世界.模糊C均值聚類算法(FCM)是一種代表性的模糊聚類算法,但是FCM還有很多缺陷和不足,其中最主
4、要的就是算法的性能依賴于初始中心的選擇,選取不同的初始中心,會得到不同的聚類結(jié)果,影響到聚類的穩(wěn)定性和準確率.針對上述問題,我們首先對要聚類的數(shù)據(jù)采用數(shù)據(jù)分區(qū)技術(shù)進行預(yù)處理,然后根據(jù)物質(zhì)質(zhì)心的定義及質(zhì)心運動原理,計算每個數(shù)據(jù)分區(qū)的質(zhì)心做為FCM聚類的初始聚類中心,降低FCM對初始中心的依賴性.1經(jīng)典FCM算法在非監(jiān)督模式識別領(lǐng)域,FCM聚類算法是應(yīng)用最廣泛的算法之一.Dunn在Ruspini提出模糊劃分概念的基礎(chǔ)上,改進傳統(tǒng)的硬C均值聚類算法,把其推廣到模糊情形,形成FCM算法.Bezdek在其提出的FCM算法的基礎(chǔ)上推廣到更一般的形式,就形成了我們今天
5、所看到的經(jīng)典FCM算法.經(jīng)典FCM算法的基本思想是:隨機初始化若干個聚類中心,計算樣本中的每個數(shù)據(jù)對聚類中心的隸屬度,構(gòu)成隸屬度矩陣,然后通過若干次的迭代更新聚類中心和隸屬度矩陣,使目標函數(shù)值達到最小.目標函數(shù)如下:ncm2Jm(U,V)=∑∑uijdij(1)j=1i=1假設(shè)待聚類數(shù)據(jù)集合X中含有n個對象,其中,m是模糊加權(quán)指數(shù),控制算法的柔性,m>1;c表示收稿日期:2011-02-22基金項目:安徽省自然科學(xué)基金資助項目(KJ2011Z070)作者簡介:賈丙靜(1982-),女,山東曹縣人,助教,碩士,研究方向為Web日志挖掘等.第3期賈丙靜等:模
6、糊C均值聚類算法的改進研究227分類數(shù);uij∈[0,1]表示第i個樣本點xi屬于第j個分類的隸屬度;dij表示樣本點xi與聚類中心vj的歐幾里德距離;V=狖vi狚(i=1,2,,c)表示聚類中心矩陣,U=狖uij狚表示隸屬度矩陣,其中隸屬度值uij具有如下的約束條件:c∑uij=1,i=1,2,3,,n(2)j=1n0<∑uij7、uijxii=1vj=n(5)m∑uiji=12改進FCM算法2.1數(shù)據(jù)分區(qū)在海量高維數(shù)據(jù)中,統(tǒng)計數(shù)據(jù)在每一維上的分布特性,根據(jù)它的分布特性,可將數(shù)據(jù)劃分為若干個[3-5]分布均勻的區(qū)域.劃分的基本過程如下:首先,從采集的大量數(shù)據(jù)中選取一個子數(shù)據(jù)集做為樣本數(shù)據(jù).然后,用直方圖分析子數(shù)據(jù)集中每一維上的分布密度.直方圖是表示數(shù)據(jù)分布變化情況的一種統(tǒng)計工具,是由若干個高度不等的矩形組成,橫軸表示數(shù)據(jù)類型,縱軸表示分布情況.繪制直方圖之前,要統(tǒng)計數(shù)據(jù)點中的最大值和最小值,根據(jù)數(shù)據(jù)的特點決定組數(shù)并利用每組中兩個端點的差值求出組距.最后,繪制直方圖,得到的直方圖的類
8、型有雙峰型、偏態(tài)型、折齒型等,通過分析結(jié)果,決定在那一維上分區(qū)、劃分為幾個區(qū)及各