資源描述:
《改進的k-means聚類算法及應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、改進的K-means聚類算法及應(yīng)用摘要:傳統(tǒng)的k-means算法需要事先確定初始聚類中心,聚類精確程度不高。針對以上問題,本文結(jié)合熵值法和動態(tài)規(guī)劃算法來對傳統(tǒng)的k-means算法進行改進,提出了基于熵值法及動態(tài)規(guī)劃的改進k-means算法。熵值法用來修訂算法的距離計算公式,以提高算法的聚類精確程度,動態(tài)規(guī)劃算法用來確定算法的初始聚類中心。將改進算法應(yīng)用于礦井監(jiān)測傳感器聚類中,結(jié)果顯示較傳統(tǒng)的k-means算法,改進算法效率有了明顯提高,聚類精確程度有較大增強。關(guān)鍵詞:k-means;動態(tài)規(guī)劃;熵值法;聚類精確度;礦井監(jiān)測傳感器【abstract】thetradit
2、ionalk-meanshassensitivitytotheinitialclusteringcenters,anditsclusteringaccuracyislow.toagainsttheseshortcomings,animprovedk-meansalgorithmbasedonthecombinationofdynamicprogrammingalgorithmandentropymethodisproposed.theentropymethodisusedtoamendthedistancecalculatingformulatoimproveth
3、eclusteringaccuracy,anddynamicprogrammingalgorithmisusedtodefinetheinitialclustercenters.theresultofthesimulationontheclusteringintheminemonitoringsensorsshowsthattheproposedalgorithmhasbetterperformancethanthetraditionalk-meansalgorithmintermsofefficiencyandclusteringaccuracy.【keywor
4、ds】k-means;dynamicprogramming;entropy;clusteringaccuracy;minemonitoringsensors0引言k-means算法是數(shù)據(jù)挖掘技術(shù)中基于分裂法的一個經(jīng)典的聚類算法,因為該算法的理論可靠、算法簡單、收斂迅速而被廣泛應(yīng)用[1-2]。但是,k-means算法的聚類結(jié)果對初始聚類中心的依賴性導致聚類結(jié)果不穩(wěn)定,并且僅依據(jù)對象間的歐式距離而忽略數(shù)據(jù)對象不同屬性對對象間差異程度的影響也使得k-means算法的聚類精確度降低。在實際應(yīng)用中,如果可以同時從初始聚類中心的選取和對象間歐式距離計算公式的修訂兩個方面對算法
5、進行改進,將對降低傳統(tǒng)k-means算法聚類結(jié)果的波動性以及獲得一個較好的聚類效果具有重要意義。文獻[3]基于每個數(shù)據(jù)對象的密度參數(shù)選取處于高密度分布的點作為k-means算法的初始聚類中心,提高了聚類的準確率和穩(wěn)定性。文獻[4]利用貪心算法參照數(shù)據(jù)樣本的分布特征將數(shù)據(jù)劃分為k個集合,選取各集合中數(shù)據(jù)的平均值作為初始聚類中心。文獻[5]提出了基于kruskal算法的改進kmeans算法,該算法利用最小生成樹的構(gòu)造原理依次向聚類中心集合中加入當前數(shù)據(jù)對象中距離最遠的兩個對象,如此迭代直至集合中包含k個聚類中心為止,取得了良好效果。文獻[6]利用主成分分析方法對原始數(shù)
6、據(jù)進行預(yù)處理,將處理后的數(shù)據(jù)作為k-means的輸入樣本,解決了因樣本間分類指標信息重疊導致k-means算法效率降低的問題。文獻[7]基于因子分析為復(fù)雜參數(shù)變量下的數(shù)據(jù)挖掘有效地減少了冗余字段,提高了k-means分群算法的效率。文獻[8]利用信息熵對數(shù)據(jù)對象的屬性進行賦權(quán),并利用權(quán)值來修改距離計算公式,在一定程度上提高了k-means聚類的精度和穩(wěn)定性。在借鑒以上研究成果的基礎(chǔ)上,現(xiàn)提出一種利用熵值法和動態(tài)規(guī)劃算法改進的k-means聚類算法,該算法利用熵值法[9-10]確定數(shù)據(jù)屬性的權(quán)值并進一步得到數(shù)據(jù)對象和其鄰居間的權(quán)重系數(shù),采用賦權(quán)的歐式距離作為相似性度
7、量的依據(jù),在確定初始聚類中心時,利用動態(tài)規(guī)劃算法求得距離累加和最大的k個數(shù)據(jù)對象作為初始聚類中心。該算法在礦井監(jiān)測傳感器聚類的應(yīng)用結(jié)果表明該算法提高了聚類的精度和穩(wěn)定性。1相關(guān)定義5結(jié)束語本文結(jié)合熵值法和動態(tài)規(guī)劃提出了一種改進的k-means算法,動態(tài)規(guī)劃算法用來對數(shù)據(jù)進行分析,實現(xiàn)確定對象集的初始聚類中心,熵值法用來計算數(shù)據(jù)對象的各個屬性的權(quán)值,用改進的權(quán)值修正距離計算公式,以提高聚類的精確度。在礦井監(jiān)測傳感器聚類的應(yīng)用結(jié)果表明,改進的算法較之于傳統(tǒng)的k-means算法在算法的計算效率上有所提高,聚類的精確度明顯增強。本文利用聚類的數(shù)據(jù)對象之間存在某種關(guān)系的特點
8、,利用動態(tài)