資源描述:
《基于均值與最大距離乘積的初始聚類中心優(yōu)化K-means算法.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、總第305期計(jì)算機(jī)與數(shù)字工程Vo1.43No.32015年第3期Computer&DigitalEngineering379基于均值與最大距離乘積的初始聚類中心優(yōu)化K-means算法段桂芹(廣東松山職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系韶關(guān)512126)摘要針對(duì)K—means算法隨機(jī)選擇初始聚類中心所出現(xiàn)的樣本聚類結(jié)果隨機(jī)性強(qiáng)、穩(wěn)定性低、容易陷入局部最優(yōu)和得不到全局最優(yōu)解等問題,提出一種基于均值與最大距離乘積的初始聚類中心優(yōu)化K-means算法。該算法首先選擇距離樣本集均值最遠(yuǎn)的數(shù)據(jù)對(duì)象加入聚類中心集合,再依次將與樣本集均值和當(dāng)前聚類中心乘積最大的數(shù)據(jù)對(duì)象加入聚類中心集合。標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與原始
2、K-means的算法以及另一種改進(jìn)算法相比,新提出的聚類算法具有更高的準(zhǔn)確率。關(guān)鍵詞K—means聚類算法;均值;最大距離乘積;數(shù)據(jù)挖掘中圖分類號(hào)TP301.6DOI:10.3969/j.issn1672—9722.2015.03.008AutomaticGenerationCloudOptimizationBasedonGeneticAlgorithmDUANGuiqin(DepartmentOfComputerScience,GuangdongSongshanPolytechnicCollege,Shaoguan512126)AbstractAimingatsolvingtheprob
3、lemofclusteringresultsrandomness,lowstability,easytofallintolocaloptimumandnoglobaloptimalsolutionofK-meansalgorithmrandomlychoseninitialclustercenters,akindofinitialclustercenteroptimizationK-meansalgorithmbasedontheproductofthemeanandmaximumdistanceisputforward.Firstly,thefarthestdistancemeansam
4、plesetofdataobjectsarechosentojointheclustercenterset,thenthesamplemeanandmaximumcurrentclustercenterproductdataobjectaresetinturntojointheclustercentercollection.Experimentalresultsonthestandardda—tasetsshowthat,comparedwiththeoriginalK-meansalgorithmandanotherimprovedalgorithm,theproposednewclus
5、te—ringalgorithmhasahigheraccuracyrate.KeyWordsK-meansclusteringalgorithm,mean,maximumdistanceproduct,dataminingClassNumberTP3O】.6作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)的分布情況、觀察1引言每個(gè)類的特點(diǎn)、對(duì)特定的類進(jìn)行更深入的分析。同聚類就是將數(shù)據(jù)對(duì)象組成不同的類(或簇),使時(shí),它也可以作為其他算法的預(yù)處理步驟。聚類技得不同類對(duì)象之間的相似性盡量小,而同類對(duì)象之術(shù)的種類很多,主要有劃分方法、層次方法、基于密間的相似性盡量大E13。聚類分析是一種探索性的度的方法、基于網(wǎng)格的
6、方法、基于模型的方法。分析,在分類的過程中,人們不必事先給出一個(gè)分K—means算法是一種基于劃分的聚類算法,具類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)有聚類速度快、易實(shí)現(xiàn)、對(duì)大型數(shù)據(jù)集能進(jìn)行高效行分類。作為數(shù)據(jù)挖掘的一個(gè)功能,聚類分析可以分類的特點(diǎn)。但是K—means算法也有其不足,例收稿日期:2014年9月13日,修回日期:2014年1O月2O日基金項(xiàng)目:2013年廣東省高職教育教學(xué)指導(dǎo)委員會(huì)教改項(xiàng)目(編號(hào):XXJS-2013—2041);廣東松山職業(yè)技術(shù)學(xué)院技術(shù)應(yīng)用重點(diǎn)課題(編號(hào):2012一JYKY-19)資助。作者簡(jiǎn)介:段桂芹,女,碩士,講師,研究方向:數(shù)據(jù)挖掘、多媒體技術(shù)。3
7、80段桂芹:基于均值與最大距離乘積的初始聚類中心優(yōu)化K—means算法第43卷如傳統(tǒng)的K—means算法在聚類中心初始化時(shí)l2一,2.3K—means算法的研究現(xiàn)狀初始中心的選擇是隨機(jī)的,因此會(huì)產(chǎn)生多種不同的目前已有大量的文獻(xiàn)針對(duì)K—means算法的初聚類結(jié)果,甚至可能得到無效的聚類結(jié)果l_3]。針對(duì)始聚類中心點(diǎn)的選取進(jìn)行了研究,例如:翟東海Kmeans算法的上述缺陷,本文提出一種基于均值等l_7]基于距離最遠(yuǎn)的樣本點(diǎn)最