資源描述:
《模糊c均值聚類算法的研究與改進》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、A坊esissubmittedtoZhengzhouUniversityforthedegreeofMasterTheStudyandImprovementofFuzzyC—meansClusterAlgorithmByWangzhenboSupervisor:Prof.BaozhiQiuComputerSoftwareandTheorySchoolofInformationEngineeringMay2014原創(chuàng)性聲明J刪刪㈣刪刪刪刪刪Y2545509本人鄭重聲明:所星交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨立進行研究所取得的成果。除文中已經(jīng)注明弓l
2、用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的科研成果。對本文的研究作出重要貢獻的個人和集體,均已在文中以明確方式標明。本聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者:王擊反藉日期:1口l}年§月豁日學(xué)位論文使用授權(quán)聲明本人在導(dǎo)師指導(dǎo)”F完成的論文及褶關(guān)的職務(wù)作品,知識產(chǎn)權(quán)歸屬鄭俏大學(xué)。根糟鄭j稍大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留或向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和僭閱;本人授權(quán)鄭州大學(xué)可以將本學(xué)位論文的全部或部分編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印,縮印或者其他復(fù)制手段保存論文和匯編本學(xué)位論文。本入離
3、校后發(fā)表、使用學(xué)位論文或與該學(xué)位論文直接相關(guān)的學(xué)術(shù)論文或成果時,第一署名單位仍然為鄭州大學(xué)。保密論文在鰓密后應(yīng)遵守此規(guī)定。學(xué)位論文作者:王扳倚日期:≥羽誓年亨月2籮日摘要聚類分析是數(shù)據(jù)挖掘領(lǐng)域最為重要的技術(shù)之一,也是學(xué)術(shù)界研究的熱點問題,至今已在理論和方法上取得了豐碩的研究成果,并在各個領(lǐng)域的數(shù)據(jù)分析中起到重要作用。在眾多的聚類算法中,基于劃分的K均值聚類算法最為經(jīng)典,應(yīng)用領(lǐng)域廣泛。模糊C均值算法屬于其中的一個變種,保持了其思想簡單易行的特點,時間復(fù)雜性接近線性,對大規(guī)模數(shù)據(jù)的挖掘具有高效性和伸縮性。為了解決多維數(shù)據(jù)集中對象之間的基于歐式距離度量的相
4、似性度量差別不是很明顯的問題,提出了基于變異系數(shù)的模糊C均值聚類算法。算法采用變異系數(shù)加權(quán)的歐式距離,引入了基于最大距離選取質(zhì)心的方法初始化質(zhì)一Ii,,使用KNN距離之和的倒數(shù)作為對象的密度并過濾掉離群點和噪聲點,在高密度對象中選取最大距離的對象作為質(zhì)心,使用加權(quán)的歐式距離計算隸屬度矩陣并根據(jù)隸屬度更新質(zhì),Ii,的位置。實驗結(jié)果表明該聚類方法比一般的模糊C均值方法聚類結(jié)果更好,實際效果優(yōu)于一般模糊C均值方法。為了提高混合屬性數(shù)據(jù)集上的聚類精度問題,提出了一種基于加權(quán)模糊C均值的聚類算法。權(quán)值由數(shù)值屬性和分類屬性的距離之和計算,算法在數(shù)值屬性上隨機選取
5、質(zhì)心,使用加權(quán)的距離計算隸屬度并根據(jù)隸屬度更新數(shù)值質(zhì)心的位置;在分類屬性上,依據(jù)初始數(shù)值質(zhì)心劃分的簇確定初始分類質(zhì)心,將每個對象的分類屬性劃分到其隸屬度最大的分類質(zhì)心,并以所屬簇內(nèi)對象每個屬性上出現(xiàn)的次數(shù)的集合作為質(zhì)心。實驗結(jié)果表明該算法可以發(fā)現(xiàn)數(shù)值屬性和分類屬性的混合數(shù)據(jù)集中的簇,與現(xiàn)有的同類算法相比,準確度有一定提高。關(guān)鍵詞:數(shù)據(jù)挖掘聚類分析模糊C均值質(zhì)心選取變異系數(shù)混合數(shù)據(jù)AbstractClusteringanalysisisoneofmostUnportaratechnologyandresearchhotspotinthedomainof
6、datamining,whichhasachieved丘uitfulresultsintheoryandmethodandplaysakeyroleindataanalysisinvariousfields.Thek-mgansalgorithmbasedonpartitionisthemostchssicalo鵬andhasbeenappliedtonuImrousdomain.FuzzyC-l/lgansalgorithmisavariantofthek-11tallsalgorithm,whichnmintainsitssimpleandeas
7、ycharacteristic.FuzzyC-meanshasnearlylineartimecomplexity,anditiseffectiveandseahbletolarge—scaledatamining.Inordertosolyethedifferenceofthesimilaritymeasl,llebasedonEuclideandistanceisnotveryobviousamongobjectsinmulti-dimemiomldataset,andweproposedafuzzyC-meailsclusteringalgor
8、ithmbasedonthecoefficientofvariation.ThealgorithmUSeSE