資源描述:
《數(shù)據(jù)挖掘常用聚類(lèi)算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、數(shù)據(jù)挖掘常用聚類(lèi)算法研究摘要:信息社會(huì)的發(fā)展,使數(shù)據(jù)量以前所未有的速度在增長(zhǎng),因此從海量數(shù)據(jù)中獲取有用的知識(shí)和信息就變得越來(lái)越重要。數(shù)據(jù)挖掘是一種綜合多領(lǐng)域知識(shí)而形成的數(shù)據(jù)分析技術(shù),能夠從大量數(shù)據(jù)中獲取有價(jià)值的知識(shí)并為決策提供支持。聚類(lèi)分析算法是數(shù)據(jù)挖掘中的一個(gè)核心內(nèi)容,也是目前研究的一個(gè)熱點(diǎn)。該文首先講述了基于劃分的聚類(lèi)算法、基于分層的聚類(lèi)算法、基于密度的聚類(lèi)算法和基于網(wǎng)格的聚類(lèi)算法等常用的聚類(lèi)分析算法,并分析了其特點(diǎn);然后通過(guò)舉例詳細(xì)描述了最近鄰聚類(lèi)算法的操作過(guò)程。聚類(lèi)算法的總結(jié),對(duì)聚類(lèi)的研究和發(fā)展具有積極意義。關(guān)鍵詞:數(shù)據(jù)挖掘;聚類(lèi);聚類(lèi)算法;簇;核密度中圖分類(lèi)號(hào):TP18文獻(xiàn)標(biāo)識(shí)
2、碼:A文章編號(hào):1009-3044(2014)16-3710-03Abstract:Thedevelopmentoftheinformationsocietymaketheamountofdatagrowingatanunprecedentedrate,andsotoobtainusefulknowledgefromhugeamountsofdataandinformationbecomesmoreandmoreimportant.Dataminingisadataanalysistechniqueformedbyintegratingmulti-domainknowledge,whic
3、hcanacquirevaluable9knowledgefromlargeamountsofdataandprovidesupportfordecision.Clusteringanalysisalgorithmindataminingisacorecontent,whichisalsoahotspotintheresearchofthecurrent.Thisarticlefirstdescribescommonlyusedclusteringalgorithmsthatincludetheclusteringalgorithmbasedonclassification,theclu
4、steringalgorithmbasedonhierarchiesandtheclusteringalgorithmbasedondensityandtheclusteringalgorithmbasedgrid,andthenanalyzestheircharacteristics.Theoperationprocessofnearestneighborclusteringalgorithmisillustratedindetailbyanexample.Thesummaryoftheclusteringalgorithmshaspositivesignificanceforther
5、esearchanddevelopmentofclustering.Keywords:datamining;clustering;clusteringalgorithm;cluster;kerneldensity9近年來(lái),通信技術(shù)、計(jì)算機(jī)技術(shù)、信息技術(shù)的快速發(fā)展和不斷完善,使社會(huì)上每天產(chǎn)生了大量的諸如文本、音頻、視頻、圖像等數(shù)據(jù)。面對(duì)這些海量數(shù)據(jù),如何從中找到有價(jià)值的知識(shí)和信息是目前研究者研究的一個(gè)重要課題,數(shù)據(jù)挖掘技術(shù)在這種背景下應(yīng)運(yùn)而生了。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘出潛在的、有價(jià)值的、可理解的知識(shí)和規(guī)則的過(guò)程,并為用戶(hù)決策提供支持。作為一個(gè)應(yīng)用驅(qū)動(dòng)的領(lǐng)域,數(shù)據(jù)挖掘吸納了諸如統(tǒng)計(jì)
6、學(xué)習(xí)、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)、信息檢索、可視化、算法、高性能計(jì)算和許多應(yīng)用領(lǐng)域的大量技術(shù)[1]。數(shù)據(jù)挖掘是一種新式的具有一定深度的數(shù)據(jù)處理技術(shù);聚類(lèi)分析是一種重要的分析數(shù)據(jù)的方法,是將物理的或抽象的對(duì)象集合分成相似的對(duì)象類(lèi)的過(guò)程[2],是人們發(fā)現(xiàn)事物內(nèi)在聯(lián)系的有效手段之一[3]。劃分后的對(duì)象類(lèi)被稱(chēng)為簇,因此聚類(lèi)的結(jié)果是一個(gè)簇集,也稱(chēng)為一個(gè)聚類(lèi)。聚類(lèi)分析的主要目標(biāo)是在沒(méi)有先驗(yàn)信息的前提下將樣本空間中的數(shù)據(jù)集按照某種度量標(biāo)準(zhǔn)劃分成若干類(lèi),使得按照這一標(biāo)準(zhǔn)在同一類(lèi)中的個(gè)體盡可能相似而在不同類(lèi)中的個(gè)體有較大差異[4]。聚類(lèi)分析并沒(méi)有對(duì)簇的數(shù)目和結(jié)構(gòu)做出事先的假定,因此它是一種無(wú)監(jiān)督
7、學(xué)習(xí)的方法,其具體實(shí)現(xiàn)有不同的算法。1數(shù)據(jù)挖掘常用聚類(lèi)算法簡(jiǎn)要介紹9聚類(lèi)分析是數(shù)據(jù)挖掘中占具著重要地位,它是在數(shù)據(jù)對(duì)象沒(méi)有類(lèi)標(biāo)號(hào)的情況下,把數(shù)據(jù)對(duì)象集劃分成若干個(gè)簇,使得同一個(gè)簇內(nèi)的數(shù)據(jù)對(duì)象高度相似,不同簇間的數(shù)據(jù)對(duì)象高度相異。聚類(lèi)分析技術(shù)在生物學(xué)、商務(wù)智能和Web搜索等領(lǐng)域得到了廣泛應(yīng)用。到目前為止出現(xiàn)了一些實(shí)現(xiàn)聚類(lèi)分析的算法,其中比較常用的有基于劃分的聚類(lèi)算法、基于層次的聚類(lèi)算法、基于密度的聚類(lèi)算法和基于網(wǎng)格的聚類(lèi)算法等。1)基