資源描述:
《數據挖掘常用聚類算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、數據挖掘常用聚類算法研究摘要:信息社會的發(fā)展,使數據量以前所未有的速度在增長,因此從海量數據中獲取有用的知識和信息就變得越來越重要。數據挖掘是一種綜合多領域知識而形成的數據分析技術,能夠從大量數據中獲取有價值的知識并為決策提供支持。聚類分析算法是數據挖掘中的一個核心內容,也是目前研究的一個熱點。該文首先講述了基于劃分的聚類算法、基于分層的聚類算法、基于密度的聚類算法和基于網格的聚類算法等常用的聚類分析算法,并分析了其特點;然后通過舉例詳細描述了最近鄰聚類算法的操作過程。聚類算法的總結,對聚類的研究和發(fā)展具有積極意義。關鍵詞:數據挖掘;聚類;聚類算法;簇;核密度中圖分類號:TP18文獻標識
2、碼:A文章編號:1009-3044(2014)16-3710-03Abstract:Thedevelopmentoftheinformationsocietymaketheamountofdatagrowingatanunprecedentedrate,andsotoobtainusefulknowledgefromhugeamountsofdataandinformationbecomesmoreandmoreimportant.Dataminingisadataanalysistechniqueformedbyintegratingmulti-domainknowledge,whic
3、hcanacquirevaluable9knowledgefromlargeamountsofdataandprovidesupportfordecision.Clusteringanalysisalgorithmindataminingisacorecontent,whichisalsoahotspotintheresearchofthecurrent.Thisarticlefirstdescribescommonlyusedclusteringalgorithmsthatincludetheclusteringalgorithmbasedonclassification,theclu
4、steringalgorithmbasedonhierarchiesandtheclusteringalgorithmbasedondensityandtheclusteringalgorithmbasedgrid,andthenanalyzestheircharacteristics.Theoperationprocessofnearestneighborclusteringalgorithmisillustratedindetailbyanexample.Thesummaryoftheclusteringalgorithmshaspositivesignificanceforther
5、esearchanddevelopmentofclustering.Keywords:datamining;clustering;clusteringalgorithm;cluster;kerneldensity9近年來,通信技術、計算機技術、信息技術的快速發(fā)展和不斷完善,使社會上每天產生了大量的諸如文本、音頻、視頻、圖像等數據。面對這些海量數據,如何從中找到有價值的知識和信息是目前研究者研究的一個重要課題,數據挖掘技術在這種背景下應運而生了。數據挖掘是從大量數據中提取或挖掘出潛在的、有價值的、可理解的知識和規(guī)則的過程,并為用戶決策提供支持。作為一個應用驅動的領域,數據挖掘吸納了諸如統(tǒng)計
6、學習、機器學習、模式識別、數據庫和數據倉庫、信息檢索、可視化、算法、高性能計算和許多應用領域的大量技術[1]。數據挖掘是一種新式的具有一定深度的數據處理技術;聚類分析是一種重要的分析數據的方法,是將物理的或抽象的對象集合分成相似的對象類的過程[2],是人們發(fā)現事物內在聯(lián)系的有效手段之一[3]。劃分后的對象類被稱為簇,因此聚類的結果是一個簇集,也稱為一個聚類。聚類分析的主要目標是在沒有先驗信息的前提下將樣本空間中的數據集按照某種度量標準劃分成若干類,使得按照這一標準在同一類中的個體盡可能相似而在不同類中的個體有較大差異[4]。聚類分析并沒有對簇的數目和結構做出事先的假定,因此它是一種無監(jiān)督
7、學習的方法,其具體實現有不同的算法。1數據挖掘常用聚類算法簡要介紹9聚類分析是數據挖掘中占具著重要地位,它是在數據對象沒有類標號的情況下,把數據對象集劃分成若干個簇,使得同一個簇內的數據對象高度相似,不同簇間的數據對象高度相異。聚類分析技術在生物學、商務智能和Web搜索等領域得到了廣泛應用。到目前為止出現了一些實現聚類分析的算法,其中比較常用的有基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法和基于網格的聚類算法等。1)基