資源描述:
《(最新)分布式聚類算法研究及其應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、南昌大學(xué)碩士學(xué)位論文分布式聚類算法研究及其應(yīng)用姓名:徐軍莉申請學(xué)位級別:碩士專業(yè):計算機(jī)軟件與理論指導(dǎo)教師:喻國平20091201摘要摘要聚類分析是數(shù)據(jù)挖掘領(lǐng)域的一項重要研究內(nèi)容,聚類算法在金融業(yè)、保險業(yè)、市場營銷、網(wǎng)絡(luò)安全、科學(xué)決策等方面的應(yīng)用越來越廣泛。目前已有的聚類算法大多只適用于集中式數(shù)據(jù)的聚類。而實(shí)際中的數(shù)據(jù)卻是分布在不同的站點(diǎn)上,如果使用傳統(tǒng)的聚類算法從這些分布式數(shù)據(jù)中提取信息,就必須把這些數(shù)據(jù)合并到一個中心站點(diǎn)上。由于傳輸速度和安全因素的限制,把各站點(diǎn)的數(shù)據(jù)全部集中到某一個中心站點(diǎn)上是十分困難的。而且所有站點(diǎn)數(shù)據(jù)集中在一起,數(shù)
2、據(jù)量會非常龐大,聚類效率會顯著降低。本文對分布式聚類方法作了一些較深入的研究,取得了如下成果:(1)對聚類進(jìn)行了較系統(tǒng)而完整的分析,包括了聚類的概念、聚類的分類、聚類的步驟和聚類的度量方法。(2)對分布式數(shù)據(jù)挖掘及分布式聚類作了具體的介紹,包括分布式數(shù)據(jù)挖掘的特點(diǎn)、任務(wù)及策略;分布式聚類算法研究現(xiàn)狀及研究方向。(3)提出了基于中心點(diǎn)和密度的聚類算法CDBC,該算法CDBC時間效率很高,而且聚類的質(zhì)量也較好。實(shí)驗證明CDBC算法是一種很有效的聚類算法。將CDBC應(yīng)用于分布式環(huán)境,提出了CDBDC算法。CDBDC與CDBC算法類似,具有很高的時
3、間效率。(4)將CDBC和CDBDC聚類算法分別應(yīng)用于客戶細(xì)分和入侵檢測中,通過實(shí)驗數(shù)據(jù)分析,得到了較好的效果。關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析;分布式聚類;AbstractABSTRACTClusteranalysisisallimportantresearchareaindatamining。Nowadaysclusteringhasbecomeanincreasinglywidetaskinmodemapplicationdomainssuchasfinance,insurance,marketanalysis,networksecurit
4、y,sciencedecision,andSOon.Existingclusteringalgorithmsareonlysuitableforcentralizedenvironment.However,dataaredistributedatdifferentsites.Inordertoextractinformationfromthesedistributeddatawithtraditionalclusteringalgorithm,thedistributeddatahavet0bemergedatacentralsiteand
5、thenclustered.Itissuchahardtopictocollectthesedistributeddataduetotherestrictionoftransmissionspeedandsafetyfactor.Itdecreasesclusteringefficiencyinevidenceandresultsinhugenessdatasetwhilecentralizeallthelocaldata.Distributedclusteringanditsapplicationsalestudied,andinnova
6、tivecontributionsareachievedasfollows:(1)Clusteringisanalyzed,includingconception,class,stepandmeasurementofclustering.(2)Distributeddatamininganddistributedclusteringarentroduced,includingfeatures,taskandstrategyofdistributeddatamining;researchstatusandresearchdirectionso
7、fdistributedclusteringalgorithm.(3)CDBCalgorithmisproposed,thetimeefficiencyofthisalgorithmishigh,andtheeffectofclusteringiswell.CDBCisagoodclusteringalgorithmwhichisverifiedexperiment.CDBCalgorithmisappliedtodistributedenvironment,CDBDCalgorithmisproposed.Thetwoalgorithms
8、issimilar,havehi曲timeefficiency.(4)CDBCandCDBDCalgorithmsarerespectivelyappliedtocustomer