基于MapReduce的DBSCAN聚類算法的并行實現(xiàn).pdf

基于MapReduce的DBSCAN聚類算法的并行實現(xiàn).pdf

ID:55398739

大?。?97.98 KB

頁數(shù):4頁

時間:2020-05-15

基于MapReduce的DBSCAN聚類算法的并行實現(xiàn).pdf_第1頁
基于MapReduce的DBSCAN聚類算法的并行實現(xiàn).pdf_第2頁
基于MapReduce的DBSCAN聚類算法的并行實現(xiàn).pdf_第3頁
基于MapReduce的DBSCAN聚類算法的并行實現(xiàn).pdf_第4頁
資源描述:

《基于MapReduce的DBSCAN聚類算法的并行實現(xiàn).pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、ISSN1009-3044E-mail:eduf@dnzs.net.enComputerKnowledgeandTechnology電腦知識與技術(shù)http://www.dnzs.net.cnVo1.11.N0.10.April2015Te1:+86—551—6569096365690964基于MapReduce的DBSCAN聚類算法的并行實現(xiàn)林阿弟,陳曉鋒(廈門大學(xué)計算機科學(xué)系,福建廈門361005)摘要:DBSCAN是一種簡單、有效的基于密度的聚類算法,用于尋找被低密度區(qū)域分離的高密度區(qū)域。DBSCAN是最經(jīng)常被使用、在科學(xué)文獻中被引用最多的聚類算法之一。在

2、數(shù)據(jù)維度比較高的情況下,DBSCAN的時間復(fù)雜度為0(n)。然而,在現(xiàn)實世界中,數(shù)據(jù)集的大小已經(jīng)增長到超大規(guī)模。對此,一個有效率的并行的DBSCAN算法被提出,并在MapRe—duce平臺下實現(xiàn)它。首先,對已經(jīng)預(yù)處理過的數(shù)據(jù)進行劃分。接下來,局部的DBSCAN算法將對每一塊劃分好的數(shù)據(jù)空間實現(xiàn)聚類。最終,利用合并算法對上一階段的聚類結(jié)果進行合并。實驗結(jié)果驗證了并行算法的有效性。關(guān)鍵詞:DBSCAN;MapReduce;聚類算法;并行算法:數(shù)據(jù)挖掘中圖分類號:TP391文獻標識碼:A文章編號:1009—3044(2015)10—0161-04TheRealiza

3、tionofMapReduce——basedDBSCANDensity‘。baseClusteringMethodLINA—di.CHENXiao—feng(DepartmentofComputerScience,XiamenUniversity,Xiamen361005,China)Abstract:DBSCANisaneffectivedensity——basedclusteringmethodwhichisdesignedtofindhigh——densityregionswhicharesep—aratedbylow—densityregions.DB

4、SCANisoneofthemostcommonclusteringalgorithmsandalsomostcitedinscientificlitera—ture.Inthecaseofthedataofhighdimension,thecomputationcomplexityofDBSCANisO(n).However,itischallengingduetothesizeofdatasetshasbeengrowingrapidlytoextra—largescaleintherealworld.Inthispaper,alleficientpara

5、lleldensity—basedclusteringalgorithmisproposedandimplementedbyusingMapReduce.Furthermore,weadoptaquickpartitioningstrate—gyfordatawhichhasbeenpreprocessedisadopted.Then,LocalDBSCANprocessforeachsubspacedividedbythepartitionpro—fileisimplementedtogenerateclusters.Atlast,theclusterswh

6、icharegeneratedinthepreviousphasearemerged.Keywords:DBSCAN;mapreduce;clusteringalgorithms;parallelalgorithms;dataminingDBSCAN[11于1996年被提出以后便被廣泛使用。DB.后,根據(jù)各個維的劃分點,得到了數(shù)據(jù)劃分。接著,調(diào)整得到的SCAN基本時間復(fù)雜度是(n找出樣本點的Eps鄰域中的點所數(shù)據(jù)劃分作為局部DBSCAN算法的輸入,實施局部DBSCAN算需要的時間),其中n是樣本點的大小。低維數(shù)據(jù)空間下,利用法。最后,利用合并算法對上一階段的聚

7、類結(jié)果進行合并。一些空間索引結(jié)構(gòu),如kd樹【2]、R樹[3】、R樹[4】等,時間復(fù)雜度1DBSCAN算法介紹可以降到.高維數(shù)據(jù)空間下,DBSCAN的時間復(fù)雜度為。1.1DBSCAN的簇PDBSCAN[5]首次采用dR~tree提出了一個有效的DBSCAN并行算法。然而,創(chuàng)建dRtree在海量數(shù)據(jù)情況下非常的困難,而DBSCAN聚類算法需要用戶自己確定兩個參數(shù)Eps和在數(shù)據(jù)是高緯度時則毫無效率。MR—DBSCAN[6]提出了基于MinPts。其中,Eps為用戶定義的半徑,MinPts為定義一個點為MapReduce[7]平臺下的DBSCAN并行算法。MR—DBS

8、CAN提出核心點時其鄰域內(nèi)要求的最少點

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。