基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn).pdf

基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn).pdf

ID:55398739

大?。?97.98 KB

頁數(shù):4頁

時(shí)間:2020-05-15

基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn).pdf_第1頁
基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn).pdf_第2頁
基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn).pdf_第3頁
基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn).pdf_第4頁
資源描述:

《基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn).pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、ISSN1009-3044E-mail:eduf@dnzs.net.enComputerKnowledgeandTechnology電腦知識(shí)與技術(shù)http://www.dnzs.net.cnVo1.11.N0.10.April2015Te1:+86—551—6569096365690964基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn)林阿弟,陳曉鋒(廈門大學(xué)計(jì)算機(jī)科學(xué)系,福建廈門361005)摘要:DBSCAN是一種簡單、有效的基于密度的聚類算法,用于尋找被低密度區(qū)域分離的高密度區(qū)域。DBSCAN是最經(jīng)常被使用、在科學(xué)文獻(xiàn)中被引用最多的聚類算法之一。在

2、數(shù)據(jù)維度比較高的情況下,DBSCAN的時(shí)間復(fù)雜度為0(n)。然而,在現(xiàn)實(shí)世界中,數(shù)據(jù)集的大小已經(jīng)增長到超大規(guī)模。對此,一個(gè)有效率的并行的DBSCAN算法被提出,并在MapRe—duce平臺(tái)下實(shí)現(xiàn)它。首先,對已經(jīng)預(yù)處理過的數(shù)據(jù)進(jìn)行劃分。接下來,局部的DBSCAN算法將對每一塊劃分好的數(shù)據(jù)空間實(shí)現(xiàn)聚類。最終,利用合并算法對上一階段的聚類結(jié)果進(jìn)行合并。實(shí)驗(yàn)結(jié)果驗(yàn)證了并行算法的有效性。關(guān)鍵詞:DBSCAN;MapReduce;聚類算法;并行算法:數(shù)據(jù)挖掘中圖分類號:TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號:1009—3044(2015)10—0161-04TheRealiza

3、tionofMapReduce——basedDBSCANDensity‘。baseClusteringMethodLINA—di.CHENXiao—feng(DepartmentofComputerScience,XiamenUniversity,Xiamen361005,China)Abstract:DBSCANisaneffectivedensity——basedclusteringmethodwhichisdesignedtofindhigh——densityregionswhicharesep—aratedbylow—densityregions.DB

4、SCANisoneofthemostcommonclusteringalgorithmsandalsomostcitedinscientificlitera—ture.Inthecaseofthedataofhighdimension,thecomputationcomplexityofDBSCANisO(n).However,itischallengingduetothesizeofdatasetshasbeengrowingrapidlytoextra—largescaleintherealworld.Inthispaper,alleficientpara

5、lleldensity—basedclusteringalgorithmisproposedandimplementedbyusingMapReduce.Furthermore,weadoptaquickpartitioningstrate—gyfordatawhichhasbeenpreprocessedisadopted.Then,LocalDBSCANprocessforeachsubspacedividedbythepartitionpro—fileisimplementedtogenerateclusters.Atlast,theclusterswh

6、icharegeneratedinthepreviousphasearemerged.Keywords:DBSCAN;mapreduce;clusteringalgorithms;parallelalgorithms;dataminingDBSCAN[11于1996年被提出以后便被廣泛使用。DB.后,根據(jù)各個(gè)維的劃分點(diǎn),得到了數(shù)據(jù)劃分。接著,調(diào)整得到的SCAN基本時(shí)間復(fù)雜度是(n找出樣本點(diǎn)的Eps鄰域中的點(diǎn)所數(shù)據(jù)劃分作為局部DBSCAN算法的輸入,實(shí)施局部DBSCAN算需要的時(shí)間),其中n是樣本點(diǎn)的大小。低維數(shù)據(jù)空間下,利用法。最后,利用合并算法對上一階段的聚

7、類結(jié)果進(jìn)行合并。一些空間索引結(jié)構(gòu),如kd樹【2]、R樹[3】、R樹[4】等,時(shí)間復(fù)雜度1DBSCAN算法介紹可以降到.高維數(shù)據(jù)空間下,DBSCAN的時(shí)間復(fù)雜度為。1.1DBSCAN的簇PDBSCAN[5]首次采用dR~tree提出了一個(gè)有效的DBSCAN并行算法。然而,創(chuàng)建dRtree在海量數(shù)據(jù)情況下非常的困難,而DBSCAN聚類算法需要用戶自己確定兩個(gè)參數(shù)Eps和在數(shù)據(jù)是高緯度時(shí)則毫無效率。MR—DBSCAN[6]提出了基于MinPts。其中,Eps為用戶定義的半徑,MinPts為定義一個(gè)點(diǎn)為MapReduce[7]平臺(tái)下的DBSCAN并行算法。MR—DBS

8、CAN提出核心點(diǎn)時(shí)其鄰域內(nèi)要求的最少點(diǎn)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。