開源數(shù)據(jù)流聚類框架MOA

開源數(shù)據(jù)流聚類框架MOA

ID:38588862

大?。?42.50 KB

頁數(shù):4頁

時(shí)間:2019-06-15

開源數(shù)據(jù)流聚類框架MOA_第1頁
開源數(shù)據(jù)流聚類框架MOA_第2頁
開源數(shù)據(jù)流聚類框架MOA_第3頁
開源數(shù)據(jù)流聚類框架MOA_第4頁
資源描述:

《開源數(shù)據(jù)流聚類框架MOA》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、MOA:大規(guī)模在線分析,一個(gè)數(shù)據(jù)流分類和聚類框架摘要:MOA是一種從演化數(shù)據(jù)流在線學(xué)習(xí)的算法實(shí)現(xiàn)平臺(tái)和環(huán)境。通過相關(guān)設(shè)置,可以比較不同針對(duì)真實(shí)數(shù)據(jù)集的算法。它包含一系列用來分類和聚類的離線和在線的算法以及一些評(píng)估工具。理論學(xué)者和實(shí)踐者都可以從中獲益。此外,它還可以進(jìn)行擴(kuò)展。一介紹如今數(shù)據(jù)以高速?gòu)母魇礁鳂拥臄?shù)據(jù)源誕生。實(shí)際上所有的數(shù)據(jù)可以被看做數(shù)據(jù)流。由于數(shù)據(jù)流高速到達(dá),因此針對(duì)其的算法在空間和時(shí)間方面有所限制。為了突破這種限制,跟傳統(tǒng)的批處理方法比較,算法必需要滿足一些需求,它們是:1、只能一次觀察一個(gè)實(shí)

2、例;2、使用有限的內(nèi)存容量;3、在有限時(shí)間內(nèi)計(jì)算;4、時(shí)刻準(zhǔn)備預(yù)測(cè)。數(shù)據(jù)流學(xué)習(xí)算法是一種很重要的流處理算法:在反復(fù)循環(huán)中,學(xué)習(xí)模型不斷地更新以便反映從數(shù)據(jù)流中獲取的實(shí)例。它們不能超過它們的內(nèi)存空間和時(shí)間邊界。處理到達(dá)的實(shí)例后,算法總是能夠輸出一個(gè)模型。在數(shù)據(jù)流領(lǐng)域,典型的學(xué)習(xí)任務(wù)是:分類、邊界分析和聚類。由于存在許多流學(xué)習(xí)算法,通過實(shí)驗(yàn)進(jìn)行完整地比較是至關(guān)重要的。大部分文獻(xiàn)中,新出的算法在評(píng)估方面做得都不夠到位,它們大都只在小數(shù)據(jù)流集上做實(shí)驗(yàn),這與實(shí)際情況往往不符,也不能使人信服。在傳統(tǒng)批處理方法中,引入

3、評(píng)估框架是為了處理比較這個(gè)問題,WEKA就是一個(gè)框架類型。而數(shù)據(jù)流學(xué)習(xí)相對(duì)是一個(gè)比較新的領(lǐng)域,關(guān)于其的評(píng)估實(shí)踐較少被研究。為了這個(gè)目的,我們引入了一個(gè)叫做MOA的框架用來評(píng)估數(shù)據(jù)流學(xué)習(xí)算法。MOA是建立在WEKA的基礎(chǔ)上的。MOA可以用來評(píng)估數(shù)據(jù)流分類和聚類,并允許挖掘大數(shù)據(jù)流。MOA框架的主要貢獻(xiàn)有:1、分析和比較不同的算法和不同的數(shù)量流設(shè)置;2、可以創(chuàng)建和使用基準(zhǔn)設(shè)置,用來反復(fù)比較數(shù)據(jù)流挖掘算法;3、它是開源的框架,容易在數(shù)據(jù)流種子、算法和評(píng)估方法方面得到擴(kuò)充。下面是論文的組織結(jié)構(gòu):首先介紹MOA的通

4、用框架,以及如何用它對(duì)演化數(shù)據(jù)流進(jìn)行分類和聚類。第五部分指出其他包括源代碼和教程在內(nèi)的資料所在。第六部分總結(jié)論文。二、系統(tǒng)體系結(jié)構(gòu)首先選擇數(shù)據(jù)種子,然后配置一種學(xué)習(xí)算法(比如分類算法或者聚類算法),最后選擇一種評(píng)估方法用來分析希望的情景。分類和聚類在算法尤其是評(píng)估方法方面有好多不同之處,因此在下面分別加以闡述。針對(duì)分類和聚類任務(wù),用戶可以在這三個(gè)方面進(jìn)行擴(kuò)展,可以增加著名的數(shù)據(jù)產(chǎn)生器、算法和評(píng)估方法。MOA用戶可以通過命令行或者圖形接口進(jìn)行實(shí)驗(yàn)。通常,MOA運(yùn)行定義三種仿真環(huán)境,由于從數(shù)據(jù)流學(xué)習(xí),內(nèi)存往往

5、不能被忽略。三種環(huán)境分別是:1、傳感器網(wǎng)絡(luò)這種環(huán)境代表內(nèi)存最受限制的情況,內(nèi)存通常只有100K。由于內(nèi)存被限制得很小,在效率方面往往會(huì)出現(xiàn)有意思的測(cè)試情況。2、手持電腦這種情況算法擁有32M大小空間。這用來仿真一些消費(fèi)電子設(shè)備的容量。3、服務(wù)器這種環(huán)境仿真用來現(xiàn)代的手持/桌面電腦或者服務(wù)器來處理數(shù)據(jù)流。這里內(nèi)存分配給算法400M大小空間。三、分類四、聚類MOA的數(shù)據(jù)流聚類模塊有以下特性:包含針對(duì)演化數(shù)據(jù)流的流聚類的數(shù)據(jù)產(chǎn)生器;一系列最先進(jìn)的數(shù)據(jù)流聚類算法;針對(duì)數(shù)據(jù)流聚類算法的評(píng)估措施;用來分析結(jié)果和比較不

6、同設(shè)置下的流聚類算法的可視化工具。剩下的部分分別介紹流聚類組件。首先選擇和配置一個(gè)數(shù)據(jù)種子,其次選擇一種流聚類算法(其設(shè)置被固定),再次選擇一系列評(píng)估措施,最后就是運(yùn)行實(shí)驗(yàn)來獲取分析結(jié)果。詳細(xì)敘述如下:4.1數(shù)據(jù)種子和數(shù)據(jù)產(chǎn)生器針對(duì)流聚類算法,我們?cè)黾恿艘恍┲С种T如簇的出現(xiàn)和消失的簇演化事件的仿真。通常,可以設(shè)置數(shù)據(jù)集維度、大小、簇大小、漂移速度、衰減幅度以及噪聲速率等。事件包含在數(shù)據(jù)模型下的一些變動(dòng),比如簇的增長(zhǎng),簇的誕生或者創(chuàng)建新簇。使用事件頻率和個(gè)體事件權(quán)重,可以學(xué)習(xí)不同聚類方法在各種設(shè)置下的行為和

7、性能。最后針對(duì)數(shù)據(jù)產(chǎn)生器的設(shè)置可以被保存和加載,這樣可以有機(jī)會(huì)提供一個(gè)數(shù)據(jù)流數(shù)據(jù)集基準(zhǔn)用來重復(fù)比較。通過實(shí)現(xiàn)ClusteringStream接口可以增加新的數(shù)據(jù)種子和產(chǎn)生器。4.2數(shù)據(jù)流聚類算法現(xiàn)在的MOA包含以下數(shù)據(jù)流聚類算法StreamKM++ClusStreamClusTreeDen-StreamD-StreamCobWeb可以通過實(shí)現(xiàn)接口Clusterer.java接口的的類來擴(kuò)展算法集。這個(gè)接口的主要方法有:voidresetLearningImpl():初始化聚類學(xué)習(xí)器VoidtrainOnI

8、nstanceImpl(Instance):用來一個(gè)訓(xùn)練新實(shí)例的方法ClusteringgetClusteringResult():一個(gè)種用來獲得現(xiàn)在聚類結(jié)果(用來評(píng)估或者可視化)的方法。下面是一些評(píng)估測(cè)量(包括內(nèi)部測(cè)量和外部測(cè)量):4.3數(shù)據(jù)流聚類評(píng)估措施過去幾十年,針對(duì)簇評(píng)估已經(jīng)有許多人開發(fā)和提出了許多方法。針對(duì)這些測(cè)量,一種通用的分類方法就是所謂的內(nèi)部測(cè)量和外部測(cè)量。內(nèi)部測(cè)量只考慮簇的屬性,比如簇內(nèi)點(diǎn)與點(diǎn)之間的距離或者兩

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。