數(shù)據(jù)流聚類算法及其應(yīng)用(可編輯)

數(shù)據(jù)流聚類算法及其應(yīng)用(可編輯)

ID:12094883

大?。?7.00 KB

頁數(shù):35頁

時(shí)間:2018-07-15

數(shù)據(jù)流聚類算法及其應(yīng)用(可編輯)_第1頁
數(shù)據(jù)流聚類算法及其應(yīng)用(可編輯)_第2頁
數(shù)據(jù)流聚類算法及其應(yīng)用(可編輯)_第3頁
數(shù)據(jù)流聚類算法及其應(yīng)用(可編輯)_第4頁
數(shù)據(jù)流聚類算法及其應(yīng)用(可編輯)_第5頁
資源描述:

《數(shù)據(jù)流聚類算法及其應(yīng)用(可編輯)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、數(shù)據(jù)流聚類算法及其應(yīng)用南京郵電大學(xué)碩士學(xué)位論文數(shù)據(jù)流聚類算法及其應(yīng)用姓名:余志虎申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:程春玲2011-03南京郵電大學(xué)碩士研究生學(xué)位論文摘要摘要近年來,伴隨著網(wǎng)絡(luò)信息技術(shù)的高速發(fā)展,產(chǎn)生了一種新式的數(shù)據(jù)模型??數(shù)據(jù)流。它常常產(chǎn)生于web上的用戶點(diǎn)擊、網(wǎng)絡(luò)入侵檢測、實(shí)時(shí)監(jiān)控系統(tǒng)或無線傳感器網(wǎng)絡(luò)等動(dòng)態(tài)環(huán)境中。相比較傳統(tǒng)據(jù)集,這些海量的數(shù)據(jù)流具有快速性、連續(xù)性、變化性、無限性等特點(diǎn),使數(shù)據(jù)流的挖掘面臨著新的要求和挑戰(zhàn)。聚類分析作為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要課題,能夠使未標(biāo)記數(shù)據(jù)按照指定屬性分組為不同的類,在近期得到廣泛研究和高度重視。本文以數(shù)據(jù)流聚類算法為研

2、究內(nèi)容,異常數(shù)據(jù)點(diǎn)的檢測為研究目標(biāo),主要作了以下三個(gè)方面的工作:1總結(jié)了數(shù)據(jù)流模型及其聚類的相關(guān)概念和技術(shù),并描述了數(shù)據(jù)流聚類的特殊要求以及目前國內(nèi)外數(shù)據(jù)流聚類算法。同時(shí)說明了異常檢測的定義、現(xiàn)有方法以及當(dāng)前所面臨的挑戰(zhàn)。2在高速網(wǎng)絡(luò)中,數(shù)據(jù)流具有高速、突發(fā)等特性,使得高速網(wǎng)絡(luò)中的異常檢測成為一個(gè)難點(diǎn)。本文提出了一種基于SSClu樹的流聚類算法用于高速流的異常檢測。算法首先引入一種維持?jǐn)?shù)據(jù)流概要信息的SSClu樹;然后針對(duì)數(shù)據(jù)流的高速特性,采用預(yù)先聚集和緩存機(jī)制。預(yù)先聚集是在數(shù)據(jù)流對(duì)象插入SSClu樹聚類之前對(duì)其進(jìn)行預(yù)先聚類的過程,以處理突發(fā)高速數(shù)據(jù)流的到達(dá);緩存機(jī)制是用于當(dāng)高速流到達(dá)時(shí),

3、暫存當(dāng)前來不及處理的數(shù)據(jù)流對(duì)象,解決了高速流不能及時(shí)聚類的問題。仿真結(jié)果表明,本算法能及時(shí)處理高速數(shù)據(jù)流,且具有較高的聚類精度,保證了高速流下異常檢測的準(zhǔn)確性。3針對(duì)無線傳感器網(wǎng)絡(luò)中的離群點(diǎn)檢測問題,考慮到無線傳感器網(wǎng)絡(luò)WirelessSensorNetwork,WSN環(huán)境分布式以及能源消耗的限制,提出了一種基于相似性群集模型的流聚類算法StreamClusteralgorithmBasedonSimilarityFlockingmodel,SCBSF。算法采用一種模擬群體運(yùn)動(dòng)的群集模型將數(shù)據(jù)自我組織來形成聚類,這種自組織性更加適用于分布式環(huán)境批量數(shù)據(jù)點(diǎn)的聚類;同時(shí)通過群集規(guī)則來完成任意形

4、狀簇的聚類,而不需要采用傳統(tǒng)二階段聚類思想,減少了算法計(jì)算和存儲(chǔ)復(fù)雜度;考慮到WSN中算法的能耗問題,在采集節(jié)點(diǎn)端,利用初始聚類信息來臨時(shí)記錄所產(chǎn)生的相似數(shù)據(jù)特征,以此來減少數(shù)據(jù)傳輸從而達(dá)到降低通信能耗的效果。仿真結(jié)果表明,算法不僅具有較好的離群點(diǎn)檢測效果,同時(shí)也降低了聚類過程中數(shù)據(jù)計(jì)算和傳輸?shù)哪茉聪?。關(guān)鍵詞:數(shù)據(jù)流模型,聚類算法,異常檢測,高速流,無線傳感器網(wǎng)絡(luò)I南京郵電大學(xué)碩士研究生學(xué)位論文ABSTRACTABSTRACTRecently,withtherapiddevelopmentofinformationtechnology,anewdatamodelcalledthedata

5、streamappears.Itoftenarisesfromdynamicenvironmentsuchasuserclickingontheweb,networkintrusiondetection,real-timemonitoringsystemsorwirelesssensornetworks.Comparedtotraditionaldatasets,thesevastamountsofdatastreamshavefast,continuity,variety,infinityandothercharacteristics.Sodatastreamminingisfacing

6、newdemandsandchallenges.Clusteranalysisasadataminingtoolisanimportanttopic,becauseitmakesthedatawithoutmarkergroupintodifferentclassesinaccordancewiththespecifiedattributes,andhasbeenwidelystudiedandhighlyregardedinthenearfuture.Inthispaper,wedoresearchondatastreamclusteringalgorithmandanomalydete

7、ctionThemaintasksaredescribedasfollows:1Wemakeasummaryofthedataflowmodelandrelatedconceptsofcluster,anddescribethespecialrequirementsandarithmeticofcurrentdatastreamclustering;thedefinitionofanomalydetection,thee

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。