資源描述:
《數(shù)據(jù)流聚類算法及其應(yīng)用(可編輯)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)流聚類算法及其應(yīng)用南京郵電大學(xué)碩士學(xué)位論文數(shù)據(jù)流聚類算法及其應(yīng)用姓名:余志虎申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:程春玲2011-03南京郵電大學(xué)碩士研究生學(xué)位論文摘要摘要近年來,伴隨著網(wǎng)絡(luò)信息技術(shù)的高速發(fā)展,產(chǎn)生了一種新式的數(shù)據(jù)模型??數(shù)據(jù)流。它常常產(chǎn)生于web上的用戶點(diǎn)擊、網(wǎng)絡(luò)入侵檢測、實(shí)時(shí)監(jiān)控系統(tǒng)或無線傳感器網(wǎng)絡(luò)等動(dòng)態(tài)環(huán)境中。相比較傳統(tǒng)據(jù)集,這些海量的數(shù)據(jù)流具有快速性、連續(xù)性、變化性、無限性等特點(diǎn),使數(shù)據(jù)流的挖掘面臨著新的要求和挑戰(zhàn)。聚類分析作為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要課題,能夠使未標(biāo)記數(shù)據(jù)按照指定屬性分組為不同的類,在近期得到廣泛研究和高度重視。本文以數(shù)據(jù)流聚類算法為研
2、究內(nèi)容,異常數(shù)據(jù)點(diǎn)的檢測為研究目標(biāo),主要作了以下三個(gè)方面的工作:1總結(jié)了數(shù)據(jù)流模型及其聚類的相關(guān)概念和技術(shù),并描述了數(shù)據(jù)流聚類的特殊要求以及目前國內(nèi)外數(shù)據(jù)流聚類算法。同時(shí)說明了異常檢測的定義、現(xiàn)有方法以及當(dāng)前所面臨的挑戰(zhàn)。2在高速網(wǎng)絡(luò)中,數(shù)據(jù)流具有高速、突發(fā)等特性,使得高速網(wǎng)絡(luò)中的異常檢測成為一個(gè)難點(diǎn)。本文提出了一種基于SSClu樹的流聚類算法用于高速流的異常檢測。算法首先引入一種維持?jǐn)?shù)據(jù)流概要信息的SSClu樹;然后針對(duì)數(shù)據(jù)流的高速特性,采用預(yù)先聚集和緩存機(jī)制。預(yù)先聚集是在數(shù)據(jù)流對(duì)象插入SSClu樹聚類之前對(duì)其進(jìn)行預(yù)先聚類的過程,以處理突發(fā)高速數(shù)據(jù)流的到達(dá);緩存機(jī)制是用于當(dāng)高速流到達(dá)時(shí),
3、暫存當(dāng)前來不及處理的數(shù)據(jù)流對(duì)象,解決了高速流不能及時(shí)聚類的問題。仿真結(jié)果表明,本算法能及時(shí)處理高速數(shù)據(jù)流,且具有較高的聚類精度,保證了高速流下異常檢測的準(zhǔn)確性。3針對(duì)無線傳感器網(wǎng)絡(luò)中的離群點(diǎn)檢測問題,考慮到無線傳感器網(wǎng)絡(luò)WirelessSensorNetwork,WSN環(huán)境分布式以及能源消耗的限制,提出了一種基于相似性群集模型的流聚類算法StreamClusteralgorithmBasedonSimilarityFlockingmodel,SCBSF。算法采用一種模擬群體運(yùn)動(dòng)的群集模型將數(shù)據(jù)自我組織來形成聚類,這種自組織性更加適用于分布式環(huán)境批量數(shù)據(jù)點(diǎn)的聚類;同時(shí)通過群集規(guī)則來完成任意形
4、狀簇的聚類,而不需要采用傳統(tǒng)二階段聚類思想,減少了算法計(jì)算和存儲(chǔ)復(fù)雜度;考慮到WSN中算法的能耗問題,在采集節(jié)點(diǎn)端,利用初始聚類信息來臨時(shí)記錄所產(chǎn)生的相似數(shù)據(jù)特征,以此來減少數(shù)據(jù)傳輸從而達(dá)到降低通信能耗的效果。仿真結(jié)果表明,算法不僅具有較好的離群點(diǎn)檢測效果,同時(shí)也降低了聚類過程中數(shù)據(jù)計(jì)算和傳輸?shù)哪茉聪?。關(guān)鍵詞:數(shù)據(jù)流模型,聚類算法,異常檢測,高速流,無線傳感器網(wǎng)絡(luò)I南京郵電大學(xué)碩士研究生學(xué)位論文ABSTRACTABSTRACTRecently,withtherapiddevelopmentofinformationtechnology,anewdatamodelcalledthedata
5、streamappears.Itoftenarisesfromdynamicenvironmentsuchasuserclickingontheweb,networkintrusiondetection,real-timemonitoringsystemsorwirelesssensornetworks.Comparedtotraditionaldatasets,thesevastamountsofdatastreamshavefast,continuity,variety,infinityandothercharacteristics.Sodatastreamminingisfacing
6、newdemandsandchallenges.Clusteranalysisasadataminingtoolisanimportanttopic,becauseitmakesthedatawithoutmarkergroupintodifferentclassesinaccordancewiththespecifiedattributes,andhasbeenwidelystudiedandhighlyregardedinthenearfuture.Inthispaper,wedoresearchondatastreamclusteringalgorithmandanomalydete
7、ctionThemaintasksaredescribedasfollows:1Wemakeasummaryofthedataflowmodelandrelatedconceptsofcluster,anddescribethespecialrequirementsandarithmeticofcurrentdatastreamclustering;thedefinitionofanomalydetection,thee