資源描述:
《面向數據流模糊聚類算法的應用研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、..'o"’-I單位代碼:10293密級:公開.;一…:扭'碩女《健化戈,卻若I藝論文題目:面向數據流模糊聚類算法的應用研究1013041206學號姓名陳小東導師孫力娟教授學科專業(yè)計算機應用技乂硏究方向■數據挖掘工學碩±申請學位類別論文提交二零一六年王月日期.''巧斬\^.,;:iv心,'某h;知A一,'‘':-南京郵電大學學位論文原創(chuàng)性聲明本人聲明所呈交的學位論文是我個人在導師指導下進行的研巧工作及取得的研巧成果。盡我所知,li除了文中特別加U示注
2、和致謝的地方外,論文中不包含其他人已經發(fā)表或撰寫過的研巧成果,也不包含為獲得南京郵電大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均己在論文中作了明確的說明并表示了謝意。一,切相關的法律責任本人學位論文及涉及相關資料若有不實愿意承擔。水日期.研巧生簽名:貨:tU電南京郵電大學學位論文使用授權聲明本人授權南京郵電大學可レッ保留并向國家有關部口或機構送交論文的復印件和電子文搭;允許論文被查閱和借閱;可W將學位論文的全部或部分內容編入有關數據庫進行檢索;可1^^采用影印、縮印或掃描等復制手段保存、匯編本學位論文
3、。本文電子文檔的內容和紙質一論文的內容相致。論文的(包括登)授權南京郵電大學巧生院辦理。公布刊研適。論用涉密學位文在解密后本授權書研生簽;、如;:名故導簽名日期究師?ResearchonFuzzyClusteringAlgorithmforDataStreamThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByXiaodongChenSupervisor:Prof.LijuanSunMarch2016摘要作為數據挖掘技術
4、的研究前沿,數據流具有實時連續(xù)、高速到達以及動態(tài)變化等特點,在如無線傳感器網絡、金融分析市場、網絡入侵檢測等眾多領域都扮演著十分重要的角色。聚類分析作為數據挖掘技術的主要組成部分之一,旨在發(fā)現數據中隱藏的簇類知識信息,為用戶做出正確的決策提供理論指導。概念漂移檢測作為數據流研究中不可避免的問題之一,主要是期望發(fā)現數據流模型何時以及因何原因發(fā)生變化,從而達到預測數據流趨勢的目的。當前的聚類算法主要是在整個數據集上展開的,很難直接應用于數據流上,因此迫切需要設計出可以處理數據流的聚類及概念漂移檢測算法。本文針對數據流聚類算法的研究主要分為以下三點:首先通過分析國內外的相關文獻,對數
5、據流的研究現狀和不足之處進行了綜述;其次針對數據流上的聚類任務受到時間和空間限制的問題,本文提出了一種新的數據流模糊聚類算法WeightDecayStreamingMicroClustering(WDSMC)。該算法使用改進的帶權值的模糊C均值算法作為基準聚類算法,并采用微簇結構和權值衰減結構提高聚類質量。實驗表明,相比于SWFCM算法和StreamKM++算法,WDSMC算法具有更好的聚類精度;最后本文對數據流中可能會出現的概念漂移現象,提出了在大小可變的滑動窗口中通過度量相鄰窗口之間的聚類差異性來判斷是否發(fā)生了概念漂移并提供相應的解決方案。實驗表明算法能夠有效地檢測出數據流
6、中的概念漂移現象,具有很好的聚類效果和很高的時間效率。關鍵詞:數據流,模糊C均值聚類,權值衰減,概念漂移,可變滑動窗口IAbstractAsaresearchfrontofdatamining,withthecharacteristicsofcontinuetimelyarrivedatahighspeedanddynamicchanged,datastreamhasplayedanimportantroleinmanyfiled,suchaswirelesssenornetwork,financialanalysismarket,networkintrusiondetecti
7、onandsoon.Asamainlypartofdatamining,clusteringanalysiscandiscoveryclustermodelsindata,andhelpuserstomarkaccuratedecisions.Asoneofdatastreamresearches,conceptdriftdetectionisusefultofigureoutwhenandwhydatadistributemodelchanged,andhelptopredictthetr