資源描述:
《基于網(wǎng)格方法的數(shù)據(jù)流聚類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于網(wǎng)格方法的數(shù)據(jù)流聚類算法研究學(xué)位論文獨創(chuàng)性說明本人鄭重聲明:所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及其取得研究成果。盡我所知,除了文中加以標注和致謝的地方外,論文中不包含其他人或集體已經(jīng)公開發(fā)表或撰寫過的研究成果,也不包含為獲得西安科技大學(xué)或其他教育機構(gòu)的學(xué)位或證書所使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中做了明確的說明并表示了謝意。學(xué)位論文作者簽名:日期:學(xué)位論文知識產(chǎn)權(quán)聲明書本人完全了解學(xué)校有關(guān)保護知識產(chǎn)權(quán)的規(guī)定,即:研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬于西安科技大學(xué)。學(xué)校有權(quán)保留并
2、向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和電子版。本人允許論文被查閱和借閱。學(xué)??梢詫⒈緦W(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。同時本人保證,畢業(yè)后結(jié)合學(xué)位論文研究課題再撰寫的文章一律注明作者單位為西安科技大學(xué)。保密論文待解密后適用本聲明。學(xué)位論文作者簽名:指導(dǎo)教師簽名:年月日論文題目:基于網(wǎng)格方法的數(shù)據(jù)流聚類算法研究專業(yè):計算機應(yīng)用技術(shù)碩士生:王海東簽名指導(dǎo)教師:楊君銳簽名摘要數(shù)據(jù)流聚類是從大量的、有噪聲的、模糊的、隨機的流數(shù)據(jù)中發(fā)現(xiàn)不相連的、具有相似屬性的簇,并使簇中數(shù)據(jù)的相
3、似性盡可能高,不同簇中的數(shù)據(jù)的相似性盡可能低,它是數(shù)據(jù)挖掘領(lǐng)域的一個重要研究方向。在現(xiàn)有的數(shù)據(jù)流聚類算法中,基于網(wǎng)格方法的聚類算法具有較高的數(shù)據(jù)壓縮比和較低的時間復(fù)雜度的特點,這使其在數(shù)據(jù)流聚類中有著較好的表現(xiàn)。但與此同時,網(wǎng)格方法也有其不足,主要是容易丟失簇邊緣網(wǎng)格中的數(shù)據(jù)點,而這將導(dǎo)致網(wǎng)格聚類的正確率降低。另外,針對高維數(shù)據(jù)空間如何進行有效的聚類也是一個值得關(guān)注的問題,在高維數(shù)據(jù)空間中,數(shù)據(jù)點之間的距離趨近于相等,這給以數(shù)據(jù)點之間的距離作為數(shù)據(jù)相似性評價標準的聚類算法帶來了挑戰(zhàn)。為此,本文的主要研究內(nèi)容和成果如下。首先,針對網(wǎng)格數(shù)據(jù)流
4、聚類中簇邊緣網(wǎng)格數(shù)據(jù)點丟失的問題,提出了基于可變密度閾值的網(wǎng)格數(shù)據(jù)流聚類算法VDTS。在傳統(tǒng)的網(wǎng)格數(shù)據(jù)流聚類算法中,使用均勻劃分網(wǎng)格并采用固定的密度閾值,而在VDTS算法中,采用不均勻劃分的網(wǎng)格和可變的密度閾值,從而使簇中心部分的網(wǎng)格容易合并,形成較大的網(wǎng)格,簇邊緣部分的網(wǎng)格不容易合并,保持較小的網(wǎng)格。VDTS算法既保留了網(wǎng)格數(shù)據(jù)流聚類算法的高數(shù)據(jù)壓縮比又解決了簇邊緣網(wǎng)格數(shù)據(jù)點丟失的問題。其次,針對高維數(shù)據(jù)流聚類困難的問題,提出了高維數(shù)據(jù)流網(wǎng)格聚類算法HVDTS。在高維數(shù)據(jù)流的聚類中,通常的方法是對高維空間進行降維,其中一個關(guān)鍵的問題是如
5、何降維,即如何選擇那些對聚類影響較大的維并刪除那些對聚類的結(jié)果影響較小的維。本文提出了一種維選擇算法,通過比較數(shù)據(jù)點在每一維上的投影的平方誤差和來判斷該維對聚類結(jié)果影響的大小。經(jīng)過維選擇算法處理后,數(shù)據(jù)空間的維數(shù)降低到一個可以接受的范圍,然后對降維后的數(shù)據(jù)集進行聚類,最終獲得聚類結(jié)果。關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)流;聚類;密度;高維研究類型:理論研究Subject:TheResearchontheAlgorithmsofGrid-basedDataStreamClusteringSpecialty:ComputerApplicationTech
6、nologyName:WanghaidongSignatureInstructor:YangJunruiSignatureABSTRACTDatastreamclusteringisaveryimportantproblemindatamining.Thepurposeofdatastreamclusteringisfindingclustersinalarge,noisy,fuzzyandrandomdatastreamandmakessurethatthesimilarityofthedatainthesameclusterisash
7、ighaspossibleandinthedifferentclustersisaslowaspossible.Thegrid-baseddatastreamclusteringofthepresentclusteringmethodshasagoodperformanceinallclusteringalgorithmsbecauseofitshighdatacompressionratioandlowtimecomplexity.Butthegrid-baseddatastreamclusteringhasitsownflawthat
8、itiseasytolosedatapointsontheedgegrids.Thisshortcomingreducesthecorrectnessofgridclustering.Clus