資源描述:
《基于密度的海量數(shù)據(jù)增量式挖掘技術(shù)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、國(guó)防科學(xué)技術(shù)人’掌研究生院學(xué)似淪文摘要增量式挖掘,就是對(duì)于大數(shù)據(jù)集(數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)等),當(dāng)數(shù)據(jù)遞增的時(shí)候,增量地更新數(shù)據(jù)挖掘結(jié)果,而不是對(duì)每次更新后的整個(gè)數(shù)據(jù)集進(jìn)行挖掘。對(duì)r許多種類(lèi)的大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)挖掘,增量數(shù)掘挖掘是一個(gè)誘人的目標(biāo)。t水文主要研究了媾]i孤立點(diǎn)閃于的增量式挖掘技術(shù)。首先講述了數(shù)據(jù)挖掘的基本概念和方法,介紹了數(shù)據(jù)挖掘蜘f究的·般對(duì)象和典型心用:研究了聚類(lèi)挖掘技術(shù),晚明了評(píng)價(jià)聚類(lèi)的一般準(zhǔn)則,簡(jiǎn)單介紹了現(xiàn)有的典型的增量挖掘力-法,為進(jìn)一步研究和學(xué)習(xí)積累了經(jīng)驗(yàn),明確了需求。在現(xiàn)有的大多數(shù)聚類(lèi)挖掘方法中,參數(shù)的影響較大,而兒常常需要用戶指定參數(shù),參數(shù)的決定成為實(shí)
2、際應(yīng)用的一個(gè)難點(diǎn)。本文在研究基于密度的聚類(lèi)算法的基礎(chǔ)L,提出了基于孤立點(diǎn)因子的聚類(lèi)算法,有效地解決了這個(gè)問(wèn)題:并在此基礎(chǔ)卜,提出了增量式算法,用于增量的更新聚類(lèi)結(jié)果。文中同時(shí)給出了孤立點(diǎn)因子聚類(lèi)療法的有關(guān)概念,以及相應(yīng)的算法描述,詳細(xì)說(shuō)明了算法思想和聚類(lèi)過(guò)程。最后,實(shí)驗(yàn)分析了基于孤立點(diǎn)因子的聚類(lèi)算法的有效性,并與有關(guān)算法作了性能對(duì)比,實(shí)驗(yàn)說(shuō)明了基于孤立點(diǎn)因子的聚類(lèi)算法對(duì)于參數(shù)的健壯性;實(shí)驗(yàn)也簡(jiǎn)要分析了增量式算法的有效性和效率。關(guān)鍵詞:數(shù)據(jù)挖掘聚類(lèi)分析孤立點(diǎn)因子增量更新國(guó)防科學(xué)技術(shù)大學(xué)研究生院學(xué)位論文舢孓sTRACTIncrementaldataminingisupdatingt
3、heresultofdataminingincremental1y,whendataincreaseinthelargedataset(suchasdatabaseordatahouse),itisnotupdatingthetotaldataset.Formanykindoflargedatabasesordatahouse,incrementaldataminingisatemptablegoal.Westudytheincrementaldataminingtechnologybasedoutlierfactor.Wefirstdescribethebasicconcep
4、tsandbasicmethodandintroducethecommonlYobjectsandrepresentativeapplications:andwestudyclusteringdataminingtechnologyanddescribethecommonlyrules,andweintroducetheincrementaldatamjningmethod:soweaccumulateexperienceforfartherstudyanddefinituderequirement.Theinfluenceofthealgorithmparametersisv
5、erynotabilityandtheparametersneedtheappointofusersinmassclusteringdataminingalgorithm,sodeterminingparametersisverydifficulty.WebringforwardclusteringalgorithmbasedOUtlierfactot,andresolvetheproblemefficiency,andwegainedtheincrementalalgorithmonthebase.Wedescribetheconceptsofclusteringalgori
6、thmbasedoutiierfactor,andexplaintheideaofthealgorithmandtheclusterjngprocess.Intheend,weanalysisthevalidityofthealgorithm,andwecontrastthealgorithmwiththeether:wearialysisandvalidatethattheparametershave1ittlerjnfluencetoclusteringdataminingalgorithmbasedoutlierfactor:andwealsoanalysisandval
7、idatetheincrementalclusteringdataminingalgoritbm.KeyWords:datamining.cIustering,outIierfactor.incrementaIupdating~~———————萬(wàn)而r——————————~一獨(dú)創(chuàng)性聲明S13712本人聲明所呈交的學(xué)位論文是我本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果.盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表和撰寫(xiě)過(guò)的研究成果,也不包含為獲得國(guó)防科學(xué)技術(shù)大學(xué)或