資源描述:
《基于網(wǎng)格密度和空間劃分樹的聚類算法研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、廈門大學(xué)碩士學(xué)位論文基于網(wǎng)格密度和空間劃分樹的聚類算法研究姓名:曾東海申請學(xué)位級別:碩士專業(yè):模式識別與智能系統(tǒng)指導(dǎo)教師:米紅20060401摘要在數(shù)據(jù)挖掘領(lǐng)域中,聚類分析是一項(xiàng)重要的研究課題。它既可以作為一個單獨(dú)的工具用以發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)分布的深層信息,也可以作為其他數(shù)據(jù)挖掘分析算法的一個預(yù)處理步驟,因此研究如何提高聚類算法的性能具有重要的意義。本文在分析現(xiàn)有聚類算法特別是基于密度的聚類算法優(yōu)缺點(diǎn)的基礎(chǔ)上,結(jié)合空間索引技術(shù),提出了一種新的基于格網(wǎng)密度和空間劃分樹的聚類算法(CGDSPT);在聚類實(shí)驗(yàn)系統(tǒng)上,通過對多個樣本數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果的分析和算法的實(shí)際應(yīng)用,驗(yàn)證了CGDSPT算法的有
2、效性。本文的主要T作包括:1、將現(xiàn)有聚類方法按照五大類進(jìn)行了系統(tǒng)的評述,并對基于密度的幾種經(jīng)典算法做了詳細(xì)的介紹。2、通過對空間索引結(jié)構(gòu)的綜述,結(jié)合空問劃分的特性,提出了一種基于空間劃分的索引結(jié)構(gòu)SP—Tree。SP—Tree有效地保存了數(shù)據(jù)的空間位置信息,為空間區(qū)域的鄰域查詢提供了極大的方便;同時它只索引非空單元格,不僅節(jié)省了存儲空間還降低了算法的時間復(fù)雜性。3、結(jié)合基于格網(wǎng)密度聚類算法的特性和空間索引的優(yōu)點(diǎn),文章提出一種基于格網(wǎng)密度和空間劃分樹的聚類算法。算法充分借助了網(wǎng)格和空間索引的優(yōu)勢,使算法的時間復(fù)雜度與數(shù)據(jù)規(guī)模近似呈現(xiàn)線性關(guān)系。同時該算法具有能發(fā)現(xiàn)任意形狀的簇、對噪聲數(shù)據(jù)和數(shù)
3、據(jù)輸入順序不敏感等優(yōu)良特性。4、針對算法的參數(shù)設(shè)置問題,本文提出了一種根據(jù)樣本數(shù)據(jù)的統(tǒng)計(jì)特性自行調(diào)整參數(shù)的方法,能有效地降低參數(shù)設(shè)置的難度,獲得了較好的聚類效果。5、針對聚類有效性評價問題,本文提出了一種基于簇密度的適合任意形狀簇的聚類有效性指數(shù),實(shí)驗(yàn)表明其能有效地指導(dǎo)用戶調(diào)整參數(shù)以獲得滿意結(jié)果。6、建立了一個聚類實(shí)驗(yàn)系統(tǒng)。在此系統(tǒng)上,利用多個樣本集對本文提出的聚類算法進(jìn)行詳細(xì)的性能分析;將算法應(yīng)用到中國分區(qū)域人口多維綜合死亡模式的聚類中,并對聚類結(jié)果的區(qū)域性等特征進(jìn)行了詳盡分析。關(guān)鍵詞:聚類;網(wǎng)格密度;空間劃分樹AbstractClusteringanalysisisanimporta
4、ntresearchprobleminthedomainofdatamining.Itcanbeusednotonlyasaseparatetechniquetodiscovertheinformationaboutdatadistribution,butalsoasthepreprocessingofotherdataminingoperations,thereforeitisverymeaningfultoresearchhowtoboosttheperformanceofclusteringalgorithms.Thisthesismainlystudiesanewclusteri
5、ngalgorithmbasedonthegrid-densityandthespatialpartitiontree(CGDSPDthroughanalyzingmanypresentedrepresentativeclusteringalgorithmsespeciallythedensity-basedclusteringalgorithm.Wedesignandrealizeaclusteringexperimentalsystem(MODE—CES)withthec撐developmentt001.ItisprovedthattheCGDSPTisefficientbyanal
6、yzingexperimentsofmanydatasets.Theprimaryresearchincludeasfollows:1.Thepresentedclusteringalgorithmsaredividedtofiveclassesanddiscussedsystemically.Andsomedensity-basedclusteringalgorithmsaredescribedindetail.2.Thespatialindexesaredescribedandanovelspatialindexstructure(SP—Tree)ispresentedbasedon
7、thespatialpartition.TheSP—Treecankeepthespatiallocationofthedataefficientlythatmakestheregionneighborhoodsearchbecomefacilitative.Meanwhileitonlyindexesthenon-emptycellsinthepartitionedspacethatsavesthememoryandboostst