基于網(wǎng)格密度和空間劃分樹的聚類算法研究

基于網(wǎng)格密度和空間劃分樹的聚類算法研究

ID:33406724

大?。?.64 MB

頁數(shù):94頁

時間:2019-02-25

基于網(wǎng)格密度和空間劃分樹的聚類算法研究_第1頁
基于網(wǎng)格密度和空間劃分樹的聚類算法研究_第2頁
基于網(wǎng)格密度和空間劃分樹的聚類算法研究_第3頁
基于網(wǎng)格密度和空間劃分樹的聚類算法研究_第4頁
基于網(wǎng)格密度和空間劃分樹的聚類算法研究_第5頁
資源描述:

《基于網(wǎng)格密度和空間劃分樹的聚類算法研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、廈門大學(xué)碩士學(xué)位論文基于網(wǎng)格密度和空間劃分樹的聚類算法研究姓名:曾東海申請學(xué)位級別:碩士專業(yè):模式識別與智能系統(tǒng)指導(dǎo)教師:米紅20060401摘要在數(shù)據(jù)挖掘領(lǐng)域中,聚類分析是一項(xiàng)重要的研究課題。它既可以作為一個單獨(dú)的工具用以發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)分布的深層信息,也可以作為其他數(shù)據(jù)挖掘分析算法的一個預(yù)處理步驟,因此研究如何提高聚類算法的性能具有重要的意義。本文在分析現(xiàn)有聚類算法特別是基于密度的聚類算法優(yōu)缺點(diǎn)的基礎(chǔ)上,結(jié)合空間索引技術(shù),提出了一種新的基于格網(wǎng)密度和空間劃分樹的聚類算法(CGDSPT);在聚類實(shí)驗(yàn)系統(tǒng)上,通過對多個樣本數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果的分析和算法的實(shí)際應(yīng)用,驗(yàn)證了CGDSPT算法的有

2、效性。本文的主要T作包括:1、將現(xiàn)有聚類方法按照五大類進(jìn)行了系統(tǒng)的評述,并對基于密度的幾種經(jīng)典算法做了詳細(xì)的介紹。2、通過對空間索引結(jié)構(gòu)的綜述,結(jié)合空問劃分的特性,提出了一種基于空間劃分的索引結(jié)構(gòu)SP—Tree。SP—Tree有效地保存了數(shù)據(jù)的空間位置信息,為空間區(qū)域的鄰域查詢提供了極大的方便;同時它只索引非空單元格,不僅節(jié)省了存儲空間還降低了算法的時間復(fù)雜性。3、結(jié)合基于格網(wǎng)密度聚類算法的特性和空間索引的優(yōu)點(diǎn),文章提出一種基于格網(wǎng)密度和空間劃分樹的聚類算法。算法充分借助了網(wǎng)格和空間索引的優(yōu)勢,使算法的時間復(fù)雜度與數(shù)據(jù)規(guī)模近似呈現(xiàn)線性關(guān)系。同時該算法具有能發(fā)現(xiàn)任意形狀的簇、對噪聲數(shù)據(jù)和數(shù)

3、據(jù)輸入順序不敏感等優(yōu)良特性。4、針對算法的參數(shù)設(shè)置問題,本文提出了一種根據(jù)樣本數(shù)據(jù)的統(tǒng)計(jì)特性自行調(diào)整參數(shù)的方法,能有效地降低參數(shù)設(shè)置的難度,獲得了較好的聚類效果。5、針對聚類有效性評價問題,本文提出了一種基于簇密度的適合任意形狀簇的聚類有效性指數(shù),實(shí)驗(yàn)表明其能有效地指導(dǎo)用戶調(diào)整參數(shù)以獲得滿意結(jié)果。6、建立了一個聚類實(shí)驗(yàn)系統(tǒng)。在此系統(tǒng)上,利用多個樣本集對本文提出的聚類算法進(jìn)行詳細(xì)的性能分析;將算法應(yīng)用到中國分區(qū)域人口多維綜合死亡模式的聚類中,并對聚類結(jié)果的區(qū)域性等特征進(jìn)行了詳盡分析。關(guān)鍵詞:聚類;網(wǎng)格密度;空間劃分樹AbstractClusteringanalysisisanimporta

4、ntresearchprobleminthedomainofdatamining.Itcanbeusednotonlyasaseparatetechniquetodiscovertheinformationaboutdatadistribution,butalsoasthepreprocessingofotherdataminingoperations,thereforeitisverymeaningfultoresearchhowtoboosttheperformanceofclusteringalgorithms.Thisthesismainlystudiesanewclusteri

5、ngalgorithmbasedonthegrid-densityandthespatialpartitiontree(CGDSPDthroughanalyzingmanypresentedrepresentativeclusteringalgorithmsespeciallythedensity-basedclusteringalgorithm.Wedesignandrealizeaclusteringexperimentalsystem(MODE—CES)withthec撐developmentt001.ItisprovedthattheCGDSPTisefficientbyanal

6、yzingexperimentsofmanydatasets.Theprimaryresearchincludeasfollows:1.Thepresentedclusteringalgorithmsaredividedtofiveclassesanddiscussedsystemically.Andsomedensity-basedclusteringalgorithmsaredescribedindetail.2.Thespatialindexesaredescribedandanovelspatialindexstructure(SP—Tree)ispresentedbasedon

7、thespatialpartition.TheSP—Treecankeepthespatiallocationofthedataefficientlythatmakestheregionneighborhoodsearchbecomefacilitative.Meanwhileitonlyindexesthenon-emptycellsinthepartitionedspacethatsavesthememoryandboostst

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。