資源描述:
《gis系統(tǒng)中基于網(wǎng)格密度的空間聚類算法的.研究與應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、火連理T大學(xué)碩士學(xué)位論文引言近十幾年來,隨著人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千千萬萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,人們面臨著被數(shù)據(jù)淹沒卻饑餓于知識的挑戰(zhàn),其中以GIS為代表的空間數(shù)據(jù)系統(tǒng)以其數(shù)據(jù)量大、數(shù)據(jù)類型繁多、結(jié)構(gòu)復(fù)雜等特點在諸多信息系統(tǒng)中凸現(xiàn)出來,在此背景下空間數(shù)據(jù)挖掘技術(shù)應(yīng)運而生并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。空間數(shù)據(jù)挖掘(SpatialDataMining,SDM)[I]指的是從空間數(shù)據(jù)庫中抽取隱含的知識、空間關(guān)系或非顯式地存儲在
2、空間數(shù)據(jù)庫中的其它模式。它可以用來理解或重組空間數(shù)據(jù)、發(fā)現(xiàn)空間和非空間數(shù)據(jù)間的關(guān)系、構(gòu)建空間知識庫、優(yōu)化查詢等。空間聚類[2】是數(shù)據(jù)挖掘中一種重要的挖掘方法,它將數(shù)據(jù)對象集分組成為由類似的對象組成的簇,這樣在同一簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。作為一種非監(jiān)督學(xué)習(xí)方法,空間聚類不依賴于預(yù)先定義的類和帶類標號的訓(xùn)練實例。其中基于坐標的空間聚類[2】是空間聚類方法的基礎(chǔ),它可以發(fā)現(xiàn)空間中對象的密集區(qū)域,例如居住類型的空間區(qū)域分布、商業(yè)區(qū)域分布等。空間聚類方法通??梢苑譃樗拇箢?/p>
3、:劃分法、層次法、基于密度的方法和基于網(wǎng)格的方法。算法的選擇取決于應(yīng)用目的,例如商業(yè)區(qū)位分析要求距離總和最小,通常用K.均值法或K.中心點法;而對于區(qū)域分析和圖像識別,基于密度的算法更合適。此外,算法的速度、聚類質(zhì)量以及數(shù)據(jù)的特征,包括數(shù)據(jù)的維數(shù)、噪聲的數(shù)量等因素都影響到算法的選擇。但是由于目前的聚類算法多為普適方法,在針對性的處理較為復(fù)雜的某一類型實際問題時,如GIS中的空間聚類問題【3】,就存在著一些不足。在此背景下,本文將研究目前已有的各類主要聚類算法【4】,并著重研究基于網(wǎng)格密度的聚類方
4、法【5】及其在二維空間聚類上的應(yīng)用,以及地理空間對象分布的特點。以CLIQUE算法為代表的基于網(wǎng)格密度的方法是一類較新的聚類分析方法。它以其優(yōu)異的性能成為目前受到較多關(guān)注的聚類分析方法之一?;诰W(wǎng)格密度的聚類分析方法具有速度快、善于處理噪聲、善于處理高維數(shù)據(jù)等特點,這些特點使其成為一種較適用于GIS系統(tǒng)的聚類方法。但是在面對GIS系統(tǒng)中的聚類分析時,目前的基于網(wǎng)格密度的方法仍存在一些不足,其中包括了不能夠處理空間分布的層次性、不能夠處理空間障礙等問題。本文將嘗試通過對傳統(tǒng)方法的改進以及引入對空間
5、障礙的處理方法等手段來增強基于網(wǎng)格密度的聚類方法的功能,使其成為一種適用于GIS系統(tǒng)的空間聚類分析方法,并將其作為~種實用方法集成到GIS系統(tǒng)當中去。l數(shù)據(jù)挖掘中的聚類分析1.1聚類分析的概念將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程被稱為聚類㈣。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其它簇中的對象相異。在許多應(yīng)用中,可以將一個簇中的數(shù)據(jù)對象作為~個整體來對待。聚類分析是一種重要的人類行為,人們在生活中會通過不斷改進下意識中的聚類模式來分辨
6、不同類別的對象。聚類分析已經(jīng)廣泛地應(yīng)用在許多領(lǐng)域,包括摸式識別、數(shù)據(jù)分析、圖像處理以及市場研究等等。通過聚類,人能夠識另【膝集的和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)問的相互關(guān)系。聚類的典型應(yīng)用是多種多樣的。在商務(wù)上,聚類可以發(fā)現(xiàn)和刻畫不同的客戶群。在生物學(xué)上,可以對種群進行分類,發(fā)現(xiàn)其固有特征。在地球地理觀測數(shù)據(jù)中可以發(fā)現(xiàn)不同類型的密集區(qū)域。聚類還可以用于對Web上的文檔進行分類等等。作為數(shù)據(jù)挖掘的一部份,聚類分析能作為一個獨立的工具來獲得數(shù)據(jù)分布的情況,觀察每個簇的特點,還可以作為其
7、它算法(如特征和分類等)的預(yù)處理步驟。聚類是一個富有挑戰(zhàn)性的研究領(lǐng)域,它的潛在應(yīng)用提出了各種特殊要求。數(shù)據(jù)挖掘?qū)垲惖牡湫鸵笕缦隆?】:1.可伸縮性2.處理不同類型漏性的能力3.發(fā)現(xiàn)任意形狀的集簇4.輸入?yún)?shù)所需的領(lǐng)域知識最小化5.處理噪聲的能力6.對對象輸入順序不敏感7.高維性8.基于約束的聚類9.可解釋性和可用性。數(shù)據(jù)聚類正在蓬勃發(fā)展,有貢獻的研究領(lǐng)域包括數(shù)據(jù)挖掘、統(tǒng)計學(xué)、機器學(xué)習(xí)、空間數(shù)據(jù)庫技術(shù)、生物學(xué)以及市場營銷等等。由于各領(lǐng)域數(shù)據(jù)庫中已經(jīng)收集了大量的數(shù)據(jù),聚類分析已經(jīng)成為數(shù)據(jù)挖掘研究
8、領(lǐng)域中一個非?;钴S的研究課題。1.2數(shù)據(jù)挖掘中的聚類分析算法1.2.1劃分聚類算法劃分聚類也叫分割聚類,給定一個n個對象或元組的數(shù)據(jù)庫,一個分割方法構(gòu)建數(shù)據(jù)的K個劃分,每個劃分表示一個聚類。并且K