資源描述:
《對聚類及聚類評價若干問題研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、南京航空航天大學(xué)博士學(xué)位論文對聚類及聚類評價若干問題的研究姓名:呂宗磊申請學(xué)位級別:博士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:王建東20090401摘要聚類是數(shù)據(jù)挖掘屮的-項重要任務(wù),在很多應(yīng)用中起看重要的作用。現(xiàn)在已經(jīng)冇很多成熟的聚類方法,每種方法的適用范圍不盡相同。對丁?同樣的數(shù)據(jù),不同聚類方法得到的結(jié)杲也不盡和同。為了在具體的應(yīng)用屮選擇最恰當(dāng)?shù)木垲惙椒?,人們從不同的角度提出了一些聚類評價方法。然而不同的評價方法對于同一結(jié)果的評價并不完全一致,每種評價方法都有自己的適用范圍。超出了方法本身的適用范圍將會導(dǎo)致方法的失效。如何保證聚類及聚類評價的有效性成為聚類應(yīng)用的一個關(guān)鍵問題。本文從聚類的基本
2、概念出發(fā)對聚類及聚類評價屮的相關(guān)問題進行了系統(tǒng)的研究,主要包括以下幾方血內(nèi)容:一、提出了聚類相似性的一般形式。根據(jù)聚類的概念,聚類是一個依據(jù)給定相似性對數(shù)據(jù)集合進行劃分的過程。相似性是聚類的關(guān)鍵所在。距離、密度等許多種模型都可以用來表示相似性,但是這些模型所刻畫的并不是相似性的本質(zhì)。為了準確反映聚類的本質(zhì),本文首先對■和似性的形式進行討論;而后,從相似性的宜觀含義出發(fā),只保留那些立觀的、明確的性質(zhì),得出相似性的一般形式。二、構(gòu)造了聚類假設(shè)空間。假設(shè)空間是機器學(xué)習(xí)的重要理論基礎(chǔ)。為了進一步研究聚類相關(guān)問題,本文在聚類相似性一般形式基礎(chǔ)上構(gòu)造了聚類的假設(shè)空間。并利用聚類假設(shè)空間分析了導(dǎo)致聚類
3、及聚類評價方法失效的主耍原因。三、建立了聚類的模態(tài)邏輯表示方法。聚類相似性、數(shù)據(jù)集合、簇指派是聚類的三個重要組成部分。木文在聚類相似性一般形式基礎(chǔ)上將聚類対應(yīng)于模態(tài)邏輯中Kripke語義結(jié)構(gòu),進而通過模態(tài)邏輯公式対聚類的結(jié)果進行表示,為深入分析聚類及聚類相關(guān)問題建立了理論基礎(chǔ)。四、ffimr具有通川性的聚類評價方法。本文采川模態(tài)邏輯公式對聚類結(jié)果中各個數(shù)據(jù)所反映的信息進行刻畫,根據(jù)數(shù)據(jù)反映的不同信息,本文提出了一種基于模態(tài)邏輯的聚類代農(nóng)點方法。在此基礎(chǔ)上,本文進一步提出了基于代表點的聚類評價方法,這種方法不受相似性計算方式的限制,具有較強的通用性。此外,代表點本身除了可對聚類結(jié)果進行定雖
4、的評判外,還可以給出有關(guān)聚類結(jié)來的定性分析。五、捉出了增雖聚類的風(fēng)險理論及評價方法。聚類可以看作是歸納學(xué)習(xí),而歸納有“失真”的風(fēng)險。本文捉出并證明了歸納應(yīng)該就近進行的原則。聚類的模態(tài)邏輯農(nóng)示方法不但有助丁?常規(guī)聚類的評價,還可以用于對增址聚類的評價。不同增址數(shù)據(jù)中所反映的不同邏輯公式衣明了該數(shù)據(jù)進行歸納的風(fēng)險。通過降低歸納風(fēng)險可以得到較好的增呈聚類結(jié)果;而通過計算增量聚類結(jié)果的歸納風(fēng)險則可以對增量聚類的結(jié)果進行評價。最后,本文通過具體的應(yīng)川實例進一步驗證了以上內(nèi)容。英中合并小樣本的應(yīng)用中分別驗證了聚類假設(shè)空間的可行性及在此基礎(chǔ)上構(gòu)造的聚類評價方法;航班延誤定級應(yīng)川驗證了基于代表點的聚類評
5、價方法的可行性,以及該方法所得到的定星與定性雙朿結(jié)來在實際工程中的應(yīng)用價值。關(guān)鍵字:機器學(xué)習(xí);聚類;假設(shè)空間;模態(tài)邏輯;代表點;增星聚類AbstractClusteringplaysanimportantroleinmanyengineeringapplications,suchasdataminingandsoon.Therearemanymaturemethodstodoclustering.Thescopeofapplicationofdifferentmethodsmaybenotsamewithothers.Forthesamedataset,differentclusteri
6、ngmethodsmaygetdifferentclusters.Tochoosethesuitableclusteringmethods,someclusteringvalidityindexeshavebeenpresented?However,differentindexesmayleaddifferentconclusions?Eachmethodhasitsownapplicationscope?Whentheapplicationexceedsthescope,themethodmaybeinvalid.Itisveryimportanttoensurethevalidity
7、ofbothclusteringandclusteringvalidityindexinapplications.Thispaperwilldiscusstherelatedproblemaboutclusteringandclusteringvalidityindexfromthebasicconceptsofclustering,includingthefollowingaspects.1.Thenormalformofthes