資源描述:
《對聚類及聚類評價若干問題研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、南京航空航天大學博士學位論文對聚類及聚類評價若干問題的研究姓名:呂宗磊申請學位級別:博士專業(yè):計算機應用技術(shù)指導教師:王建東20090401摘要聚類是數(shù)據(jù)挖掘屮的-項重要任務(wù),在很多應用中起看重要的作用。現(xiàn)在已經(jīng)冇很多成熟的聚類方法,每種方法的適用范圍不盡相同。對丁?同樣的數(shù)據(jù),不同聚類方法得到的結(jié)杲也不盡和同。為了在具體的應用屮選擇最恰當?shù)木垲惙椒?,人們從不同的角度提出了一些聚類評價方法。然而不同的評價方法對于同一結(jié)果的評價并不完全一致,每種評價方法都有自己的適用范圍。超出了方法本身的適用范圍將會導致方法的失效。如何保證聚類及聚類評價的有效性成為聚類應用的一個關(guān)鍵問題。本文從聚類的基本
2、概念出發(fā)對聚類及聚類評價屮的相關(guān)問題進行了系統(tǒng)的研究,主要包括以下幾方血內(nèi)容:一、提出了聚類相似性的一般形式。根據(jù)聚類的概念,聚類是一個依據(jù)給定相似性對數(shù)據(jù)集合進行劃分的過程。相似性是聚類的關(guān)鍵所在。距離、密度等許多種模型都可以用來表示相似性,但是這些模型所刻畫的并不是相似性的本質(zhì)。為了準確反映聚類的本質(zhì),本文首先對■和似性的形式進行討論;而后,從相似性的宜觀含義出發(fā),只保留那些立觀的、明確的性質(zhì),得出相似性的一般形式。二、構(gòu)造了聚類假設(shè)空間。假設(shè)空間是機器學習的重要理論基礎(chǔ)。為了進一步研究聚類相關(guān)問題,本文在聚類相似性一般形式基礎(chǔ)上構(gòu)造了聚類的假設(shè)空間。并利用聚類假設(shè)空間分析了導致聚類
3、及聚類評價方法失效的主耍原因。三、建立了聚類的模態(tài)邏輯表示方法。聚類相似性、數(shù)據(jù)集合、簇指派是聚類的三個重要組成部分。木文在聚類相似性一般形式基礎(chǔ)上將聚類対應于模態(tài)邏輯中Kripke語義結(jié)構(gòu),進而通過模態(tài)邏輯公式対聚類的結(jié)果進行表示,為深入分析聚類及聚類相關(guān)問題建立了理論基礎(chǔ)。四、ffimr具有通川性的聚類評價方法。本文采川模態(tài)邏輯公式對聚類結(jié)果中各個數(shù)據(jù)所反映的信息進行刻畫,根據(jù)數(shù)據(jù)反映的不同信息,本文提出了一種基于模態(tài)邏輯的聚類代農(nóng)點方法。在此基礎(chǔ)上,本文進一步提出了基于代表點的聚類評價方法,這種方法不受相似性計算方式的限制,具有較強的通用性。此外,代表點本身除了可對聚類結(jié)果進行定雖
4、的評判外,還可以給出有關(guān)聚類結(jié)來的定性分析。五、捉出了增雖聚類的風險理論及評價方法。聚類可以看作是歸納學習,而歸納有“失真”的風險。本文捉出并證明了歸納應該就近進行的原則。聚類的模態(tài)邏輯農(nóng)示方法不但有助丁?常規(guī)聚類的評價,還可以用于對增址聚類的評價。不同增址數(shù)據(jù)中所反映的不同邏輯公式衣明了該數(shù)據(jù)進行歸納的風險。通過降低歸納風險可以得到較好的增呈聚類結(jié)果;而通過計算增量聚類結(jié)果的歸納風險則可以對增量聚類的結(jié)果進行評價。最后,本文通過具體的應川實例進一步驗證了以上內(nèi)容。英中合并小樣本的應用中分別驗證了聚類假設(shè)空間的可行性及在此基礎(chǔ)上構(gòu)造的聚類評價方法;航班延誤定級應川驗證了基于代表點的聚類評
5、價方法的可行性,以及該方法所得到的定星與定性雙朿結(jié)來在實際工程中的應用價值。關(guān)鍵字:機器學習;聚類;假設(shè)空間;模態(tài)邏輯;代表點;增星聚類AbstractClusteringplaysanimportantroleinmanyengineeringapplications,suchasdataminingandsoon.Therearemanymaturemethodstodoclustering.Thescopeofapplicationofdifferentmethodsmaybenotsamewithothers.Forthesamedataset,differentclusteri
6、ngmethodsmaygetdifferentclusters.Tochoosethesuitableclusteringmethods,someclusteringvalidityindexeshavebeenpresented?However,differentindexesmayleaddifferentconclusions?Eachmethodhasitsownapplicationscope?Whentheapplicationexceedsthescope,themethodmaybeinvalid.Itisveryimportanttoensurethevalidity
7、ofbothclusteringandclusteringvalidityindexinapplications.Thispaperwilldiscusstherelatedproblemaboutclusteringandclusteringvalidityindexfromthebasicconceptsofclustering,includingthefollowingaspects.1.Thenormalformofthes