資源描述:
《聚類評價的研究與應用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、南京航空航天大學碩士學位論文聚類評價的研究與應用姓名:宰云峰申請學位級別:碩士專業(yè):計算機軟件與理論指導教師:王建東20081201南京航空航天大學碩士學位論文摘要聚類是數(shù)據(jù)挖掘中一項重要的研究課題,在數(shù)據(jù)挖掘、模式識別、統(tǒng)計數(shù)據(jù)分析、自然語言理解等領(lǐng)域都有廣泛的應用前景。聚類評價指標對衡量一個聚類的優(yōu)劣有著重要作用,聚類評價可以檢測聚類的結(jié)果是否符合“同組數(shù)據(jù)相似,不同組數(shù)據(jù)不相似”的要求?,F(xiàn)有的聚類評價指標通常都基于統(tǒng)計理論或模糊理論。受到基礎(chǔ)理論的限制,在一些特殊場合,這些指標不能對聚類進行正
2、確的評估。本文提出了一個通用的聚類評價指標。通過把相似性定義成數(shù)據(jù)集上的二元關(guān)系,聚類被描述成Kripke結(jié)構(gòu)。用原子公式表示每個簇,聚類的結(jié)果可以用一組邏輯公式來表示。根據(jù)最小描述長度原則,聚類評價指標由這種表示方式的準確性和復雜性構(gòu)成。由于這種新的評價指標對相似性沒有任何附加的限制,它較之現(xiàn)有的評價指標更為通用,因為那些指標往往都默認了某種相似性度量方式。本文還通過實驗對新舊指標進行了對比。實驗結(jié)果表明,這種新的評價指標在一般情況下與大多數(shù)評價指標一致,而在一些類似“雙環(huán)”的特殊情況下比現(xiàn)有評價
3、方式更有效。航班延誤一直是困擾航空公司和旅客的一大難題。航班延誤預警近年來成為研究的熱點。每個航班的記錄可以看成是一個樣本,估算各個樣本的概率分布函數(shù)對于航班延誤預警很重要。根據(jù)數(shù)據(jù)挖掘基本理論,樣本不能太小,然而在實際應用中很難獲得足夠大的樣本。有時太嚴格的收集樣本條件會導致存在許多相似的小樣本,如果放寬收集樣本的條件,這些相似的小樣本就可能被合并。因此,從兩個根據(jù)相似性來將數(shù)據(jù)分組的過程開始,合并小樣本的過程實際上就是聚類過程。為了合并樣本,本文使用一個基于k-平均的獨立于相似性的聚類算法。由于
4、k-平均算法需要輸入?yún)?shù)即聚類數(shù)目k,本文使用上述的通用聚類評價指標對一些聚類參數(shù)下的聚類結(jié)果進行評價,并且從中選擇一個局部最優(yōu)的結(jié)果。最后使用該聚類算法將1516個航班樣本記錄合并為4個大樣本。實驗表明合并對于得到樣本的概率分布是有效的,合并樣本得到的先驗概率可以被用來對航班延誤預警。關(guān)鍵詞:數(shù)據(jù)挖掘,機器學習,聚類,聚類評價,相似性,小樣本合并I聚類評價的研究與應用AbstractClusteringisanimportantresearchtopicindatamining.Ithaswide
5、applicationprospectindatamining,patternanalysis,statisticaldataanalysis,naturallanguageunderstanding.Theclustervalidityindicesplayanimportantroleinmeasuringtheeffectofclustering.Theclustervalidityindexes,whichareusedtocheckwhethertheresultofclusterings
6、atisfiestherequirementthat"similarinsamegroup,dissimilarindifferentgroup",arerequiredtomeasureclusteringresults.Mostofcurrentindexesarebasedonstatisticaltheoryandfuzzytheory.Limitedbythebasictheories,theseindexeswouldgivesomeincorrectindicationinsomesp
7、ecialcases.Inthispaper,anewindexofclusteringvalidityindexwhichisbasedonthetheoryofmodallogicispresented.TheclusteringisdescribedbyKripkestructures,wherethesimilarityisdefinedasabinaryrelationonthedataset.Eachclusterisrepresentedbyapropositionalsentence
8、sothattheresultofclusteringcanberepresentedbylogicalformulas.Accordingtominimumdescriptionlengthprinciple,theclusteringvalidityindexisbuiltbyveracityandcomplexityoftherepresentation.Sincethisnewindeximposesnoadditionalrestrictiveconditi