聚類評價的研究與應用

聚類評價的研究與應用

ID:33178587

大?。?.02 MB

頁數(shù):45頁

時間:2019-02-21

聚類評價的研究與應用_第1頁
聚類評價的研究與應用_第2頁
聚類評價的研究與應用_第3頁
聚類評價的研究與應用_第4頁
聚類評價的研究與應用_第5頁
資源描述:

《聚類評價的研究與應用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、南京航空航天大學碩士學位論文聚類評價的研究與應用姓名:宰云峰申請學位級別:碩士專業(yè):計算機軟件與理論指導教師:王建東20081201南京航空航天大學碩士學位論文摘要聚類是數(shù)據(jù)挖掘中一項重要的研究課題,在數(shù)據(jù)挖掘、模式識別、統(tǒng)計數(shù)據(jù)分析、自然語言理解等領(lǐng)域都有廣泛的應用前景。聚類評價指標對衡量一個聚類的優(yōu)劣有著重要作用,聚類評價可以檢測聚類的結(jié)果是否符合“同組數(shù)據(jù)相似,不同組數(shù)據(jù)不相似”的要求?,F(xiàn)有的聚類評價指標通常都基于統(tǒng)計理論或模糊理論。受到基礎(chǔ)理論的限制,在一些特殊場合,這些指標不能對聚類進行正

2、確的評估。本文提出了一個通用的聚類評價指標。通過把相似性定義成數(shù)據(jù)集上的二元關(guān)系,聚類被描述成Kripke結(jié)構(gòu)。用原子公式表示每個簇,聚類的結(jié)果可以用一組邏輯公式來表示。根據(jù)最小描述長度原則,聚類評價指標由這種表示方式的準確性和復雜性構(gòu)成。由于這種新的評價指標對相似性沒有任何附加的限制,它較之現(xiàn)有的評價指標更為通用,因為那些指標往往都默認了某種相似性度量方式。本文還通過實驗對新舊指標進行了對比。實驗結(jié)果表明,這種新的評價指標在一般情況下與大多數(shù)評價指標一致,而在一些類似“雙環(huán)”的特殊情況下比現(xiàn)有評價

3、方式更有效。航班延誤一直是困擾航空公司和旅客的一大難題。航班延誤預警近年來成為研究的熱點。每個航班的記錄可以看成是一個樣本,估算各個樣本的概率分布函數(shù)對于航班延誤預警很重要。根據(jù)數(shù)據(jù)挖掘基本理論,樣本不能太小,然而在實際應用中很難獲得足夠大的樣本。有時太嚴格的收集樣本條件會導致存在許多相似的小樣本,如果放寬收集樣本的條件,這些相似的小樣本就可能被合并。因此,從兩個根據(jù)相似性來將數(shù)據(jù)分組的過程開始,合并小樣本的過程實際上就是聚類過程。為了合并樣本,本文使用一個基于k-平均的獨立于相似性的聚類算法。由于

4、k-平均算法需要輸入?yún)?shù)即聚類數(shù)目k,本文使用上述的通用聚類評價指標對一些聚類參數(shù)下的聚類結(jié)果進行評價,并且從中選擇一個局部最優(yōu)的結(jié)果。最后使用該聚類算法將1516個航班樣本記錄合并為4個大樣本。實驗表明合并對于得到樣本的概率分布是有效的,合并樣本得到的先驗概率可以被用來對航班延誤預警。關(guān)鍵詞:數(shù)據(jù)挖掘,機器學習,聚類,聚類評價,相似性,小樣本合并I聚類評價的研究與應用AbstractClusteringisanimportantresearchtopicindatamining.Ithaswide

5、applicationprospectindatamining,patternanalysis,statisticaldataanalysis,naturallanguageunderstanding.Theclustervalidityindicesplayanimportantroleinmeasuringtheeffectofclustering.Theclustervalidityindexes,whichareusedtocheckwhethertheresultofclusterings

6、atisfiestherequirementthat"similarinsamegroup,dissimilarindifferentgroup",arerequiredtomeasureclusteringresults.Mostofcurrentindexesarebasedonstatisticaltheoryandfuzzytheory.Limitedbythebasictheories,theseindexeswouldgivesomeincorrectindicationinsomesp

7、ecialcases.Inthispaper,anewindexofclusteringvalidityindexwhichisbasedonthetheoryofmodallogicispresented.TheclusteringisdescribedbyKripkestructures,wherethesimilarityisdefinedasabinaryrelationonthedataset.Eachclusterisrepresentedbyapropositionalsentence

8、sothattheresultofclusteringcanberepresentedbylogicalformulas.Accordingtominimumdescriptionlengthprinciple,theclusteringvalidityindexisbuiltbyveracityandcomplexityoftherepresentation.Sincethisnewindeximposesnoadditionalrestrictiveconditi

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。