數(shù)據挖掘中聚類集成與半監(jiān)督聚類研究

數(shù)據挖掘中聚類集成與半監(jiān)督聚類研究

ID:13289481

大?。?.16 MB

頁數(shù):76頁

時間:2018-07-21

數(shù)據挖掘中聚類集成與半監(jiān)督聚類研究_第1頁
數(shù)據挖掘中聚類集成與半監(jiān)督聚類研究_第2頁
數(shù)據挖掘中聚類集成與半監(jiān)督聚類研究_第3頁
數(shù)據挖掘中聚類集成與半監(jiān)督聚類研究_第4頁
數(shù)據挖掘中聚類集成與半監(jiān)督聚類研究_第5頁
資源描述:

《數(shù)據挖掘中聚類集成與半監(jiān)督聚類研究》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。

1、國內圖書分類號:TP301.6密級:公開國際圖書分類號:681.14西南交通大學研究生學位論文數(shù)據挖掘中聚類集成與半監(jiān)督聚類研究年級二〇〇七級姓名譚維申請學位級別碩士專業(yè)計算機應用技術指導老師楊燕教授二零一零年五月ClassifiedIndex:TP301.6U.D.C:681.14SouthwestJiaotongUniversityMasterDegreeThesisRESEARCHONCLUSTERINGENSEMBLEANDSEMI-SUPERVISEDCLUSTERINGINDATAMININGGrade:200

2、7Candidate:TanWeiAcademicDegreeAppliedfor:MasterSpeciality:ComputerApplicationSupervisor:Prof.YangYanMay,2010西南交通大學學位論文版權使用授權書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定,同意學校保留并向國家有關部門或機構送交論文的復印件和電子版,允許論文被查閱和借閱。本人授權西南交通大學可以將本論文的全部或部分內容編入有關數(shù)據庫進行檢索,可以采用影印、縮印或掃描等復印手段保存和匯編本學位論文。本學位論文

3、屬于1.保密□,在年解密后適用本授權書;2.不保密□,使用本授權書。(請在以上方框內打“√”)學位論文作者簽名:指導老師簽名:日期:日期:西南交通大學碩士學位論文主要工作(貢獻)聲明本人在學位論文中所做的主要工作或貢獻如下:(1)詳細介紹了聚類集成的相關原理和概念,從聚類成員的生成和共識函數(shù)設計兩個方面進行了重點分析。對自組織特征映射神經網絡和聚類綜合質量進行了深入介紹,提出了一種基于自組織特征映射的聚類集成算法。該算法首先根據差異性聚類成員把原始數(shù)據集轉換到一個新特征空間矩陣,然后引入聚類綜合質量對新特征空間矩陣屬性進行

4、加權,最后用SOM算法作為共識函數(shù)進行聚類。實驗結果表明,該算法能有效地提高聚類質量,并取得了與其他聚類集成算法同等或更優(yōu)的聚類性能。(2)對半監(jiān)督聚類的原理、概念和先驗知識的類型做出了詳細的研究和探討,并重點分析了Cop-Kmeans算法的原理。針對Cop-Kmeans算法出現(xiàn)約束違反現(xiàn)象以及算法性能依賴于樣本分配順序的不足,提出了改進算法ICop-Kmeans,同時提出樣本確定度的定義,并按樣本確定的大小排序產生了一組確定的樣本分配順序。最后,給出了一種基于成對約束的半監(jiān)督自組織特征映射算法。通過實驗結果分析得出,改進

5、的ICop-Kmeans算法能夠有效地處理約束違反現(xiàn)象,使用產生的確定樣本分配順序的ICop-Kmeans算法較使用隨機樣本分配順序的ICop-Kmeans算法聚類效果更好。此外,融合先驗知識的SOM算法較好改善了無監(jiān)督SOM算法的聚類質量,并且作為共識函數(shù)對ICop-Kmeans算法產生的劃分結果集成后,相比集成前聚類性能得到提升。本人鄭重聲明:所呈交的學位論文,是在導師指導下獨立進行研究工作所得的成果。除文中已經注明引用的內容外,本論文不包含任何其他個人或集體已經發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻的個人和集體

6、,均已在文中作了明確說明。本人完全了解違反上述聲明所引起的一切法律責任將由本人承擔。學位論文作者簽名:日期:西南交通大學碩士研究生學位論文第V頁摘要在數(shù)據挖掘領域,聚類分析作為一種重要的方法,能夠發(fā)現(xiàn)數(shù)據對象自然的分布結構。通過一種事先給定的相似性測度方式,所有的數(shù)據對象被分割成若干不連續(xù)的組,并保證同一組數(shù)據的相似性更大,不同組數(shù)據的相似性更小。傳統(tǒng)的聚類算法是一種無監(jiān)督方法,它按照不同的優(yōu)化準則對數(shù)據進行分割,沒有考慮用戶或真實世界提供的任何先驗知識。盡管目前許多新型或改進的算法被提出,但仍然難以找到一種單一的算法可以

7、探索各種數(shù)據對象分布結構。為了提高無監(jiān)督聚類算法的性能,聚類集成技術和半監(jiān)督聚類技術應運而生。受分類集成技術的啟示,聚類集成作為當今的研究熱點已被證明能有效地提高傳統(tǒng)聚類算法的性能。它綜合多種不同聚類算法或不同初始參數(shù)的同一聚類算法產生的劃分,可獲得比單一聚類算法更好的聚類結果。共識函數(shù)的設計是聚類集成最關鍵的問題,也是目前研究的重點。本文提出一種基于自組織特征映射(SOM)的聚類集成算法。該算法首先利用多個具有差異性的聚類成員,將原始數(shù)據集轉換成一個新的特征空間矩陣,然后計算各個聚類成員的聚類綜合質量,并將其作為新特征空

8、間矩陣的屬性權重,最后利用SOM神經網絡進行集成,產生最終的共識聚類結果。實驗結果表明,與集成前的基聚類算法和其他聚類集成算法的結果相比較,該算法能夠有效提高聚類質量。半監(jiān)督聚類利用諸如種子集或成對約束等先驗知識獲得更好的聚類結果。相比于無監(jiān)督聚類分析,半監(jiān)督聚類利用提供的少量監(jiān)督信息協(xié)助指導聚類過程。

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。