資源描述:
《200804135095+貝成建+翻譯》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、武漢科技大學本科畢業(yè)論文外文翻譯本科畢業(yè)論文外文翻譯外文譯文題目(中文):從多角度分析聚類算法學院:信息科學與工程學院專業(yè):電子信息工程學號:200804135095學生姓名:貝成建指導教師:陳新國日期:二○一二年六月17武漢科技大學本科畢業(yè)論文外文翻譯AnalyzingPopularClusteringAlgorithmsfromDifferentViewpointsáQIANWei-ning,ZHOUAo-yingReceivedSeptember3,2001;acceptedFebruary25,2002從多角度分析現(xiàn)有聚類算法錢衛(wèi)寧,周傲英(復旦大學計
2、算機科學系,上海200433)(復旦大學智能信息處理開放實驗室,上海200433)17武漢科技大學本科畢業(yè)論文外文翻譯摘要聚類數(shù)據(jù)挖掘社區(qū)研究廣泛。它是用來設置成集群,使分區(qū)數(shù)據(jù)群集內的數(shù)據(jù)是相似的,集群間的數(shù)據(jù)是不一樣的。使用不同的聚類方法相似的定義和技術。從三個不同的流行的聚類算法進行了分析觀點:(1)集群的標準,(2)集群表示(3)算法框架。此外,一些新的內置的算法,混合或推廣其他一些算法進行了介紹。由于分析是從幾個觀點進行的,它可以覆蓋,并區(qū)分大部分現(xiàn)有算法。這是自我調整的研究的基礎上算法和聚類基準。關鍵詞:數(shù)據(jù)挖掘;聚類算法聚類是一個重要的數(shù)據(jù)挖掘技
3、術用于數(shù)據(jù)分割和圖案信息。聚類技術被廣泛應用于財務數(shù)據(jù)分類,空間數(shù)據(jù)處理,衛(wèi)星應用照片分析,和醫(yī)療數(shù)字自動檢測等。聚類的問題是分區(qū)設置成數(shù)據(jù)段(稱為簇),使集群內的數(shù)據(jù)是相似,集群間的數(shù)據(jù)是不一樣的。它可以是形式化為如下:定義1。由于數(shù)據(jù)集V{V1,V2,...,VN},其中六(I=1,2,...,N)被稱為數(shù)據(jù)點。的過程劃分為{C1,C2,...,CK},CiíV(I=1,2,...,K)V和∪我=1?CI=V時,基于數(shù)據(jù)點之間的相似性被稱為聚類,CI(I=1,2,...,K)被稱為集群。該定義不定義數(shù)據(jù)點之間的相似性。事實上,不同的方法,使用不同的標準。聚
4、類也被稱為無監(jiān)督學習的過程,因為沒有有關數(shù)據(jù)的先驗知識設置。因此,聚類分析,通常作為其他知識發(fā)現(xiàn)操作的預處理。質量聚類結果是重要的知識發(fā)現(xiàn)的整個過程。作為其他數(shù)據(jù)挖掘操作,高性能和可擴展性是其他兩個旁邊的精度要求。因此,一個良好的聚類算法應符合下列要求:獨立預先了解;只需要易于設置參數(shù),準確,快速,具有良好的可擴展性大量的研究工作已經完成建設的聚類算法。每個使用新的技術,以改善某些特征的數(shù)據(jù)處理能力。然而,不同的算法,使用不同的標準上面提到的。由于沒有基準聚類方法,它是很難比較這些算法使用一個共同的測量。然而,詳細的比較是必要的。這是因為:(1)應分析的優(yōu)點和
5、缺點,這樣可以改善現(xiàn)有的算法開發(fā)。(2)用戶應該能夠選擇正確的算法,為特定的數(shù)據(jù)集,使優(yōu)化結果和性能可以得到。17武漢科技大學本科畢業(yè)論文外文翻譯(3)詳細比較的基礎上為建立一個集群基準。在本文中,我們從不同方面分析了現(xiàn)有的幾個流行的算法。它是不同的,其他一些調查工作[1?3]中,我們從不同的角度比較這些算法的普遍,而其他嘗試歸納一些方法,以一定的框架,如在文獻,[1,2],它只能覆蓋有限算法,或剛引進的聚類算法逐個教程[3],所以沒有算法之間的比較進行了分析。由于不同的算法,使用不同的標準和技術,這些調查只能覆蓋部分算法。此外,一些算法不能區(qū)分,因為他們使用
6、了同樣的技術,使他們屬于同一類別,在一定的框架。本文的其余部分安排如下:第1至3分析從三個聚類算法不同的觀點,即聚類準則,算法框架和集群的代表性。第4節(jié)介紹了一些方法,這是其他算法的混合物或概括。第5節(jié)介紹研究專注于集群的自動檢測。最后,第6節(jié)是結論言論。應該注意,從每個角度來看,雖然我們嘗試,我們可以劃分為許多算法,有人至今下落不明。和某些算法可能落入同一類別。然而,當我們觀察這些從所有這些觀點的算法,可以區(qū)分不同的算法。這是我們工作的動力。1標準聚類分析的基礎是相似的定義。通常情況下,相似的定義包含兩個部分:(1)數(shù)據(jù)點之間的相似性;(2)數(shù)據(jù)點集之間的相
7、似性。不是所有的集群方法需要他們兩個。有些算法只使用一個??煞譃槿悾夯诰嚯x,基于密度和聯(lián)動為基礎的聚類準則?;诰嚯x和基于密度的聚類通常適用于歐氏空間中的數(shù)據(jù),而連鎖為主聚類可以應用于任意度量空間中的數(shù)據(jù)。1.1基于距離的聚類基于距離的聚類的基本思想是,一個集群是相互靠近的數(shù)據(jù)點。距離兩個數(shù)據(jù)點之間的歐氏空間中很容易定義。廣泛使用的距離定義包括歐幾里得距離,曼哈頓距離?;诰嚯x的聚類的優(yōu)點是距離為便于計算和理解。和基于距離的聚類算法通常需要的參數(shù),K,這是最后的集群用戶希望或最小距離來區(qū)分兩個集群。然而,他們的缺點也是明顯的,他們是對噪聲敏感的。雖然有些技
8、術他們中的一些介紹,他們導致其他嚴重的