200804135095+貝成建+翻譯

ID：37862255

大小：247.50 KB

頁數(shù)：17頁

時間：2019-06-01

資源描述：

《200804135095+貝成建+翻譯》由會員上傳分享，免費在線閱讀，更多相關內容在教育資源-天天文庫。

1、武漢科技大學本科畢業(yè)論文外文翻譯本科畢業(yè)論文外文翻譯外文譯文題目（中文）：從多角度分析聚類算法學院:信息科學與工程學院專業(yè):電子信息工程學號:200804135095學生姓名:貝成建指導教師:陳新國日期:二○一二年六月17武漢科技大學本科畢業(yè)論文外文翻譯AnalyzingPopularClusteringAlgorithmsfromDifferentViewpointsáQIANWei-ning,ZHOUAo-yingReceivedSeptember3,2001;acceptedFebruary25,2002從多角度分析現(xiàn)有聚類算法錢衛(wèi)寧,周傲英(復旦大學計

2、算機科學系,上海200433)(復旦大學智能信息處理開放實驗室,上海200433)17武漢科技大學本科畢業(yè)論文外文翻譯摘要聚類數(shù)據(jù)挖掘社區(qū)研究廣泛。它是用來設置成集群，使分區(qū)數(shù)據(jù)群集內的數(shù)據(jù)是相似的，集群間的數(shù)據(jù)是不一樣的。使用不同的聚類方法相似的定義和技術。從三個不同的流行的聚類算法進行了分析觀點：（1）集群的標準，（2）集群表示（3）算法框架。此外，一些新的內置的算法，混合或推廣其他一些算法進行了介紹。由于分析是從幾個觀點進行的，它可以覆蓋，并區(qū)分大部分現(xiàn)有算法。這是自我調整的研究的基礎上算法和聚類基準。關鍵詞：數(shù)據(jù)挖掘;聚類算法聚類是一個重要的數(shù)據(jù)挖掘技

3、術用于數(shù)據(jù)分割和圖案信息。聚類技術被廣泛應用于財務數(shù)據(jù)分類，空間數(shù)據(jù)處理，衛(wèi)星應用照片分析，和醫(yī)療數(shù)字自動檢測等。聚類的問題是分區(qū)設置成數(shù)據(jù)段（稱為簇），使集群內的數(shù)據(jù)是相似，集群間的數(shù)據(jù)是不一樣的。它可以是形式化為如下：定義1。由于數(shù)據(jù)集V{V1，V2，...，VN}，其中六（I=1,2，...，N）被稱為數(shù)據(jù)點。的過程劃分為{C1，C2，...，CK}，CiíV（I=1,2，...，K）V和∪我=1?CI=V時，基于數(shù)據(jù)點之間的相似性被稱為聚類，CI（I=1,2，...，K）被稱為集群。該定義不定義數(shù)據(jù)點之間的相似性。事實上，不同的方法，使用不同的標準。聚

4、類也被稱為無監(jiān)督學習的過程，因為沒有有關數(shù)據(jù)的先驗知識設置。因此，聚類分析，通常作為其他知識發(fā)現(xiàn)操作的預處理。質量聚類結果是重要的知識發(fā)現(xiàn)的整個過程。作為其他數(shù)據(jù)挖掘操作，高性能和可擴展性是其他兩個旁邊的精度要求。因此，一個良好的聚類算法應符合下列要求：獨立預先了解;只需要易于設置參數(shù)，準確，快速，具有良好的可擴展性大量的研究工作已經完成建設的聚類算法。每個使用新的技術，以改善某些特征的數(shù)據(jù)處理能力。然而，不同的算法，使用不同的標準上面提到的。由于沒有基準聚類方法，它是很難比較這些算法使用一個共同的測量。然而，詳細的比較是必要的。這是因為：（1）應分析的優(yōu)點和

5、缺點，這樣可以改善現(xiàn)有的算法開發(fā)。（2）用戶應該能夠選擇正確的算法，為特定的數(shù)據(jù)集，使優(yōu)化結果和性能可以得到。17武漢科技大學本科畢業(yè)論文外文翻譯（3）詳細比較的基礎上為建立一個集群基準。在本文中，我們從不同方面分析了現(xiàn)有的幾個流行的算法。它是不同的，其他一些調查工作[1?3]中，我們從不同的角度比較這些算法的普遍，而其他嘗試歸納一些方法，以一定的框架，如在文獻，[1,2]，它只能覆蓋有限算法，或剛引進的聚類算法逐個教程[3]，所以沒有算法之間的比較進行了分析。由于不同的算法，使用不同的標準和技術，這些調查只能覆蓋部分算法。此外，一些算法不能區(qū)分，因為他們使用

6、了同樣的技術，使他們屬于同一類別，在一定的框架。本文的其余部分安排如下：第1至3分析從三個聚類算法不同的觀點，即聚類準則，算法框架和集群的代表性。第4節(jié)介紹了一些方法，這是其他算法的混合物或概括。第5節(jié)介紹研究專注于集群的自動檢測。最后，第6節(jié)是結論言論。應該注意，從每個角度來看，雖然我們嘗試，我們可以劃分為許多算法，有人至今下落不明。和某些算法可能落入同一類別。然而，當我們觀察這些從所有這些觀點的算法，可以區(qū)分不同的算法。這是我們工作的動力。1標準聚類分析的基礎是相似的定義。通常情況下，相似的定義包含兩個部分：（1）數(shù)據(jù)點之間的相似性;（2）數(shù)據(jù)點集之間的相

7、似性。不是所有的集群方法需要他們兩個。有些算法只使用一個?？煞譃槿悾夯诰嚯x，基于密度和聯(lián)動為基礎的聚類準則?；诰嚯x和基于密度的聚類通常適用于歐氏空間中的數(shù)據(jù)，而連鎖為主聚類可以應用于任意度量空間中的數(shù)據(jù)。1.1基于距離的聚類基于距離的聚類的基本思想是，一個集群是相互靠近的數(shù)據(jù)點。距離兩個數(shù)據(jù)點之間的歐氏空間中很容易定義。廣泛使用的距離定義包括歐幾里得距離，曼哈頓距離?；诰嚯x的聚類的優(yōu)點是距離為便于計算和理解。和基于距離的聚類算法通常需要的參數(shù)，K，這是最后的集群用戶希望或最小距離來區(qū)分兩個集群。然而，他們的缺點也是明顯的，他們是對噪聲敏感的。雖然有些技

8、術他們中的一些介紹，他們導致其他嚴重的

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 17



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容，確認文檔內容符合您的需求后進行下載，若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

200804135095+貝成建+翻譯

200804135095+貝成建+翻譯

相關文章

相關標簽