資源描述:
《200804135095+貝成建+翻譯》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、武漢科技大學(xué)本科畢業(yè)論文外文翻譯本科畢業(yè)論文外文翻譯外文譯文題目(中文):從多角度分析聚類算法學(xué)院:信息科學(xué)與工程學(xué)院專業(yè):電子信息工程學(xué)號(hào):200804135095學(xué)生姓名:貝成建指導(dǎo)教師:陳新國(guó)日期:二○一二年六月17武漢科技大學(xué)本科畢業(yè)論文外文翻譯AnalyzingPopularClusteringAlgorithmsfromDifferentViewpointsáQIANWei-ning,ZHOUAo-yingReceivedSeptember3,2001;acceptedFebruary25,2002從多角度分析現(xiàn)有聚類算法錢衛(wèi)寧,周傲英(復(fù)旦大學(xué)計(jì)
2、算機(jī)科學(xué)系,上海200433)(復(fù)旦大學(xué)智能信息處理開放實(shí)驗(yàn)室,上海200433)17武漢科技大學(xué)本科畢業(yè)論文外文翻譯摘要聚類數(shù)據(jù)挖掘社區(qū)研究廣泛。它是用來(lái)設(shè)置成集群,使分區(qū)數(shù)據(jù)群集內(nèi)的數(shù)據(jù)是相似的,集群間的數(shù)據(jù)是不一樣的。使用不同的聚類方法相似的定義和技術(shù)。從三個(gè)不同的流行的聚類算法進(jìn)行了分析觀點(diǎn):(1)集群的標(biāo)準(zhǔn),(2)集群表示(3)算法框架。此外,一些新的內(nèi)置的算法,混合或推廣其他一些算法進(jìn)行了介紹。由于分析是從幾個(gè)觀點(diǎn)進(jìn)行的,它可以覆蓋,并區(qū)分大部分現(xiàn)有算法。這是自我調(diào)整的研究的基礎(chǔ)上算法和聚類基準(zhǔn)。關(guān)鍵詞:數(shù)據(jù)挖掘;聚類算法聚類是一個(gè)重要的數(shù)據(jù)挖掘技
3、術(shù)用于數(shù)據(jù)分割和圖案信息。聚類技術(shù)被廣泛應(yīng)用于財(cái)務(wù)數(shù)據(jù)分類,空間數(shù)據(jù)處理,衛(wèi)星應(yīng)用照片分析,和醫(yī)療數(shù)字自動(dòng)檢測(cè)等。聚類的問(wèn)題是分區(qū)設(shè)置成數(shù)據(jù)段(稱為簇),使集群內(nèi)的數(shù)據(jù)是相似,集群間的數(shù)據(jù)是不一樣的。它可以是形式化為如下:定義1。由于數(shù)據(jù)集V{V1,V2,...,VN},其中六(I=1,2,...,N)被稱為數(shù)據(jù)點(diǎn)。的過(guò)程劃分為{C1,C2,...,CK},CiíV(I=1,2,...,K)V和∪我=1?CI=V時(shí),基于數(shù)據(jù)點(diǎn)之間的相似性被稱為聚類,CI(I=1,2,...,K)被稱為集群。該定義不定義數(shù)據(jù)點(diǎn)之間的相似性。事實(shí)上,不同的方法,使用不同的標(biāo)準(zhǔn)。聚
4、類也被稱為無(wú)監(jiān)督學(xué)習(xí)的過(guò)程,因?yàn)闆](méi)有有關(guān)數(shù)據(jù)的先驗(yàn)知識(shí)設(shè)置。因此,聚類分析,通常作為其他知識(shí)發(fā)現(xiàn)操作的預(yù)處理。質(zhì)量聚類結(jié)果是重要的知識(shí)發(fā)現(xiàn)的整個(gè)過(guò)程。作為其他數(shù)據(jù)挖掘操作,高性能和可擴(kuò)展性是其他兩個(gè)旁邊的精度要求。因此,一個(gè)良好的聚類算法應(yīng)符合下列要求:獨(dú)立預(yù)先了解;只需要易于設(shè)置參數(shù),準(zhǔn)確,快速,具有良好的可擴(kuò)展性大量的研究工作已經(jīng)完成建設(shè)的聚類算法。每個(gè)使用新的技術(shù),以改善某些特征的數(shù)據(jù)處理能力。然而,不同的算法,使用不同的標(biāo)準(zhǔn)上面提到的。由于沒(méi)有基準(zhǔn)聚類方法,它是很難比較這些算法使用一個(gè)共同的測(cè)量。然而,詳細(xì)的比較是必要的。這是因?yàn)椋海?)應(yīng)分析的優(yōu)點(diǎn)和
5、缺點(diǎn),這樣可以改善現(xiàn)有的算法開發(fā)。(2)用戶應(yīng)該能夠選擇正確的算法,為特定的數(shù)據(jù)集,使優(yōu)化結(jié)果和性能可以得到。17武漢科技大學(xué)本科畢業(yè)論文外文翻譯(3)詳細(xì)比較的基礎(chǔ)上為建立一個(gè)集群基準(zhǔn)。在本文中,我們從不同方面分析了現(xiàn)有的幾個(gè)流行的算法。它是不同的,其他一些調(diào)查工作[1?3]中,我們從不同的角度比較這些算法的普遍,而其他嘗試歸納一些方法,以一定的框架,如在文獻(xiàn),[1,2],它只能覆蓋有限算法,或剛引進(jìn)的聚類算法逐個(gè)教程[3],所以沒(méi)有算法之間的比較進(jìn)行了分析。由于不同的算法,使用不同的標(biāo)準(zhǔn)和技術(shù),這些調(diào)查只能覆蓋部分算法。此外,一些算法不能區(qū)分,因?yàn)樗麄兪褂?/p>
6、了同樣的技術(shù),使他們屬于同一類別,在一定的框架。本文的其余部分安排如下:第1至3分析從三個(gè)聚類算法不同的觀點(diǎn),即聚類準(zhǔn)則,算法框架和集群的代表性。第4節(jié)介紹了一些方法,這是其他算法的混合物或概括。第5節(jié)介紹研究專注于集群的自動(dòng)檢測(cè)。最后,第6節(jié)是結(jié)論言論。應(yīng)該注意,從每個(gè)角度來(lái)看,雖然我們嘗試,我們可以劃分為許多算法,有人至今下落不明。和某些算法可能落入同一類別。然而,當(dāng)我們觀察這些從所有這些觀點(diǎn)的算法,可以區(qū)分不同的算法。這是我們工作的動(dòng)力。1標(biāo)準(zhǔn)聚類分析的基礎(chǔ)是相似的定義。通常情況下,相似的定義包含兩個(gè)部分:(1)數(shù)據(jù)點(diǎn)之間的相似性;(2)數(shù)據(jù)點(diǎn)集之間的相
7、似性。不是所有的集群方法需要他們兩個(gè)。有些算法只使用一個(gè)??煞譃槿悾夯诰嚯x,基于密度和聯(lián)動(dòng)為基礎(chǔ)的聚類準(zhǔn)則。基于距離和基于密度的聚類通常適用于歐氏空間中的數(shù)據(jù),而連鎖為主聚類可以應(yīng)用于任意度量空間中的數(shù)據(jù)。1.1基于距離的聚類基于距離的聚類的基本思想是,一個(gè)集群是相互靠近的數(shù)據(jù)點(diǎn)。距離兩個(gè)數(shù)據(jù)點(diǎn)之間的歐氏空間中很容易定義。廣泛使用的距離定義包括歐幾里得距離,曼哈頓距離?;诰嚯x的聚類的優(yōu)點(diǎn)是距離為便于計(jì)算和理解。和基于距離的聚類算法通常需要的參數(shù),K,這是最后的集群用戶希望或最小距離來(lái)區(qū)分兩個(gè)集群。然而,他們的缺點(diǎn)也是明顯的,他們是對(duì)噪聲敏感的。雖然有些技
8、術(shù)他們中的一些介紹,他們導(dǎo)致其他嚴(yán)重的