基于劃分的聚類算法研究與應(yīng)用

基于劃分的聚類算法研究與應(yīng)用

ID:24239256

大?。?4.50 KB

頁(yè)數(shù):4頁(yè)

時(shí)間:2018-11-13

基于劃分的聚類算法研究與應(yīng)用_第1頁(yè)
基于劃分的聚類算法研究與應(yīng)用_第2頁(yè)
基于劃分的聚類算法研究與應(yīng)用_第3頁(yè)
基于劃分的聚類算法研究與應(yīng)用_第4頁(yè)
資源描述:

《基于劃分的聚類算法研究與應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)

1、基于劃分的聚類算法研究與應(yīng)用何宇成都信息工程大學(xué)摘要:隨著數(shù)學(xué)、計(jì)算機(jī)科學(xué)以及統(tǒng)計(jì)學(xué)、生物學(xué)等的快速發(fā)展,促進(jìn)了聚類算法的產(chǎn)生。聚類分析在數(shù)據(jù)的處理和分析當(dāng)中有著舉足輕重的作用,并且被廣泛應(yīng)用到多個(gè)領(lǐng)域,介于此人們發(fā)明出了聚類算法。這些算法可以被分為以劃分方法為代表的多種多樣的處理方法。今天我們著重來(lái)探討一下棊于劃分的聚類算法的研宂與應(yīng)用。關(guān)鍵詞:劃分方法;聚類算法;研究與應(yīng)用;作者簡(jiǎn)介:何宇(1985一),男,四川仁壽人,碩士,主要研究方向?yàn)榫W(wǎng)絡(luò)安全及計(jì)算機(jī)應(yīng)用。收稿日期:2017-05-05Received:2017-05-05隨著我國(guó)的數(shù)學(xué)、計(jì)算機(jī)科

2、學(xué)以及經(jīng)濟(jì)學(xué)學(xué)科的快速發(fā)展,聚類算法得到廣泛使用,加快丫數(shù)據(jù)處理與分析的速度,很大程度上促進(jìn)/這些學(xué)科的發(fā)展。而且聚類算法的應(yīng)用領(lǐng)域己經(jīng)涉及生活和生產(chǎn)的方方而而,它是將物理或抽象對(duì)象的集合分組為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。這有很多具體應(yīng)用的實(shí)例,比如說(shuō)在商業(yè)方面,聚類分析方法可以幫助銷售工作者找到不同的客戶群,并且通過(guò)聚類分析中特定的模式來(lái)展現(xiàn)客戶群的差異性。實(shí)際出真知,聚類分析方法對(duì)于市場(chǎng)的整體分析和數(shù)據(jù)處理等有著極其重要的作用,而且可以根據(jù)對(duì)客戶群特點(diǎn)的分析準(zhǔn)確把握客戶的消費(fèi)心理,這樣一來(lái)能夠促使廠商發(fā)現(xiàn)新的商機(jī),開發(fā)新型的產(chǎn)業(yè)和地區(qū)市場(chǎng),并且

3、能夠?qū)⑦@些信息整合起來(lái);在保險(xiǎn)行業(yè),聚類分析的應(yīng)用更是在很大程度上解放的人力,很多數(shù)據(jù)的收集、處理變得極其方便,主要是根據(jù)地區(qū)的保險(xiǎn)業(yè)的平均水平來(lái)劃分的,以平均值為劃分的界限,再結(jié)合局部地區(qū)的經(jīng)濟(jì)發(fā)展速度、人均工資水平以及對(duì)保險(xiǎn)業(yè)的態(tài)度和購(gòu)買程度進(jìn)行分組;再者便是在近些年來(lái)最為流行的貿(mào)易方式一一電子商務(wù)。電子商務(wù)顧名思義用的就是計(jì)算機(jī),其本身在數(shù)據(jù)處理上就占有一定的優(yōu)勢(shì),利用聚類分析的方法使得電子商務(wù)中的交易數(shù)據(jù)和人群劃分更加明顯,交易人群特點(diǎn)的掌握有利于電商事業(yè)的發(fā)展,也為更近-步的商務(wù)交流提供了建設(shè)性的意見。1劃分方法的基本概念及其常用的方法劃分方法(

4、PAM:Partitioningmethod)的定義是首先創(chuàng)建k個(gè)劃分,k為要?jiǎng)?chuàng)建的劃分個(gè)數(shù)。常用的劃分方法有:k-means,k-medics,CLARA(ClusteringLargeApplication),CLARANS(ClusteringLargeApplicationbaseduponRandomizedSearch).FCM。其中以k-means的使用最為普?通,嚴(yán)格來(lái)說(shuō)k一means屬于非層次聚類法f種,下面我們來(lái)看一下它的整個(gè)執(zhí)行過(guò)程,一井分為兩個(gè)部分,分別是初始化,循環(huán)。所謂初始化就是指選擇或是人為指定某些記錄作為凝聚點(diǎn),但是要注意的

5、一點(diǎn)就是按就近原則進(jìn)行初始化的選擇,而丑要注意記錄屮心的數(shù)據(jù),最后根據(jù)記錄數(shù)據(jù)重新進(jìn)行這一過(guò)程。一直不斷地重復(fù)這一過(guò)程,直到凝聚點(diǎn)位置收斂為止。這種方法一般具有節(jié)省運(yùn)算時(shí)間等特點(diǎn)。2具體的運(yùn)算過(guò)程2.1數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是指我們?cè)趯?duì)數(shù)據(jù)進(jìn)行正式的處理之前,要先對(duì)數(shù)據(jù)的整體進(jìn)行一下估量,主耍從數(shù)據(jù)的數(shù)量、范圍、程度和既定標(biāo)準(zhǔn)這兒方面入手,進(jìn)行規(guī)劃分類和簡(jiǎn)單的預(yù)測(cè)分析,然后再就每一個(gè)方面對(duì)整體數(shù)據(jù)的影響進(jìn)行估量式判斷,建立起一個(gè)預(yù)測(cè)模式。m當(dāng)然在我們有了明確的數(shù)據(jù)處理和分析結(jié)果時(shí)要將這一預(yù)測(cè)模式清楚,避免結(jié)果混淆。2.2定義距離函數(shù)聚類的產(chǎn)生是由于多個(gè)領(lǐng)域和

6、數(shù)據(jù)之間存在著和似性,正是由于事物之間和似性的存在,才促生了聚類的算法。但是這些相似性的存在也極容易造成事物之間的混淆。所以給這些數(shù)據(jù)設(shè)置一個(gè)定義函數(shù)是非常冇必要的。函數(shù)的設(shè)置是為了避免誤差,所以在設(shè)置相似距離時(shí)一定要把握好度量,保持?jǐn)?shù)據(jù)點(diǎn)之間的平衡,從而保證整個(gè)運(yùn)算過(guò)程的準(zhǔn)確性。2.3聚類或分組數(shù)據(jù)對(duì)象的分類要根據(jù)數(shù)據(jù)的特點(diǎn)、適應(yīng)的環(huán)境或是發(fā)揮的作用等來(lái)進(jìn)行分類,而II由于分類時(shí)采用的方法不同或是人為因素的干擾,總會(huì)產(chǎn)生不同的數(shù)據(jù)分組。劃分方法一般從初始劃分和最優(yōu)化一個(gè)聚類標(biāo)準(zhǔn)開始。CrispClustering,它的每一個(gè)數(shù)據(jù)都屬丁?革獨(dú)的類;Fuzz

7、yClustering,它的每個(gè)數(shù)據(jù)可能在任何一個(gè)矣中,CrispClustering和FuzzyClustering是劃分方法的W個(gè)主要技術(shù),劃分方法聚類方法具有自身的法則優(yōu)勢(shì),它可以找到在不同的分類組之間的相似性,其至可以分析出在同一組內(nèi)分類數(shù)據(jù)之間存在的差異性,我們常說(shuō)數(shù)據(jù)的處理和分析要科學(xué),要辯證的看到事物的兩面性。m這種方法本身就是一種辯證的方法,所以用它來(lái)分析和處理數(shù)據(jù)最合適不過(guò)了。3聚類方法的主要應(yīng)用研宄聚類算法在實(shí)際應(yīng)用過(guò)程中涉及多個(gè)行業(yè)發(fā)展。從商業(yè)、生物、地理、保險(xiǎn)行業(yè)、因特網(wǎng)行業(yè)以及電子商務(wù)行業(yè)等都所有涉獵。3.1商業(yè)在商業(yè)市場(chǎng)的發(fā)展過(guò)

8、程中,往往對(duì)于市場(chǎng)未知風(fēng)險(xiǎn)的預(yù)測(cè)是企業(yè)可持續(xù)發(fā)展的一個(gè)重要問題。如

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。