資源描述:
《基于近鄰傳播的快速搜索聚類(lèi)算法研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第39卷第5期華北電力大學(xué)學(xué)報(bào)Vo1.39,No.52012年9月JournalofNoahChinaElectricPowerUniversitySep.,2012基于近鄰傳播的快速搜索聚類(lèi)算法研究蘇亞然,牛習(xí)現(xiàn)(1.華北電力大學(xué)經(jīng)濟(jì)與管理學(xué)院,北京102206;2.河北科技大學(xué)經(jīng)濟(jì)管理學(xué)院,河北石家莊050018;3.河北青年管理干部學(xué)院信息系,河北石家莊050031)摘要:為了能夠快速準(zhǔn)確地發(fā)現(xiàn)自然分布的、任意形狀密度變化的聚類(lèi),提出了基于近鄰傳播的快速掃描算法,該算法利用最近鄰居關(guān)系的傳遞特性實(shí)現(xiàn)數(shù)據(jù)集合的完全聚類(lèi),簡(jiǎn)化了傳統(tǒng)聚類(lèi)方法的最近鄰居
2、判定和計(jì)算,優(yōu)化了搜索過(guò)程,實(shí)現(xiàn)了快速聚類(lèi)分析過(guò)程。通過(guò)與同類(lèi)算法的比對(duì)驗(yàn)證,結(jié)果表明該算法對(duì)目標(biāo)數(shù)據(jù)集合的任意分布特性有很好的適應(yīng)能力。關(guān)鍵詞:近鄰傳播;自然分布;聚類(lèi)分析;數(shù)據(jù)挖掘中圖分類(lèi)號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007—2691(2012)05—0093—04FastsearchclusteringalgorithmbasedonafinitypropagationSUYa.ran._.NIUXi.xian(1.SchoolofEconomicsandManagement,NorthChinaElectricPowerUnivers
3、ity,Beijing102206,China;2.CollegeofEconomicsandManagement,HebeiUniversityofScienceandTechnology,Shijiazhuang050018,China;3.DepartmentofInformation,HebeiYouthAdministrativeCadresCollege,Shijiazhuang050031,China)Abstract:Inordertofindallclusterswhichhavethecharacteristicsofnatural
4、distributions,arbitrarydensityandshapequicklyandaccurately,thepaperpresentanewclusteringalgorithm,thatis,theFastSearchClusteringAlgo—rithmbasedonAfinityPropagation.Utilizethetransmissioncharacteristicsamongthenearestneighbors,thealgorithmimplementthefullclusteringontargetdataset
5、.Bysimplifythecomputationandjudgeofthenearestneighborsamongthetraditionalalgorithms,andoptimizethesearchprocess,realizethefastclustering.Compareexperimentsresultwiththeotherrelatedworks;findthenewalgorithmhasthestrongadaptabilitytothenaturaldistributiondataset.Keywords:affinityp
6、ropagation;naturaldistribution;clusteringanalysis;datamining用,如矢量量化、文檔歸類(lèi)、模式識(shí)別、知識(shí)發(fā)0引言現(xiàn)、語(yǔ)音識(shí)別、故障檢測(cè)、web挖掘和數(shù)據(jù)挖掘等。聚類(lèi)是按照某個(gè)特定標(biāo)準(zhǔn)(一般為距離準(zhǔn)信息時(shí)代下社會(huì)生產(chǎn)活動(dòng)中所產(chǎn)生的各類(lèi)數(shù)則)把一個(gè)數(shù)據(jù)集分割成不同的類(lèi)或簇,使得類(lèi)據(jù)的規(guī)模急劇增加,研究人員在從海量的數(shù)據(jù)集內(nèi)相似性盡可能的大,同時(shí)類(lèi)問(wèn)的差異性也盡可合中提取有價(jià)值的信息時(shí)遇到了前所未有的挑能的大。針對(duì)不同特征的數(shù)據(jù)集合和不同的應(yīng)戰(zhàn)?。數(shù)據(jù)挖掘技術(shù)的快速發(fā)展和成熟,為研究用領(lǐng)域,聚類(lèi)分析任務(wù)
7、的側(cè)重方向不盡相同,如人員在各種復(fù)雜類(lèi)型的巨量數(shù)據(jù)集合中抽取潛在對(duì)密度形狀的適應(yīng)能力、噪音的檢測(cè)、邊界對(duì)象的、有用的、未知的知識(shí)提供了高效可行的方法的識(shí)別、聚類(lèi)個(gè)數(shù)的確定、聚類(lèi)結(jié)果的準(zhǔn)確度、和手段。聚類(lèi)分析作為一種最為重要的數(shù)據(jù)挖掘算法的優(yōu)化速度、高維數(shù)據(jù)的聚類(lèi)問(wèn)題等,現(xiàn)在分析的方法,在一些重要領(lǐng)域得到了廣泛的應(yīng)數(shù)據(jù)分析量越來(lái)越大,數(shù)據(jù)構(gòu)成越來(lái)越復(fù)雜,因此研究快速、有效的聚類(lèi)算法就成為聚類(lèi)研究的收稿日期:2012—04—18.重要方向之一?;痦?xiàng)目:河北省社會(huì)科學(xué)基金資助項(xiàng)目(HB12YJ064)聚類(lèi)可以簡(jiǎn)單的定義為相似對(duì)象的集合,但華北電力大學(xué)學(xué)報(bào)并
8、不存在統(tǒng)一的相似性度量方法,目前有許多聚存在必然的關(guān)聯(lián),近鄰之間的相似性或者消息是類(lèi)分析算法,