資源描述:
《基于隨機(jī)游走的數(shù)據(jù)聚類》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、HansJournalofDataMining數(shù)據(jù)挖掘,2017,7(3),70-76
PublishedOnlineJuly2017inHans.http://www.hanspub.org/journal/hjdm
https://doi.org/10.12677/hjdm.2017.73008DataClusteringBasedonRandomWalkWeiCui1,XunXia1,YuluSun2*1LuzhouVocationalandTechnicalCollege,LuzhouSichuan2Collegeo
2、fElectronic&InformationEngineering,SichuanUniversity,ChengduSichuanReceived:Jun.28th,2017;accepted:Jul.17th,2017;published:Jul.20th,2017AbstractInordertorealizetheclusteringanalysisoflargedatavolumeandcomplextypesofdata,the
randomwalkalgorithmmapsthedatasetintograp
3、hs,eachdatarepresentsnode,andusesa
weightingfunctiontorepresenttherelationshipbetweendataanddata.Thesimilaritycriterion
indicatestheweightbetweentwodatainthedataset.Intherandomwalkalgorithm,theweightof
theweightrepresentstherandomwalkerfromthenon-seedpointforthefir
4、sttimetoreacha
seedpointofpreference.Finally,clusteranalysisisrealizedaccordingtothemaximumtransition
probability.Theresultsshowthattherandomwalkalgorithmcanachieveclusteringintheclus-
teringanalysisofnumericaldata.KeywordsClusteringAnalysis,RandomWalkAlgorithm,Wei
5、ghtingFunction基于隨機(jī)游走的數(shù)據(jù)聚類崔偉1,夏汛1,孫瑜魯2*1瀘州職業(yè)技術(shù)學(xué)院,四川瀘州2四川大學(xué)電子信息學(xué)院,四川成都收稿日期:2017年6月28日;錄用日期:2017年7月17日;發(fā)布日期:2017年7月20日摘要為了實(shí)現(xiàn)大數(shù)據(jù)量、復(fù)雜類型數(shù)據(jù)的聚類分析,本文運(yùn)用隨機(jī)游走算法是將數(shù)據(jù)集合映射為圖,各個(gè)數(shù)
據(jù)表示節(jié)點(diǎn),用一個(gè)加權(quán)函數(shù)表示數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,該加權(quán)函數(shù)能根據(jù)相似性準(zhǔn)則表示數(shù)據(jù)集中*通訊作者。文章引用:崔偉,夏汛,孫瑜魯.基于隨機(jī)游走的數(shù)據(jù)聚類[J].數(shù)據(jù)挖掘,2017,7(3):70-76.
6、https://doi.org/10.12677/hjdm.2017.73008崔偉等兩個(gè)數(shù)據(jù)間的權(quán)重。在隨機(jī)游走算法中,權(quán)重的大小代表了隨機(jī)游走者從非種子點(diǎn)第一次到達(dá)某一種子
點(diǎn)的偏好。最后根據(jù)最大轉(zhuǎn)移概率實(shí)現(xiàn)聚類分析。結(jié)果表明隨機(jī)游走算法在數(shù)值型數(shù)據(jù)的聚類分析中能夠?qū)崿F(xiàn)聚類。關(guān)鍵詞聚類分析,隨機(jī)游走,權(quán)重函數(shù)Copyright?2017byauthorsandHansPublishersInc.ThisworkislicensedundertheCreativeCommonsAttributionInternationa
7、lLicense(CCBY).
http://creativecommons.org/licenses/by/4.0/OpenAccess1.引言聚類是按照某個(gè)特定準(zhǔn)則把已知數(shù)據(jù)集分成不同的類,同類的數(shù)據(jù)對(duì)象間相似度盡可能大,不同類的數(shù)據(jù)對(duì)象間的相似度盡可能小。聚類分析作為數(shù)據(jù)挖掘技術(shù)中的重要組成部分,目前在許多領(lǐng)域都得到了廣泛的研究和應(yīng)用如模式識(shí)別[1]、數(shù)據(jù)分析[2]、圖像處理[3]、市場(chǎng)研究[4]、Web文檔分類[5]等。聚類算法的選擇取決于數(shù)據(jù)的類型及其聚類的目的。根據(jù)其基本思想可分為劃分、層次、密度、基于網(wǎng)格的方法
8、以及基于模型的方法?;趧澐值闹饕枷胧牵菏紫冉o定簇?cái)?shù)目,然后對(duì)數(shù)據(jù)集采用迭代重定位方法實(shí)現(xiàn)劃分,劃分質(zhì)量取決于初始種子和聚類標(biāo)準(zhǔn)。K-means算法[6]從數(shù)據(jù)集中任意選擇k個(gè)對(duì)象作為初始種子,以最短距離為準(zhǔn)則將數(shù)據(jù)進(jìn)行分類,該方法以均值表示類中心易受奇異數(shù)據(jù)的影響,為了抑制異常數(shù)據(jù)對(duì)聚