資源描述:
《基于隨機游走的數(shù)據(jù)聚類》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、HansJournalofDataMining數(shù)據(jù)挖掘,2017,7(3),70-76
PublishedOnlineJuly2017inHans.http://www.hanspub.org/journal/hjdm
https://doi.org/10.12677/hjdm.2017.73008DataClusteringBasedonRandomWalkWeiCui1,XunXia1,YuluSun2*1LuzhouVocationalandTechnicalCollege,LuzhouSichuan2Collegeo
2、fElectronic&InformationEngineering,SichuanUniversity,ChengduSichuanReceived:Jun.28th,2017;accepted:Jul.17th,2017;published:Jul.20th,2017AbstractInordertorealizetheclusteringanalysisoflargedatavolumeandcomplextypesofdata,the
randomwalkalgorithmmapsthedatasetintograp
3、hs,eachdatarepresentsnode,andusesa
weightingfunctiontorepresenttherelationshipbetweendataanddata.Thesimilaritycriterion
indicatestheweightbetweentwodatainthedataset.Intherandomwalkalgorithm,theweightof
theweightrepresentstherandomwalkerfromthenon-seedpointforthefir
4、sttimetoreacha
seedpointofpreference.Finally,clusteranalysisisrealizedaccordingtothemaximumtransition
probability.Theresultsshowthattherandomwalkalgorithmcanachieveclusteringintheclus-
teringanalysisofnumericaldata.KeywordsClusteringAnalysis,RandomWalkAlgorithm,Wei
5、ghtingFunction基于隨機游走的數(shù)據(jù)聚類崔偉1,夏汛1,孫瑜魯2*1瀘州職業(yè)技術(shù)學院,四川瀘州2四川大學電子信息學院,四川成都收稿日期:2017年6月28日;錄用日期:2017年7月17日;發(fā)布日期:2017年7月20日摘要為了實現(xiàn)大數(shù)據(jù)量、復(fù)雜類型數(shù)據(jù)的聚類分析,本文運用隨機游走算法是將數(shù)據(jù)集合映射為圖,各個數(shù)
據(jù)表示節(jié)點,用一個加權(quán)函數(shù)表示數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,該加權(quán)函數(shù)能根據(jù)相似性準則表示數(shù)據(jù)集中*通訊作者。文章引用:崔偉,夏汛,孫瑜魯.基于隨機游走的數(shù)據(jù)聚類[J].數(shù)據(jù)挖掘,2017,7(3):70-76.
6、https://doi.org/10.12677/hjdm.2017.73008崔偉等兩個數(shù)據(jù)間的權(quán)重。在隨機游走算法中,權(quán)重的大小代表了隨機游走者從非種子點第一次到達某一種子
點的偏好。最后根據(jù)最大轉(zhuǎn)移概率實現(xiàn)聚類分析。結(jié)果表明隨機游走算法在數(shù)值型數(shù)據(jù)的聚類分析中能夠?qū)崿F(xiàn)聚類。關(guān)鍵詞聚類分析,隨機游走,權(quán)重函數(shù)Copyright?2017byauthorsandHansPublishersInc.ThisworkislicensedundertheCreativeCommonsAttributionInternationa
7、lLicense(CCBY).
http://creativecommons.org/licenses/by/4.0/OpenAccess1.引言聚類是按照某個特定準則把已知數(shù)據(jù)集分成不同的類,同類的數(shù)據(jù)對象間相似度盡可能大,不同類的數(shù)據(jù)對象間的相似度盡可能小。聚類分析作為數(shù)據(jù)挖掘技術(shù)中的重要組成部分,目前在許多領(lǐng)域都得到了廣泛的研究和應(yīng)用如模式識別[1]、數(shù)據(jù)分析[2]、圖像處理[3]、市場研究[4]、Web文檔分類[5]等。聚類算法的選擇取決于數(shù)據(jù)的類型及其聚類的目的。根據(jù)其基本思想可分為劃分、層次、密度、基于網(wǎng)格的方法
8、以及基于模型的方法。基于劃分的主要思想是:首先給定簇數(shù)目,然后對數(shù)據(jù)集采用迭代重定位方法實現(xiàn)劃分,劃分質(zhì)量取決于初始種子和聚類標準。K-means算法[6]從數(shù)據(jù)集中任意選擇k個對象作為初始種子,以最短距離為準則將數(shù)據(jù)進行分類,該方法以均值表示類中心易受奇異數(shù)據(jù)的影響,為了抑制異常數(shù)據(jù)對聚