基于隨機游走的數(shù)據(jù)聚類

基于隨機游走的數(shù)據(jù)聚類

ID:27731789

大?。?.14 MB

頁數(shù):9頁

時間:2018-12-05

基于隨機游走的數(shù)據(jù)聚類_第1頁
基于隨機游走的數(shù)據(jù)聚類_第2頁
基于隨機游走的數(shù)據(jù)聚類_第3頁
基于隨機游走的數(shù)據(jù)聚類_第4頁
基于隨機游走的數(shù)據(jù)聚類_第5頁
資源描述:

《基于隨機游走的數(shù)據(jù)聚類》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、HansJournalofDataMining數(shù)據(jù)挖掘,2017,7(3),70-76 PublishedOnlineJuly2017inHans.http://www.hanspub.org/journal/hjdm https://doi.org/10.12677/hjdm.2017.73008DataClusteringBasedonRandomWalkWeiCui1,XunXia1,YuluSun2*1LuzhouVocationalandTechnicalCollege,LuzhouSichuan2Collegeo

2、fElectronic&InformationEngineering,SichuanUniversity,ChengduSichuanReceived:Jun.28th,2017;accepted:Jul.17th,2017;published:Jul.20th,2017AbstractInordertorealizetheclusteringanalysisoflargedatavolumeandcomplextypesofdata,the randomwalkalgorithmmapsthedatasetintograp

3、hs,eachdatarepresentsnode,andusesa weightingfunctiontorepresenttherelationshipbetweendataanddata.Thesimilaritycriterion indicatestheweightbetweentwodatainthedataset.Intherandomwalkalgorithm,theweightof theweightrepresentstherandomwalkerfromthenon-seedpointforthefir

4、sttimetoreacha seedpointofpreference.Finally,clusteranalysisisrealizedaccordingtothemaximumtransition probability.Theresultsshowthattherandomwalkalgorithmcanachieveclusteringintheclus- teringanalysisofnumericaldata.KeywordsClusteringAnalysis,RandomWalkAlgorithm,Wei

5、ghtingFunction基于隨機游走的數(shù)據(jù)聚類崔偉1,夏汛1,孫瑜魯2*1瀘州職業(yè)技術(shù)學院,四川瀘州2四川大學電子信息學院,四川成都收稿日期:2017年6月28日;錄用日期:2017年7月17日;發(fā)布日期:2017年7月20日摘要為了實現(xiàn)大數(shù)據(jù)量、復(fù)雜類型數(shù)據(jù)的聚類分析,本文運用隨機游走算法是將數(shù)據(jù)集合映射為圖,各個數(shù) 據(jù)表示節(jié)點,用一個加權(quán)函數(shù)表示數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,該加權(quán)函數(shù)能根據(jù)相似性準則表示數(shù)據(jù)集中*通訊作者。文章引用:崔偉,夏汛,孫瑜魯.基于隨機游走的數(shù)據(jù)聚類[J].數(shù)據(jù)挖掘,2017,7(3):70-76.

6、https://doi.org/10.12677/hjdm.2017.73008崔偉等兩個數(shù)據(jù)間的權(quán)重。在隨機游走算法中,權(quán)重的大小代表了隨機游走者從非種子點第一次到達某一種子 點的偏好。最后根據(jù)最大轉(zhuǎn)移概率實現(xiàn)聚類分析。結(jié)果表明隨機游走算法在數(shù)值型數(shù)據(jù)的聚類分析中能夠?qū)崿F(xiàn)聚類。關(guān)鍵詞聚類分析,隨機游走,權(quán)重函數(shù)Copyright?2017byauthorsandHansPublishersInc.ThisworkislicensedundertheCreativeCommonsAttributionInternationa

7、lLicense(CCBY). http://creativecommons.org/licenses/by/4.0/OpenAccess1.引言聚類是按照某個特定準則把已知數(shù)據(jù)集分成不同的類,同類的數(shù)據(jù)對象間相似度盡可能大,不同類的數(shù)據(jù)對象間的相似度盡可能小。聚類分析作為數(shù)據(jù)挖掘技術(shù)中的重要組成部分,目前在許多領(lǐng)域都得到了廣泛的研究和應(yīng)用如模式識別[1]、數(shù)據(jù)分析[2]、圖像處理[3]、市場研究[4]、Web文檔分類[5]等。聚類算法的選擇取決于數(shù)據(jù)的類型及其聚類的目的。根據(jù)其基本思想可分為劃分、層次、密度、基于網(wǎng)格的方法

8、以及基于模型的方法。基于劃分的主要思想是:首先給定簇數(shù)目,然后對數(shù)據(jù)集采用迭代重定位方法實現(xiàn)劃分,劃分質(zhì)量取決于初始種子和聚類標準。K-means算法[6]從數(shù)據(jù)集中任意選擇k個對象作為初始種子,以最短距離為準則將數(shù)據(jù)進行分類,該方法以均值表示類中心易受奇異數(shù)據(jù)的影響,為了抑制異常數(shù)據(jù)對聚

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。