基于隨機(jī)游走的數(shù)據(jù)聚類

基于隨機(jī)游走的數(shù)據(jù)聚類

ID:27731789

大小:1.14 MB

頁(yè)數(shù):9頁(yè)

時(shí)間:2018-12-05

基于隨機(jī)游走的數(shù)據(jù)聚類_第1頁(yè)
基于隨機(jī)游走的數(shù)據(jù)聚類_第2頁(yè)
基于隨機(jī)游走的數(shù)據(jù)聚類_第3頁(yè)
基于隨機(jī)游走的數(shù)據(jù)聚類_第4頁(yè)
基于隨機(jī)游走的數(shù)據(jù)聚類_第5頁(yè)
資源描述:

《基于隨機(jī)游走的數(shù)據(jù)聚類》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、HansJournalofDataMining數(shù)據(jù)挖掘,2017,7(3),70-76 PublishedOnlineJuly2017inHans.http://www.hanspub.org/journal/hjdm https://doi.org/10.12677/hjdm.2017.73008DataClusteringBasedonRandomWalkWeiCui1,XunXia1,YuluSun2*1LuzhouVocationalandTechnicalCollege,LuzhouSichuan2Collegeo

2、fElectronic&InformationEngineering,SichuanUniversity,ChengduSichuanReceived:Jun.28th,2017;accepted:Jul.17th,2017;published:Jul.20th,2017AbstractInordertorealizetheclusteringanalysisoflargedatavolumeandcomplextypesofdata,the randomwalkalgorithmmapsthedatasetintograp

3、hs,eachdatarepresentsnode,andusesa weightingfunctiontorepresenttherelationshipbetweendataanddata.Thesimilaritycriterion indicatestheweightbetweentwodatainthedataset.Intherandomwalkalgorithm,theweightof theweightrepresentstherandomwalkerfromthenon-seedpointforthefir

4、sttimetoreacha seedpointofpreference.Finally,clusteranalysisisrealizedaccordingtothemaximumtransition probability.Theresultsshowthattherandomwalkalgorithmcanachieveclusteringintheclus- teringanalysisofnumericaldata.KeywordsClusteringAnalysis,RandomWalkAlgorithm,Wei

5、ghtingFunction基于隨機(jī)游走的數(shù)據(jù)聚類崔偉1,夏汛1,孫瑜魯2*1瀘州職業(yè)技術(shù)學(xué)院,四川瀘州2四川大學(xué)電子信息學(xué)院,四川成都收稿日期:2017年6月28日;錄用日期:2017年7月17日;發(fā)布日期:2017年7月20日摘要為了實(shí)現(xiàn)大數(shù)據(jù)量、復(fù)雜類型數(shù)據(jù)的聚類分析,本文運(yùn)用隨機(jī)游走算法是將數(shù)據(jù)集合映射為圖,各個(gè)數(shù) 據(jù)表示節(jié)點(diǎn),用一個(gè)加權(quán)函數(shù)表示數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,該加權(quán)函數(shù)能根據(jù)相似性準(zhǔn)則表示數(shù)據(jù)集中*通訊作者。文章引用:崔偉,夏汛,孫瑜魯.基于隨機(jī)游走的數(shù)據(jù)聚類[J].數(shù)據(jù)挖掘,2017,7(3):70-76.

6、https://doi.org/10.12677/hjdm.2017.73008崔偉等兩個(gè)數(shù)據(jù)間的權(quán)重。在隨機(jī)游走算法中,權(quán)重的大小代表了隨機(jī)游走者從非種子點(diǎn)第一次到達(dá)某一種子 點(diǎn)的偏好。最后根據(jù)最大轉(zhuǎn)移概率實(shí)現(xiàn)聚類分析。結(jié)果表明隨機(jī)游走算法在數(shù)值型數(shù)據(jù)的聚類分析中能夠?qū)崿F(xiàn)聚類。關(guān)鍵詞聚類分析,隨機(jī)游走,權(quán)重函數(shù)Copyright?2017byauthorsandHansPublishersInc.ThisworkislicensedundertheCreativeCommonsAttributionInternationa

7、lLicense(CCBY). http://creativecommons.org/licenses/by/4.0/OpenAccess1.引言聚類是按照某個(gè)特定準(zhǔn)則把已知數(shù)據(jù)集分成不同的類,同類的數(shù)據(jù)對(duì)象間相似度盡可能大,不同類的數(shù)據(jù)對(duì)象間的相似度盡可能小。聚類分析作為數(shù)據(jù)挖掘技術(shù)中的重要組成部分,目前在許多領(lǐng)域都得到了廣泛的研究和應(yīng)用如模式識(shí)別[1]、數(shù)據(jù)分析[2]、圖像處理[3]、市場(chǎng)研究[4]、Web文檔分類[5]等。聚類算法的選擇取決于數(shù)據(jù)的類型及其聚類的目的。根據(jù)其基本思想可分為劃分、層次、密度、基于網(wǎng)格的方法

8、以及基于模型的方法?;趧澐值闹饕枷胧牵菏紫冉o定簇?cái)?shù)目,然后對(duì)數(shù)據(jù)集采用迭代重定位方法實(shí)現(xiàn)劃分,劃分質(zhì)量取決于初始種子和聚類標(biāo)準(zhǔn)。K-means算法[6]從數(shù)據(jù)集中任意選擇k個(gè)對(duì)象作為初始種子,以最短距離為準(zhǔn)則將數(shù)據(jù)進(jìn)行分類,該方法以均值表示類中心易受奇異數(shù)據(jù)的影響,為了抑制異常數(shù)據(jù)對(duì)聚

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。