資源描述:
《分布式集群環(huán)境下基于并行計(jì)算的圖聚類信息高效處理方案.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、計(jì)算機(jī)應(yīng)用《自動(dòng)化技術(shù)與應(yīng)用》2016年第35卷第3期ComputerApplications分布式集群環(huán)境下基于并行計(jì)算的圖聚類信息高效處理方案★張博(長沙師范學(xué)院電子與信息工程系,湖南長沙410100)摘要:針對(duì)人工智能領(lǐng)域圖聚類數(shù)據(jù)分析與處理能力無法適應(yīng)于日益復(fù)雜的分布式集群環(huán)境等問題,提出一種基于并行計(jì)算的高效率圖聚類信息處理方案。在分布式集群計(jì)算環(huán)境下對(duì)超大規(guī)模、超大區(qū)域范圍圖數(shù)據(jù)信息的稀疏化分析與處理機(jī)制上,通過對(duì)Minhash算法以MapReduce架構(gòu)理論進(jìn)行改進(jìn),使其實(shí)現(xiàn)對(duì)數(shù)據(jù)的并行化分析處理,確保
2、能夠在日益復(fù)雜的分布式集群計(jì)算環(huán)境下高效處理圖聚類數(shù)據(jù)信息。實(shí)驗(yàn)表明,改進(jìn)方案不僅可行,而且能夠?qū)D聚類數(shù)據(jù)信息進(jìn)行快速稀疏化處理,具有一定的高效性。關(guān)鍵詞:人工智能;數(shù)據(jù)挖掘;映射規(guī)約;圖聚類;最小哈希算法中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1o03—7241(2016)03—0029-08EficientGraphClusteringInformationProcessingScheme‘BasedOnDistributedClusterEnvironmentZHANGBo(ElectronicandI
3、nformationEngineering,ChangshaNormalUniversity,Changsha410100China)Abstract:Inordertotheproblemaboutgraphclusteringdataanalysisabilitycan’tadapttotheincreasinglycomplexdistributedclusterenvironmentinartificialintelligence,thisschemedesignesaneficientsparsificat
4、ionalgorithmbasedonparallel’computing.ThisalgorithmanalyzesandimprovesMinhashalgorithmbasedonMapReduceframeworktheory,andeficientlyprocessesandanalyzesthegraphclusteringdatainformationintheincreasinglycomplexdistributedclusterenvironment.Experimentshowesthatthe
5、algorithmnotonlyisfeasible,butalsocanquicklyprocessgraphclusteringsparsedata,andithasahigheficiency.Keywords:artificialintelligence;datamining;MapReduce;graphclustering;Minhash1引言伴隨信息技術(shù)和網(wǎng)絡(luò)的日益發(fā)展,尤其是Web3.0網(wǎng)絡(luò)網(wǎng)絡(luò)交互體系變得越來越復(fù)雜,將其建模成圖模型的問世,各種虛擬網(wǎng)絡(luò)應(yīng)用產(chǎn)品在實(shí)踐中得到普及,例是其必然的趨勢I1】
6、。在這種圖模型里面,各結(jié)點(diǎn)主要用如微博等,其圖數(shù)據(jù)信息的處理量不斷增加,形成了海來描述對(duì)象實(shí)體,而各邊主要是描述對(duì)象實(shí)體的關(guān)系。量圖數(shù)據(jù)信息,從而使圖數(shù)據(jù)挖掘與分析應(yīng)用能力面臨例如社交網(wǎng)絡(luò)體系即屬于無向圖模型結(jié)構(gòu)的范疇,各結(jié)一系列非常嚴(yán)峻的挑戰(zhàn)[3-5]0點(diǎn)所指代的內(nèi)容為社交個(gè)體或群體,各邊指代社交個(gè)體作為圖數(shù)據(jù)挖掘與分析應(yīng)用的重要作用之一,圖聚或者群體間的關(guān)聯(lián),主要包括朋友、同事等拉J?,F(xiàn)階段,類主要根據(jù)聚簇對(duì)圖模型中的各結(jié)點(diǎn)實(shí)施分類操作,同時(shí)增加同類聚簇圖結(jié)點(diǎn)對(duì)象實(shí)體的關(guān)聯(lián)性,減小異類的關(guān)聯(lián)性?,F(xiàn)階段,圖聚類在實(shí)
7、踐中已經(jīng)普及,如交通運(yùn)·基金項(xiàng)目:湖南省自然科學(xué)基金項(xiàng)目(2015JJ6007)、湖南省教育廳輸規(guī)劃分析等。因此,伴隨各種超大規(guī)模圖數(shù)據(jù)信息與科學(xué)研究項(xiàng)目(13C1070)收稿日期:2015-03-19處理機(jī)制的問世,怎樣科學(xué)合理的進(jìn)行圖聚類分析與處《自動(dòng)化技術(shù)與應(yīng)用》2016年第35卷第3期計(jì)算機(jī)應(yīng)用ComputerApplications理,在此基礎(chǔ)上,對(duì)其中潛在的有效數(shù)據(jù)進(jìn)行挖掘,已信息逐漸增大,單一的計(jì)算環(huán)境無法充分適用數(shù)據(jù)分析經(jīng)發(fā)展成為該領(lǐng)域的一個(gè)重要課題J。數(shù)據(jù)抽樣屬于與處理,同時(shí)導(dǎo)致圖稀疏化處理機(jī)制不能
8、發(fā)揮作用。分其中非常有效的一個(gè)方式。其大致步驟為:抽取整體數(shù)布式框架理論體系是在超大規(guī)模、超大區(qū)域范圍的數(shù)據(jù)據(jù)集合里面的局部樣本,利用這種方式實(shí)施數(shù)據(jù)挖掘處集合分析與處理機(jī)制中應(yīng)用。作為并行計(jì)算的一個(gè)重要理與分析,旨在實(shí)現(xiàn)時(shí)間和挖掘處理結(jié)果的高性能比。架構(gòu),MapReduce能夠使相關(guān)人員在并行編程過程中,在分析過程中,應(yīng)當(dāng)先依次對(duì)圖模型里面包