資源描述:
《基于cluster結(jié)構(gòu)的并行關(guān)聯(lián)規(guī)則挖掘算法研究和實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、華中科技大學碩士學位論文基于Cluster結(jié)構(gòu)的并行關(guān)聯(lián)規(guī)則挖掘算法研究和實現(xiàn)姓名:周建紅申請學位級別:碩士專業(yè):計算機應用技術(shù)指導教師:李慶華2002.5.10華中科技大學碩士學位論文摘要(數(shù)據(jù)挖掘中的一個重要問題是關(guān)聯(lián)規(guī)則挖掘。由于進行挖掘的數(shù)據(jù)庫規(guī)模都是極其龐大的,而且以更快的速度在增長,因此迫切需要設(shè)計高效和可擴展算法來進行關(guān)聯(lián)規(guī)則挖掘。并行化成為了解決現(xiàn)有關(guān)聯(lián)規(guī)則挖掘方法串行瓶頸問題、提供可擴展的數(shù)據(jù)規(guī)模和改進響應時間的一個有效途徑。/川數(shù)據(jù)庫挖掘與并行處理技術(shù)互相滲透、互相結(jié)合,成為數(shù)據(jù)
2、挖掘發(fā)展的重要特征,也是并行處理技術(shù)應用發(fā)展的一個重要方面。將并行處理技術(shù)與關(guān)聯(lián)規(guī)則挖掘技術(shù)相結(jié)合,在研究了Cluster結(jié)構(gòu)上的并行關(guān)聯(lián)規(guī)則挖掘算法基礎(chǔ)上,設(shè)計了PHR算法(ParalleHybridRecollectionAlgorithm)和PHR.G算法(ParalleHybridRecollection.GlobalAlgorithm)兩個并行關(guān)聯(lián)規(guī)則挖掘算法,并在曙光3000進行設(shè)計實現(xiàn)和性能分析。PHR算法和PHR-G算法是基于Cluster體系結(jié)構(gòu)設(shè)計的關(guān)聯(lián)規(guī)則挖掘算法。算法采用了混
3、合數(shù)據(jù)分布模式,有效地發(fā)揮了垂直和水平兩種數(shù)據(jù)分布方式在不同迭代中效率;算法使用一定方法,通過記憶在“l(fā)迭代后產(chǎn)生的全局信息,使k迭代中使用已載的全局信息,從而更高效地進行候選集操作和全局修剪,生成更小的候選集,減小消息傳遞量;PHR-G算法還按頻繁集的等價類進行數(shù)據(jù)重劃分,以利用數(shù)據(jù)垂直分布的本地計算性進行異步計算,消除了同步費用,提高算法的并行效率:在PHR—G算法的動態(tài)負載平衡策略中,實現(xiàn)在k>3的迭代中大顆粒負載平衡;并對算法進行了相關(guān)性能分析。關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Cluster結(jié)構(gòu)
4、;數(shù)據(jù)分布;數(shù)據(jù)劃分;負載平衡華中科技大學碩士學位論文AbstractAnimportantproblemofDataMining(DM)isAssociationRulesMining(ARM).ThedatabasesinvolvedinDMareverylarge.Whatmore,thesizeofthedatabaseswillgrowatfullspeed.Therefore,itisimperativetodesignefficientandscalablealgorithmstomi
5、neassociationrulesParallelismiSasolutiontOrelievecurrentARMme血odsfromthesequentialbottleneck.tOprovidescalabilitytOmassivedatabaseandtoimproveresponsetime.ThecombinationoftheparallelprocessingtechniqueandDMtechniquebecomesnotonlyamaincharacteristicofDM
6、technologybutalsoamaindirecfionofapplicationdevelopmentinparallelprocessingtechnology.BycombiningparallelprocessingtechniquewithDMtechnique,ParallelAssociationRules(PARM)MiningisdiscussedbasedonClusterarchitecture.TowPARMalgorithms?一ParallelIq[ybridRec
7、ollectionAlgorithm(PHR)andParallelHybridRecollection·GlobalAlgorithm(PHR—G)aredesigned.ThetWOalgorithmsareimplementedandanalyzedbasedonparallelprogrammingenvironmentinDawning3000.PHRalgorithmandPHR—GalgorithmaredesignedforClustersystem,whichisashared—n
8、othingarchitecture.Algorithmsusehybridlayoutpattern.ThehybridlayoutCantakeadvantageofthemeritofthehorizontaldatalayoutandverticaldatalayoutindifferentpasses.ArecollectionmethodisusedinPHRalgorithmandPHR-Galgorithm,whichrecordstheglobali