資源描述:
《基于MapReduce的頻繁項(xiàng)集挖掘算法研究-論文.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、技術(shù)與方法物流技術(shù)2015年第34卷4月刊(下半月)doi:lO.3969/j.issn.1005-152X.2015.04(2).047基于MapReduce的頻繁項(xiàng)集挖掘算法研究黃金晶’,葉施仁,何福男’(1.蘇州工業(yè)職業(yè)技術(shù)學(xué)院信息工程系,江蘇蘇州215104;2.常州大學(xué)信息科學(xué)與工程學(xué)院,江蘇常州213016)【摘要】將MapReduce運(yùn)用于關(guān)聯(lián)規(guī)則挖掘算法中,提出了一種改進(jìn)的頻繁項(xiàng)集挖掘算法。該算法以并行的方式工作,并且改變了頻繁項(xiàng)集挖掘的次序,從包含項(xiàng)數(shù)最多的頻繁項(xiàng)集開始挖掘,直到得到用戶希望的頻繁項(xiàng)集終止
2、,為用戶提供了交互性,與經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法Apfiori相比,運(yùn)行效率有大幅度的提高。【關(guān)鍵詞】數(shù)據(jù)挖掘;云計(jì)算;關(guān)聯(lián)規(guī)則;頻繁項(xiàng)集;MapReduce【中圖分類-~-]TP311.13[文獻(xiàn)標(biāo)i,qr~qlA【文獻(xiàn)編號(hào)】10o5—152X(2015)04(2)一0178—04ResearchonFrequentItemSetsMiningAlgorithmBasedonMapReduceHuangJinjing,YeShiren,HeFunan(1.DepartmentofInformationEngineering
3、,SuzhouInstituteofIndustrialTechnology,Suzhou215104;2.SchoolofInformationScience&Engineering,ChangzhouUniversity,Changzhou213016,China)Abstract:Inthispaper,duringtheuseofMapReduceintheassociationruleminingalgorithm,weproposedallimpmvedfrequentitemsetsminingalgorit
4、hmwhichworkedinaparallelwayandchangedthesequenceofminingfrequentitemsets.Startingfromthefrequentitemsetscontainingthemostitems,itworkeduntiltheuserwantedtostop.ComparedwiththeclassicalassociationruleminingalgorithmApriori,itgreat—lyimprovedtheeficiency.Keywords:da
5、tamining;Cloudcomputing;associationrule;frequentitemset;MapReduce一種改進(jìn)的、基于MapReduce的并行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算1引言法執(zhí)行工具包NIMBLE~。針對(duì)關(guān)聯(lián)規(guī)則挖掘,也出現(xiàn)了基于MapReduce的改進(jìn)算法,文獻(xiàn)[5]中詳細(xì)介紹了利用MapReduce關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的重要組成部分,它能找出數(shù)挖掘頻繁閉項(xiàng)集的方法,文獻(xiàn)【6】、[7】分別給出了算法并行化的據(jù)集中項(xiàng)之間的相關(guān)聯(lián)系,在金融、電子商務(wù)等領(lǐng)域都有廣泛改進(jìn)思想,不同程度地提高了原有關(guān)聯(lián)規(guī)
6、則挖掘算法的運(yùn)行的應(yīng)用,如決策制定、商品推薦服務(wù)等。在關(guān)聯(lián)規(guī)則挖掘的算效率。法中,Apfiofit”、FP-tree算法等都是經(jīng)典的算法。在大數(shù)量級(jí)的Apfiofi及其各種改進(jìn)算法都從頻繁1項(xiàng)集開始挖掘,直情況下,傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法的性能達(dá)不到要求,而并行分到挖出全部的頻繁項(xiàng)集,然而,有時(shí)人們更加關(guān)注那些包含項(xiàng)布式計(jì)算為處理大規(guī)模數(shù)據(jù)提供了可能。Apfiofi算法的目的個(gè)數(shù)較多的項(xiàng)集,而不是頻繁1一項(xiàng)集、頻繁2一項(xiàng)集。因而,本是挖掘頻繁項(xiàng)集,本文提出一種基于MapRedueet~31的改進(jìn)頻繁文給出了一種基于MapRed
7、uce的頻繁項(xiàng)集挖掘算法,改變了項(xiàng)集挖掘算法,提高了對(duì)海量數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的效率。頻繁項(xiàng)集產(chǎn)生的次序,從包含項(xiàng)集最多的頻繁項(xiàng)集開始逐層向下迭代,直至用戶想要的頻繁項(xiàng)集為止,為用戶提供了交互性。2相關(guān)研究工作3基于MapReduce的改進(jìn)頻繁項(xiàng)集挖掘算法隨著對(duì)云計(jì)算了解的深入,MapReduce編程模型被用于數(shù)據(jù)挖掘,越來越多的算法被改進(jìn)成能并行化處理的算法。如3.1MapReduce編程框架Ranger等提出了基于MapReduce的應(yīng)用程序編程接ElMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行Phoenix,
8、實(shí)現(xiàn)了K-Means等數(shù)據(jù)挖掘的算法。IBM研究院提出運(yùn)算,由Go0gle公司提出。利用MapReduce模型,程序員可以【收稿日期]2015一O1—29【基金項(xiàng)目】國家自然科學(xué)基金資助項(xiàng)目(61272367/F020511)【作者簡介】黃金晶,講師,主要研究方向:數(shù)據(jù)挖掘;葉施仁,副教授,博士;何福男