資源描述:
《基于MapReduce的并行關(guān)聯(lián)規(guī)則算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號!毆窆!.9重慶郵電大學(xué)碩士學(xué)位論文英文題目—Re—searchonAlgorithmsofParallelAssociation——麴!曼墨旦魚盟魚Q墜叢鯉壁血曼星叢Q蟲!碩士研究生至焦指導(dǎo)教師揚夏到熬撞學(xué)科專業(yè)鹽簋扭技盔論文提交日期2Q量3=壘=2亟論文答辯日期2Q量3=5=2亙論文評閱人答辯委員會主席——至乒≥影事j璽潿透二—————一2013年5月獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得重廢由&電太堂或其他教育機構(gòu)的學(xué)
2、位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名:簽字日期:≯,>年f月沖日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解重廢由&魚太堂有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)重速由g魚態(tài)堂可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后適用本授權(quán)書)學(xué)讎文儲虢諱簽字日期:矽,弓年r月珥日翩虢柏易?期m-/妙月邛1重慶郵電火學(xué)碩+論文摘要摘要關(guān)聯(lián)規(guī)則挖掘是數(shù)
3、據(jù)挖掘領(lǐng)域中一個十分重要的研究課題,在各個領(lǐng)域中都有很廣泛的應(yīng)用。如何正確地挖掘并使用關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的重要任務(wù),因此,對關(guān)聯(lián)規(guī)則的研究具有重要的理論和現(xiàn)實意義。然而,隨著信息技術(shù)的發(fā)展,特別是互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)積累呈現(xiàn)出指數(shù)級的增長趨勢,如何從海量數(shù)據(jù)中挖掘出有用的信息和知識是亟待解決的問題。因此,對并行的關(guān)聯(lián)規(guī)則算法研究有重大價值。本文針對海量數(shù)據(jù)的數(shù)據(jù)挖掘問題,以MapReduce并行編程模型和關(guān)聯(lián)規(guī)則理論為基礎(chǔ),對并行關(guān)聯(lián)規(guī)則算法進行研究,提出基于MapReduce的并行PrunedFP.tree算法和并行Apriori算法。并基于Hadoop平臺,設(shè)計和實現(xiàn)了一個
4、海量數(shù)據(jù)挖掘原型系統(tǒng),取得的研究成果具體如下:(1)針對FP.Growth算法在挖掘FP.tree中存在特殊的單路徑項集問題,提出PrunedFP.tree算法。該算法首先提出一個FP.tree的剪枝策略,可以減少部分分支的迭代次數(shù),提高了下一步條件FP.tree建立和挖掘的效率,并得到精確的條件模式基。然后采用MapReduce并行編程模型,提出基于MapReduce的并行PrunedFP.tree算法。該算法不僅可以提高挖掘效率,而且有效解決了在進行海量數(shù)據(jù)挖掘時傳統(tǒng)方法造成內(nèi)存不足的問題。仿真實驗表明該算法在處理大數(shù)據(jù)時,有良好的性能。(2)針對經(jīng)典Apriori算法對PC
5、機內(nèi)存要求很高的缺點,提出基于MapReduce的并行Apriori算法。該算法在Apriori算法的基礎(chǔ)上,結(jié)合MapReduce的并行思想分析了Apriori算法的頻繁模式挖掘過程,最后把Apriori算法各個步驟并行化。并通過仿真實驗,驗證了該算法對大規(guī)模數(shù)據(jù)的高效處理能力。(3)基于Hadoop開源平臺,設(shè)計一個海量數(shù)據(jù)挖掘的原型系統(tǒng)。系統(tǒng)基于B/S架構(gòu)實現(xiàn)了海量數(shù)據(jù)并行關(guān)聯(lián)規(guī)則挖掘等功能,并具有良好的可擴展性。關(guān)鍵詞:Hadoop,MapReduce,F(xiàn)P—Growth,Apriori,數(shù)據(jù)挖掘,關(guān)聯(lián)規(guī)則里壅墮皇奎蘭堡±笙奎—————————————二堅Abstract
6、Associationruleminingplaysanimportantroleinthefieldofdatamlnmg,whlchiswidelvusedinv撕ousfields.Howtomineanduseassociationrulesproperly1sanimpoIrt觚tt礎(chǔ)ofdatamining.Thereisaveryimportanttheoretical肌dpractlcalsignificallceforresearchonassociationrules.However,withthedevelop眥ntoti疵rnlationtechnolog
7、y,especially,withtherapiddevelopmentofInteract,there1satrendthatitisanexponentialgrowthfordata.Howtomineusefulinformation鋤dknowledge矗ommassivedataisanurgentproblem.Therefore,itisagreatslgniticaIlceforthestudyonparallelassociationrulesalgorith