資源描述:
《基于MapReduce的并行關聯(lián)規(guī)則算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、分類號!毆窆!.9重慶郵電大學碩士學位論文英文題目—Re—searchonAlgorithmsofParallelAssociation——麴!曼墨旦魚盟魚Q墜叢鯉壁血曼星叢Q蟲!碩士研究生至焦指導教師揚夏到熬撞學科專業(yè)鹽簋扭技盔論文提交日期2Q量3=壘=2亟論文答辯日期2Q量3=5=2亙論文評閱人答辯委員會主席——至乒≥影事j璽潿透二—————一2013年5月獨創(chuàng)性聲明本人聲明所呈交的學位論文是本人在導師指導下進行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經發(fā)表或撰寫過的研究成果,也不包含為獲得重廢由&電太堂或其他教育機構的學
2、位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示謝意。學位論文作者簽名:簽字日期:≯,>年f月沖日學位論文版權使用授權書本學位論文作者完全了解重廢由&魚太堂有關保留、使用學位論文的規(guī)定,有權保留并向國家有關部門或機構送交論文的復印件和磁盤,允許論文被查閱和借閱。本人授權重速由g魚態(tài)堂可以將學位論文的全部或部分內容編入有關數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存、匯編學位論文。(保密的學位論文在解密后適用本授權書)學讎文儲虢諱簽字日期:矽,弓年r月珥日翩虢柏易?期m-/妙月邛1重慶郵電火學碩+論文摘要摘要關聯(lián)規(guī)則挖掘是數(shù)
3、據(jù)挖掘領域中一個十分重要的研究課題,在各個領域中都有很廣泛的應用。如何正確地挖掘并使用關聯(lián)規(guī)則是數(shù)據(jù)挖掘的重要任務,因此,對關聯(lián)規(guī)則的研究具有重要的理論和現(xiàn)實意義。然而,隨著信息技術的發(fā)展,特別是互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)積累呈現(xiàn)出指數(shù)級的增長趨勢,如何從海量數(shù)據(jù)中挖掘出有用的信息和知識是亟待解決的問題。因此,對并行的關聯(lián)規(guī)則算法研究有重大價值。本文針對海量數(shù)據(jù)的數(shù)據(jù)挖掘問題,以MapReduce并行編程模型和關聯(lián)規(guī)則理論為基礎,對并行關聯(lián)規(guī)則算法進行研究,提出基于MapReduce的并行PrunedFP.tree算法和并行Apriori算法。并基于Hadoop平臺,設計和實現(xiàn)了一個
4、海量數(shù)據(jù)挖掘原型系統(tǒng),取得的研究成果具體如下:(1)針對FP.Growth算法在挖掘FP.tree中存在特殊的單路徑項集問題,提出PrunedFP.tree算法。該算法首先提出一個FP.tree的剪枝策略,可以減少部分分支的迭代次數(shù),提高了下一步條件FP.tree建立和挖掘的效率,并得到精確的條件模式基。然后采用MapReduce并行編程模型,提出基于MapReduce的并行PrunedFP.tree算法。該算法不僅可以提高挖掘效率,而且有效解決了在進行海量數(shù)據(jù)挖掘時傳統(tǒng)方法造成內存不足的問題。仿真實驗表明該算法在處理大數(shù)據(jù)時,有良好的性能。(2)針對經典Apriori算法對PC
5、機內存要求很高的缺點,提出基于MapReduce的并行Apriori算法。該算法在Apriori算法的基礎上,結合MapReduce的并行思想分析了Apriori算法的頻繁模式挖掘過程,最后把Apriori算法各個步驟并行化。并通過仿真實驗,驗證了該算法對大規(guī)模數(shù)據(jù)的高效處理能力。(3)基于Hadoop開源平臺,設計一個海量數(shù)據(jù)挖掘的原型系統(tǒng)。系統(tǒng)基于B/S架構實現(xiàn)了海量數(shù)據(jù)并行關聯(lián)規(guī)則挖掘等功能,并具有良好的可擴展性。關鍵詞:Hadoop,MapReduce,F(xiàn)P—Growth,Apriori,數(shù)據(jù)挖掘,關聯(lián)規(guī)則里壅墮皇奎蘭堡±笙奎—————————————二堅Abstract
6、Associationruleminingplaysanimportantroleinthefieldofdatamlnmg,whlchiswidelvusedinv撕ousfields.Howtomineanduseassociationrulesproperly1sanimpoIrt觚tt礎ofdatamining.Thereisaveryimportanttheoretical肌dpractlcalsignificallceforresearchonassociationrules.However,withthedevelop眥ntoti疵rnlationtechnolog
7、y,especially,withtherapiddevelopmentofInteract,there1satrendthatitisanexponentialgrowthfordata.Howtomineusefulinformation鋤dknowledge矗ommassivedataisanurgentproblem.Therefore,itisagreatslgniticaIlceforthestudyonparallelassociationrulesalgorith