資源描述:
《關聯規(guī)則挖掘的并行化算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、學校代碼:10286blTST)-)‘八.產P3,分類號11:T.^’;—、一.L?、密級:公巧UDC:0041學號:31536’'".-,分.一1.,‘,雨甲朽麻-W..索魚雄大令舊工程碩±學位論文關聯規(guī)則挖掘的并行化算法研究學位論文形式:應用研究)研究生姓名:劉魯勇導師姓名:姜浩李國鋒由譜舉仿類神I專業(yè)碩±學位學化授予單位東南大學2016年S月31日T賴飾誠名稱計算軌技術論義答辯日期_2016年__
2、g_祝究方向計算化應用巧術學位授予日期__呂答姑牽員矣豐席徐立揉評閱人何潔月M2016年6月1日乘兩大聲碩±學位論文關聯規(guī)則挖掘的并行化算法研究專業(yè)名稱;計貸機巧乂研究生姓名:劉智勇導師姓名;姜浩李國鋒1PARALLELIZABLEALGORITHMSRESEARCHOFASSOCIATIONRULESMININGAThesisSubmhted化SoutheastUniversityFor
3、theAcademicDereeofMasterofgEnineeringgBYLIU-ZhionygSuervisedbpyAssociateProfessorJIANGHaoandSen-iorEnineerLIGuofenggSchoolofComputerScienceandEngineeringSoutheastUniversityMay2016東南大學學位論文獨徹性聲明本人聲明所呈交的學位論文是我個
4、人在導師指導下進行的研究工作及取得的研巧成果。盡我所知,除了文中特別加W標注和致謝的地方外,論文中不包含其他人己經發(fā)表或撰寫過的研巧成果,也不包含為獲得東南大學或其它教育機構的學位或證書而使用過的材料一。與我同工作的同志對本研巧所做的任何貢獻均己在論文中作了明確的說明并表示了謝意。I堯曰期--.M:研巧生簽名:支茲1.0ik^3/東南大學學位論文使用授權唐明東南大學、、中國科學技術信息研巧所國家圖書館有權保留本人所送交學位論文的復印件和電子文檔、,可W采用影印縮
5、印或其他復制手段保存論文。本人一致電子文檔的內容和紙質論文的內容相。除在保密期巧的保密論文外,允許論文被查閱和借閱,可^公布(包括;^電子信息形式刊登)論文的全部內容或中、英文摘要等部分內容。論文的公布(包括W電子信息形式刊登)授權東南大學研巧生院辦理。研究生簽名.:支,/嗎為導師簽名:圭俘曰期:《多/摘要摘要隨著信息技術的不斷發(fā)展,各行各業(yè)已經積累了大量的數據,為了將送些數據轉化為有用的知識,產生了數據挖掘技術。然而,傳統(tǒng)的串行化數據挖掘技術在面對海量
6、數據時效率難W讓人滿意。并行化技術近年來發(fā)展迅速,可W有效提升算法效率,是處理。海量數據的利器,因此,使用并行化技術提升數據挖掘算法效率成為時下的研究熱點一個重要分支關聯規(guī)則挖掘技術是數據挖掘的,主要研巧的是事務數據庫中有利用價值項之間的關系。頻繁項集挖掘是關聯規(guī)則挖掘中最重要的環(huán)節(jié),因此本文中的關聯規(guī)則挖掘算法其實也是針對如何挖掘頻繁模式的頻繁模式挖掘算法。關聯規(guī)則挖掘中的A-riori基本算法主要有多候選產生算法(,抽樣等),rowth,p,劃分模式增長算法(FPg
7、HMine,FPMax,Close+等)和垂直格式算法(Eclat,CHARM等)。本文旨在將部分關聯規(guī)則挖掘算法與并行計算技術相結合,介紹若干個關聯規(guī)則挖掘算法的并斤化方案。本文分別探討了基于CPU、GPU和分布式環(huán)境下的并行關聯規(guī)則挖掘算法,介紹了相PU-關的并行化技術,并對本文中用到的兩個重要技術GCUDA并行計算框架和Maeduce-Spark并行計算框架做了詳細介紹pR。一FP-row也g算法是種基于內存的頻繁模式挖掘算法。然而,當數據集很大或者支FP-持度闊
8、值太小時,構造基于主存的全局頻繁模式樹是不現實的。grow也算法擴展化-方案將大數據集切分成小數據集,然后通過在送些小數據集執(zhí)行FPgrowth算法來解決此問題FP-rowth。本文在分析研巧g算法擴展化方案的基礎上,采用并行投影的核也思一想,,介紹了種簡單分組算法。在考慮節(jié)點間負載均衡的基礎上對簡單分組算法改進,一介紹了種負載均衡的分組算法。基于上述分狙算法,實現了基于卻ark的并行一FP-rowS-FP-gth算法parkgrowth算法,該算法通過分沮算法