關聯規(guī)則挖掘的并行化算法研究

關聯規(guī)則挖掘的并行化算法研究

ID:35045670

大?。?.83 MB

頁數:62頁

時間:2019-03-17

關聯規(guī)則挖掘的并行化算法研究_第1頁
關聯規(guī)則挖掘的并行化算法研究_第2頁
關聯規(guī)則挖掘的并行化算法研究_第3頁
關聯規(guī)則挖掘的并行化算法研究_第4頁
關聯規(guī)則挖掘的并行化算法研究_第5頁
資源描述:

《關聯規(guī)則挖掘的并行化算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、學校代碼:10286blTST)-)‘八.產P3,分類號11:T.^’;—、一.L?、密級:公巧UDC:0041學號:31536’'".-,分.一1.,‘,雨甲朽麻-W..索魚雄大令舊工程碩±學位論文關聯規(guī)則挖掘的并行化算法研究學位論文形式:應用研究)研究生姓名:劉魯勇導師姓名:姜浩李國鋒由譜舉仿類神I專業(yè)碩±學位學化授予單位東南大學2016年S月31日T賴飾誠名稱計算軌技術論義答辯日期_2016年__

2、g_祝究方向計算化應用巧術學位授予日期__呂答姑牽員矣豐席徐立揉評閱人何潔月M2016年6月1日乘兩大聲碩±學位論文關聯規(guī)則挖掘的并行化算法研究專業(yè)名稱;計貸機巧乂研究生姓名:劉智勇導師姓名;姜浩李國鋒1PARALLELIZABLEALGORITHMSRESEARCHOFASSOCIATIONRULESMININGAThesisSubmhted化SoutheastUniversityFor

3、theAcademicDereeofMasterofgEnineeringgBYLIU-ZhionygSuervisedbpyAssociateProfessorJIANGHaoandSen-iorEnineerLIGuofenggSchoolofComputerScienceandEngineeringSoutheastUniversityMay2016東南大學學位論文獨徹性聲明本人聲明所呈交的學位論文是我個

4、人在導師指導下進行的研究工作及取得的研巧成果。盡我所知,除了文中特別加W標注和致謝的地方外,論文中不包含其他人己經發(fā)表或撰寫過的研巧成果,也不包含為獲得東南大學或其它教育機構的學位或證書而使用過的材料一。與我同工作的同志對本研巧所做的任何貢獻均己在論文中作了明確的說明并表示了謝意。I堯曰期--.M:研巧生簽名:支茲1.0ik^3/東南大學學位論文使用授權唐明東南大學、、中國科學技術信息研巧所國家圖書館有權保留本人所送交學位論文的復印件和電子文檔、,可W采用影印縮

5、印或其他復制手段保存論文。本人一致電子文檔的內容和紙質論文的內容相。除在保密期巧的保密論文外,允許論文被查閱和借閱,可^公布(包括;^電子信息形式刊登)論文的全部內容或中、英文摘要等部分內容。論文的公布(包括W電子信息形式刊登)授權東南大學研巧生院辦理。研究生簽名.:支,/嗎為導師簽名:圭俘曰期:《多/摘要摘要隨著信息技術的不斷發(fā)展,各行各業(yè)已經積累了大量的數據,為了將送些數據轉化為有用的知識,產生了數據挖掘技術。然而,傳統(tǒng)的串行化數據挖掘技術在面對海量

6、數據時效率難W讓人滿意。并行化技術近年來發(fā)展迅速,可W有效提升算法效率,是處理。海量數據的利器,因此,使用并行化技術提升數據挖掘算法效率成為時下的研究熱點一個重要分支關聯規(guī)則挖掘技術是數據挖掘的,主要研巧的是事務數據庫中有利用價值項之間的關系。頻繁項集挖掘是關聯規(guī)則挖掘中最重要的環(huán)節(jié),因此本文中的關聯規(guī)則挖掘算法其實也是針對如何挖掘頻繁模式的頻繁模式挖掘算法。關聯規(guī)則挖掘中的A-riori基本算法主要有多候選產生算法(,抽樣等),rowth,p,劃分模式增長算法(FPg

7、HMine,FPMax,Close+等)和垂直格式算法(Eclat,CHARM等)。本文旨在將部分關聯規(guī)則挖掘算法與并行計算技術相結合,介紹若干個關聯規(guī)則挖掘算法的并斤化方案。本文分別探討了基于CPU、GPU和分布式環(huán)境下的并行關聯規(guī)則挖掘算法,介紹了相PU-關的并行化技術,并對本文中用到的兩個重要技術GCUDA并行計算框架和Maeduce-Spark并行計算框架做了詳細介紹pR。一FP-row也g算法是種基于內存的頻繁模式挖掘算法。然而,當數據集很大或者支FP-持度闊

8、值太小時,構造基于主存的全局頻繁模式樹是不現實的。grow也算法擴展化-方案將大數據集切分成小數據集,然后通過在送些小數據集執(zhí)行FPgrowth算法來解決此問題FP-rowth。本文在分析研巧g算法擴展化方案的基礎上,采用并行投影的核也思一想,,介紹了種簡單分組算法。在考慮節(jié)點間負載均衡的基礎上對簡單分組算法改進,一介紹了種負載均衡的分組算法。基于上述分狙算法,實現了基于卻ark的并行一FP-rowS-FP-gth算法parkgrowth算法,該算法通過分沮算法

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯系客服處理。