基于MapReduce的關(guān)聯(lián)規(guī)則挖掘.pdf

基于MapReduce的關(guān)聯(lián)規(guī)則挖掘.pdf

ID:57741588

大?。?57.40 KB

頁數(shù):2頁

時間:2020-03-26

基于MapReduce的關(guān)聯(lián)規(guī)則挖掘.pdf_第1頁
基于MapReduce的關(guān)聯(lián)規(guī)則挖掘.pdf_第2頁
資源描述:

《基于MapReduce的關(guān)聯(lián)規(guī)則挖掘.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、應(yīng)用技術(shù)與研究學(xué)術(shù)探討2014年第8期基于MapReduce的關(guān)聯(lián)規(guī)則挖掘陳鳳娟(遼寧對外經(jīng)貿(mào)學(xué)院,遼寧大連116052)[摘要]關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一項重要技術(shù),它主要是通過頻繁項集挖掘得到關(guān)聯(lián)規(guī)則?;谠朴嬎愕腗a-pReduce模型的數(shù)據(jù)挖掘算法可以提高挖掘的效果及性能。[關(guān)鍵詞]關(guān)聯(lián)規(guī)則;頻繁項集;MapReduce;數(shù)據(jù)挖掘但是頻繁閉項集比頻繁項集的元素少很多,因此挖掘頻繁閉1.引言項集能夠滿足用戶的需求并且對減少了算法的開銷,提升了計算機和網(wǎng)絡(luò)技術(shù)飛速發(fā)展,各個行業(yè)中存儲了海量的頻

2、繁項集挖掘的效率,同時還減少了冗余信息的輸出。數(shù)據(jù),并且這些數(shù)據(jù)的數(shù)量還在增長。這些海量數(shù)據(jù)蘊含著3.MapReduce模型豐富的知識,如何找出數(shù)據(jù)中蘊含的知識,為各種決策提供MapReduce是一個將大型分布式計算轉(zhuǎn)換成為行串行幫助成為了一個迫切需要解決的問題。數(shù)據(jù)挖掘技術(shù)運用化分布式計算的編程模型,它用Key/Value,即鍵/值對的形式了機器學(xué)習(xí)和模式識別等多個領(lǐng)域的知識,為解決這個實際來表示分布式計算,完成分布式操作。通過計算機集群,在問題提供了有力的工具。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個主要Ha

3、doop/MapReduce框架中,把用戶定義的MapReduce任務(wù)技術(shù),它能從給定的數(shù)據(jù)集中,通過關(guān)聯(lián)規(guī)則挖掘算法,找出分布到集群中的各個節(jié)點上執(zhí)行。各個屬性之間的關(guān)聯(lián)關(guān)系,以及多個屬性域之間的依賴關(guān)能用MapReduce來處理的數(shù)據(jù)集必須是能分解成多個系,這種依賴關(guān)系對決策和預(yù)測有作用。MapReduce是由谷歌研究員提出的一種分布式編程框小數(shù)據(jù)集的數(shù)據(jù)集合,并且每個小數(shù)據(jù)集都可以完全并行地架,是一個用于處理海量數(shù)據(jù)的并行編程模型,可以運行在進行處理,否則,這個數(shù)據(jù)集合是不能用MapRedu

4、ce來處理異構(gòu)環(huán)境下,編程簡單,不必關(guān)心底層實現(xiàn)細節(jié)。對現(xiàn)有的的。一個MapReduce分布式計算由兩個過程組成,一個是關(guān)聯(lián)規(guī)則挖掘算法進行改進,使這些算法能在MapReduce模Map過程,一個是Reduce過程,其中,Map過程也叫映射過型中運行,利用并行技術(shù)提高算法的性能。程,而Reduce過程也叫規(guī)約過程。MapReduce框架將輸入的數(shù)據(jù)分成多個能并行運算的數(shù)據(jù)片段,然后將每一個數(shù)據(jù)片2.關(guān)聯(lián)規(guī)則的基本概念段分配給一個Map任務(wù),每一個Map任務(wù)執(zhí)行相同的操作,關(guān)聯(lián)規(guī)則的挖掘是分兩步來實

5、現(xiàn)的,首先按照用戶給定即對分配給它的數(shù)據(jù)片段的key/value對進行計算,生成一個的最低閾值,找出數(shù)據(jù)集中的所有頻繁項目集,然后從頻繁中間結(jié)果,這個過程稱為Map過程。Map過程把計算得到的項目集中構(gòu)造規(guī)則,要求構(gòu)造的規(guī)則的可信度大于等于用戶所有具有相同key值的value,經(jīng)過計算后傳遞給Reduce函設(shè)定的最低值。支持度是對關(guān)聯(lián)規(guī)則代表的重要性進行度數(shù),而Reduce任務(wù)會將從Map得到的二元組key/value集合量的指標(biāo),它體現(xiàn)了關(guān)聯(lián)規(guī)則的頻度。如果某個項集的支持的片段作為輸入,調(diào)用用戶

6、定義的Reduce函數(shù),將value值合度的值太小,則表明相應(yīng)的規(guī)則很可能只是偶然發(fā)生的。并,得到value的集合,這個過程稱為Reduce過程。設(shè)U={U1,U2,…,Un}為n個不同字符的集合,其中的字無論是Map過程還是Reduce過程,它們的每個任務(wù)的符稱為項或商品。任意一個集合X?U稱為一個項集,若執(zhí)行都支持容錯功能,當(dāng)任一個或多個節(jié)點在計算過程中出

7、X

8、=k,則稱X為k項集。事務(wù)(或交易)T是項的集合,且任意現(xiàn)錯誤時,都會自動將出錯的任務(wù)重新分配到其他節(jié)點上,的T?U,對應(yīng)每一個事務(wù)有

9、唯一的標(biāo)識,記作TID。設(shè)A=讓其他節(jié)點完成計算。并行運行多個Map和Reduce任務(wù),{T1,T2,…,Tn},稱A為U上的交易集或者數(shù)據(jù)集,簡稱交易為系統(tǒng)提供了很好的負載均衡同時也降低了運行中失敗的集或者數(shù)據(jù)集。如果X?T,稱事務(wù)T包含X。對于一個項集X和一個交易集A,X在A中的支持度定義為X在A中的任務(wù)被重新運行的代價。支持計數(shù)與A中總的交易個數(shù)之比,記作sup(X)。如果X的MapReduce采用“分而治之”的思想,有效地降低每一部支持度大于某個給定的最小閾值,則稱X是頻繁的。分的運算復(fù)雜

10、度,提高了運算效率,屏蔽了底層的實現(xiàn)細節(jié),頻繁項集挖掘就是要在事務(wù)數(shù)據(jù)庫里找出所有大于給有效降低并行編程難度,提高編程效率。它的不足主要體現(xiàn)定的最小支持度的頻繁項集。頻繁閉項集是一組事務(wù)都包在以下方面:首先它善于處理松耦合型的數(shù)據(jù),對不容易分含的項的最大項集。頻繁閉項集和頻繁項集的信息量相等,解成多個相互獨立的子任務(wù)的計算任務(wù)的處理效率很低;其——————————————作者簡介:陳鳳娟,女,遼寧本溪人,碩士,副教授,研究領(lǐng)域:數(shù)據(jù)挖掘、粗糙集。-59-學(xué)術(shù)探討應(yīng)用技術(shù)與研究201

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。