資源描述:
《基于MapReduce的關(guān)聯(lián)規(guī)則挖掘.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、應(yīng)用技術(shù)與研究學(xué)術(shù)探討2014年第8期基于MapReduce的關(guān)聯(lián)規(guī)則挖掘陳鳳娟(遼寧對(duì)外經(jīng)貿(mào)學(xué)院,遼寧大連116052)[摘要]關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一項(xiàng)重要技術(shù),它主要是通過頻繁項(xiàng)集挖掘得到關(guān)聯(lián)規(guī)則?;谠朴?jì)算的Ma-pReduce模型的數(shù)據(jù)挖掘算法可以提高挖掘的效果及性能。[關(guān)鍵詞]關(guān)聯(lián)規(guī)則;頻繁項(xiàng)集;MapReduce;數(shù)據(jù)挖掘但是頻繁閉項(xiàng)集比頻繁項(xiàng)集的元素少很多,因此挖掘頻繁閉1.引言項(xiàng)集能夠滿足用戶的需求并且對(duì)減少了算法的開銷,提升了計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)飛速發(fā)展,各個(gè)行業(yè)中存儲(chǔ)了海量的頻
2、繁項(xiàng)集挖掘的效率,同時(shí)還減少了冗余信息的輸出。數(shù)據(jù),并且這些數(shù)據(jù)的數(shù)量還在增長(zhǎng)。這些海量數(shù)據(jù)蘊(yùn)含著3.MapReduce模型豐富的知識(shí),如何找出數(shù)據(jù)中蘊(yùn)含的知識(shí),為各種決策提供MapReduce是一個(gè)將大型分布式計(jì)算轉(zhuǎn)換成為行串行幫助成為了一個(gè)迫切需要解決的問題。數(shù)據(jù)挖掘技術(shù)運(yùn)用化分布式計(jì)算的編程模型,它用Key/Value,即鍵/值對(duì)的形式了機(jī)器學(xué)習(xí)和模式識(shí)別等多個(gè)領(lǐng)域的知識(shí),為解決這個(gè)實(shí)際來表示分布式計(jì)算,完成分布式操作。通過計(jì)算機(jī)集群,在問題提供了有力的工具。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個(gè)主要Ha
3、doop/MapReduce框架中,把用戶定義的MapReduce任務(wù)技術(shù),它能從給定的數(shù)據(jù)集中,通過關(guān)聯(lián)規(guī)則挖掘算法,找出分布到集群中的各個(gè)節(jié)點(diǎn)上執(zhí)行。各個(gè)屬性之間的關(guān)聯(lián)關(guān)系,以及多個(gè)屬性域之間的依賴關(guān)能用MapReduce來處理的數(shù)據(jù)集必須是能分解成多個(gè)系,這種依賴關(guān)系對(duì)決策和預(yù)測(cè)有作用。MapReduce是由谷歌研究員提出的一種分布式編程框小數(shù)據(jù)集的數(shù)據(jù)集合,并且每個(gè)小數(shù)據(jù)集都可以完全并行地架,是一個(gè)用于處理海量數(shù)據(jù)的并行編程模型,可以運(yùn)行在進(jìn)行處理,否則,這個(gè)數(shù)據(jù)集合是不能用MapRedu
4、ce來處理異構(gòu)環(huán)境下,編程簡(jiǎn)單,不必關(guān)心底層實(shí)現(xiàn)細(xì)節(jié)。對(duì)現(xiàn)有的的。一個(gè)MapReduce分布式計(jì)算由兩個(gè)過程組成,一個(gè)是關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行改進(jìn),使這些算法能在MapReduce模Map過程,一個(gè)是Reduce過程,其中,Map過程也叫映射過型中運(yùn)行,利用并行技術(shù)提高算法的性能。程,而Reduce過程也叫規(guī)約過程。MapReduce框架將輸入的數(shù)據(jù)分成多個(gè)能并行運(yùn)算的數(shù)據(jù)片段,然后將每一個(gè)數(shù)據(jù)片2.關(guān)聯(lián)規(guī)則的基本概念段分配給一個(gè)Map任務(wù),每一個(gè)Map任務(wù)執(zhí)行相同的操作,關(guān)聯(lián)規(guī)則的挖掘是分兩步來實(shí)
5、現(xiàn)的,首先按照用戶給定即對(duì)分配給它的數(shù)據(jù)片段的key/value對(duì)進(jìn)行計(jì)算,生成一個(gè)的最低閾值,找出數(shù)據(jù)集中的所有頻繁項(xiàng)目集,然后從頻繁中間結(jié)果,這個(gè)過程稱為Map過程。Map過程把計(jì)算得到的項(xiàng)目集中構(gòu)造規(guī)則,要求構(gòu)造的規(guī)則的可信度大于等于用戶所有具有相同key值的value,經(jīng)過計(jì)算后傳遞給Reduce函設(shè)定的最低值。支持度是對(duì)關(guān)聯(lián)規(guī)則代表的重要性進(jìn)行度數(shù),而Reduce任務(wù)會(huì)將從Map得到的二元組key/value集合量的指標(biāo),它體現(xiàn)了關(guān)聯(lián)規(guī)則的頻度。如果某個(gè)項(xiàng)集的支持的片段作為輸入,調(diào)用用戶
6、定義的Reduce函數(shù),將value值合度的值太小,則表明相應(yīng)的規(guī)則很可能只是偶然發(fā)生的。并,得到value的集合,這個(gè)過程稱為Reduce過程。設(shè)U={U1,U2,…,Un}為n個(gè)不同字符的集合,其中的字無論是Map過程還是Reduce過程,它們的每個(gè)任務(wù)的符稱為項(xiàng)或商品。任意一個(gè)集合X?U稱為一個(gè)項(xiàng)集,若執(zhí)行都支持容錯(cuò)功能,當(dāng)任一個(gè)或多個(gè)節(jié)點(diǎn)在計(jì)算過程中出
7、X
8、=k,則稱X為k項(xiàng)集。事務(wù)(或交易)T是項(xiàng)的集合,且任意現(xiàn)錯(cuò)誤時(shí),都會(huì)自動(dòng)將出錯(cuò)的任務(wù)重新分配到其他節(jié)點(diǎn)上,的T?U,對(duì)應(yīng)每一個(gè)事務(wù)有
9、唯一的標(biāo)識(shí),記作TID。設(shè)A=讓其他節(jié)點(diǎn)完成計(jì)算。并行運(yùn)行多個(gè)Map和Reduce任務(wù),{T1,T2,…,Tn},稱A為U上的交易集或者數(shù)據(jù)集,簡(jiǎn)稱交易為系統(tǒng)提供了很好的負(fù)載均衡同時(shí)也降低了運(yùn)行中失敗的集或者數(shù)據(jù)集。如果X?T,稱事務(wù)T包含X。對(duì)于一個(gè)項(xiàng)集X和一個(gè)交易集A,X在A中的支持度定義為X在A中的任務(wù)被重新運(yùn)行的代價(jià)。支持計(jì)數(shù)與A中總的交易個(gè)數(shù)之比,記作sup(X)。如果X的MapReduce采用“分而治之”的思想,有效地降低每一部支持度大于某個(gè)給定的最小閾值,則稱X是頻繁的。分的運(yùn)算復(fù)雜
10、度,提高了運(yùn)算效率,屏蔽了底層的實(shí)現(xiàn)細(xì)節(jié),頻繁項(xiàng)集挖掘就是要在事務(wù)數(shù)據(jù)庫(kù)里找出所有大于給有效降低并行編程難度,提高編程效率。它的不足主要體現(xiàn)定的最小支持度的頻繁項(xiàng)集。頻繁閉項(xiàng)集是一組事務(wù)都包在以下方面:首先它善于處理松耦合型的數(shù)據(jù),對(duì)不容易分含的項(xiàng)的最大項(xiàng)集。頻繁閉項(xiàng)集和頻繁項(xiàng)集的信息量相等,解成多個(gè)相互獨(dú)立的子任務(wù)的計(jì)算任務(wù)的處理效率很低;其——————————————作者簡(jiǎn)介:陳鳳娟,女,遼寧本溪人,碩士,副教授,研究領(lǐng)域:數(shù)據(jù)挖掘、粗糙集。-59-學(xué)術(shù)探討應(yīng)用技術(shù)與研究201