關(guān)聯(lián)規(guī)則的增量更新算法研究

關(guān)聯(lián)規(guī)則的增量更新算法研究

ID:11203508

大?。?7.61 KB

頁數(shù):13頁

時(shí)間:2018-07-10

關(guān)聯(lián)規(guī)則的增量更新算法研究_第1頁
關(guān)聯(lián)規(guī)則的增量更新算法研究_第2頁
關(guān)聯(lián)規(guī)則的增量更新算法研究_第3頁
關(guān)聯(lián)規(guī)則的增量更新算法研究_第4頁
關(guān)聯(lián)規(guī)則的增量更新算法研究_第5頁
資源描述:

《關(guān)聯(lián)規(guī)則的增量更新算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、關(guān)聯(lián)規(guī)則的增量更新算法研究(1)摘?要?隨著數(shù)據(jù)庫的不斷變化,關(guān)聯(lián)規(guī)則的增量更新變得尤為重要。為了漣更好的對關(guān)聯(lián)規(guī)則進(jìn)行有效的更新,本文輻對已經(jīng)提出的經(jīng)典的關(guān)聯(lián)規(guī)則更新算法FィUP和IUA算法進(jìn)行分析,指出其優(yōu)缺瀹點(diǎn);最后對另外的改進(jìn)算法,做一個(gè)簡單迫的敘述。關(guān)鍵詞?數(shù)據(jù)庫;關(guān)聯(lián)規(guī)則;增ヰ量更新?關(guān)聯(lián)規(guī)則反映了數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)遣目之間有趣的關(guān)聯(lián)關(guān)系,而其中發(fā)現(xiàn)頻繁ね項(xiàng)目集是關(guān)聯(lián)規(guī)則挖掘應(yīng)用中的關(guān)鍵技術(shù)谫和步驟。關(guān)于頻繁項(xiàng)目集的挖掘算法研究腱,人們對此進(jìn)行了大量的工作,其中以R.Agrawal等人提出的Apr

2、iori、AprioriTid等算法最具靖有影響力和代表性。而這些算法的提出都驕?zhǔn)窃谕诰驍?shù)據(jù)庫和最小支持度不變的條件下進(jìn)行的。但實(shí)際中,遇到的情況可能是毹:隨著時(shí)間的推移,挖掘數(shù)據(jù)庫的規(guī)??蓮[能不斷膨脹或需要?jiǎng)h除一部分記錄,或者舞需要對最小支持度進(jìn)行調(diào)整從而逐步聚集填到我們感興趣的頻繁項(xiàng)目集上。因而如何若從數(shù)據(jù)發(fā)生變動(dòng)后的數(shù)據(jù)庫中高效地對已木經(jīng)推導(dǎo)出的關(guān)聯(lián)規(guī)則進(jìn)行更新,具有非常亠重要的應(yīng)用價(jià)值,這就是所謂的增量式挖纓掘關(guān)聯(lián)規(guī)則的問題。1?關(guān)聯(lián)規(guī)則問題描嶼述:設(shè)I={i1,i2,...,im苧}是m個(gè)不同

3、項(xiàng)目的集合,給定一個(gè)事務(wù)︼數(shù)據(jù)庫D,其中D每一個(gè)事務(wù)T是I中一︱組項(xiàng)目的集合,即TI,T有一個(gè)惟一的統(tǒng)標(biāo)志符TID。如果對于I中的一個(gè)子集欷X,有XT,我們就說一個(gè)事務(wù)T包含Xサ。一條關(guān)聯(lián)規(guī)則(associatio13/13捫nrule)就是一個(gè)形如X=>Y的蘊(yùn)涵式,其中X,YT,而X∩Y=Φ。關(guān)鐙聯(lián)規(guī)則成立的條件是:①它具有最小支持鬣度s,即事務(wù)數(shù)據(jù)庫D中至少有s%的事彤務(wù)包含X∪Y;②它具有最小可信度c,齡即在事務(wù)數(shù)據(jù)庫D中包含X的事務(wù)中至少有c%同時(shí)也包含Y。給定一個(gè)事務(wù)集DЪ,挖掘關(guān)聯(lián)規(guī)則問題就

4、是產(chǎn)生支持度和可皋信度分別大于用戶給定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則,也就是產(chǎn)生強(qiáng)規(guī)則菜的問題。關(guān)聯(lián)規(guī)則的挖掘問題可以分解為搬以下兩個(gè)問題:(1)找出事務(wù)數(shù)據(jù)庫中妝所有具有用戶最小支持度的項(xiàng)目集。具有婦用戶指定最小支持度的項(xiàng)目集稱為頻繁項(xiàng)鄒目集,反之稱為非頻繁項(xiàng)目集。一個(gè)項(xiàng)目中所含項(xiàng)目的個(gè)數(shù)稱為該項(xiàng)目的長度。(蠢2)利用頻繁項(xiàng)目集生成關(guān)聯(lián)規(guī)則。對于睇每一個(gè)頻繁項(xiàng)目集A,若BA,B≠Φ,恚且support(A)/suppor入t(B)>minconf,則有關(guān)聯(lián)規(guī)郫則B=>(A-B)。目前大多數(shù)的研究

5、主要集中在第一個(gè)問題上面。2?Apr澍iori核心算法[1]Agrawal唼等人于1994年提出了一個(gè)挖掘顧客交炫易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則的重要方法熠Apriori算法,其核心是基于兩個(gè)庖階段頻繁項(xiàng)集思想的遞推算法。算法的基命本思想是首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度魂一樣。然后由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,嫌這些規(guī)則必須滿足最小支持度和最小可信年度。Apriori核心算法思想簡要描Ё述如下:該算法中有兩個(gè)關(guān)鍵步驟連接步噔和剪枝步。(1)連接步:為找出Lk(竦13/13頻繁k一

6、項(xiàng)集),通過Lk-1與自身連郡接,產(chǎn)生候選k-項(xiàng)集,該候選項(xiàng)集記作圊Ck;其中Lk-1的元素是可連接的。氌(2)剪枝步:Ck是Lk的超集,即它佃的成員可以是也可以不是頻繁的,但所有析的頻繁一項(xiàng)集都包含在Ck中。掃描數(shù)據(jù)綣庫,確定Ck中每一個(gè)候選的計(jì)數(shù),從而﹂確定Lk(計(jì)數(shù)值不小于最小支持度計(jì)數(shù)遁的所有候選是頻繁的,從而屬于Lk)。芒然而,Ck可能很大,這樣所涉及的計(jì)算狼量就很大。為壓縮Ck,使用Aprio弧ri性質(zhì):任何非頻繁的(k-1)-項(xiàng)顆集都不可能是頻繁k-項(xiàng)集的子集。因此棘,如果一個(gè)候選k-項(xiàng)集的(

7、k-1)項(xiàng)孤集不在Lk中,則該候選項(xiàng)也不可能是頻ɑ繁的,從而可以由Ck中刪除。這種子集瞳測試可以使用所有頻繁項(xiàng)集的散列樹快速搞完成。這個(gè)方法要求多次掃描可能很大的縈交易數(shù)據(jù)庫,即如果頻集最多包含10個(gè)眥項(xiàng),那么就需要掃描交易數(shù)據(jù)庫10遍,黍這需要很大的I/O負(fù)載??赡墚a(chǎn)生大量錒的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫輞,是Apriori算法的兩大缺點(diǎn)。3釓?關(guān)聯(lián)規(guī)則增量更新關(guān)聯(lián)規(guī)則反映了數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)目之間有趣的關(guān)聯(lián)關(guān)系,而其顴中發(fā)現(xiàn)頻繁項(xiàng)目集是關(guān)聯(lián)規(guī)則挖掘應(yīng)用中嘉的關(guān)鍵技術(shù)和步驟。關(guān)于頻繁項(xiàng)目集的挖х掘算法

8、研究,人們對此進(jìn)行了大量的工作次,其中以R.Agrawal等人提出的蘑Apriori、AprioriTid等算法最具有影響力和代表性。而這些算法的提出都是在挖掘數(shù)據(jù)庫和最小支持度兕不變的條件下進(jìn)行的。實(shí)際中,數(shù)據(jù)庫的獅規(guī)模隨著時(shí)間,可能不斷膨脹或需要?jiǎng)h除循13/13一部分記錄,或者需要對最小支持度進(jìn)行お調(diào)整從而逐步聚集到我們感興趣的頻繁項(xiàng)氐目集上。因而如何高效地從更新后的數(shù)據(jù)鰣庫中對已經(jīng)推導(dǎo)出的關(guān)聯(lián)規(guī)則進(jìn)行更

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。