一種改進(jìn)的基于矩陣的頻繁項(xiàng)集挖掘算法

一種改進(jìn)的基于矩陣的頻繁項(xiàng)集挖掘算法

ID:4122877

大小:283.86 KB

頁數(shù):4頁

時(shí)間:2017-11-29

一種改進(jìn)的基于矩陣的頻繁項(xiàng)集挖掘算法_第1頁
一種改進(jìn)的基于矩陣的頻繁項(xiàng)集挖掘算法_第2頁
一種改進(jìn)的基于矩陣的頻繁項(xiàng)集挖掘算法_第3頁
一種改進(jìn)的基于矩陣的頻繁項(xiàng)集挖掘算法_第4頁
資源描述:

《一種改進(jìn)的基于矩陣的頻繁項(xiàng)集挖掘算法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、第期計(jì)算機(jī)技術(shù)與發(fā)展Vo1.20No.42010年4月∞MP1兀RTECHN0IoGYANDDEVEL0PMENrApr.2010一種改進(jìn)的基于矩陣的頻繁項(xiàng)集挖掘算法張笑達(dá),徐立臻(東南大學(xué)計(jì)算機(jī)系,江蘇南京211189)摘要:如何從海量數(shù)據(jù)信息中挖掘出有用的關(guān)聯(lián)規(guī)則已經(jīng)成為人們廣泛關(guān)注的問題,而在關(guān)聯(lián)規(guī)則挖掘中,首要的問題就是如何高效地挖掘出頻繁項(xiàng)集。針對已有FIMM算法作出改進(jìn),提出了一種改進(jìn)的基于矩陣的頻繁項(xiàng)集挖掘算法N—FIMM,該算法在FIMM基礎(chǔ)上去除大量冗余的非頻繁項(xiàng)集的項(xiàng)集,減少計(jì)算可能頻繁項(xiàng)集的工作量,同時(shí)縮小了矩陣規(guī)模,提高了空間效率。通過對矩

2、陣操作,一次性地產(chǎn)生所有的頻繁項(xiàng)集。試驗(yàn)結(jié)果表明,該算法對已有的基于矩陣的頻繁項(xiàng)集挖掘算法有了很大的改進(jìn),提高了挖掘效率。關(guān)鍵詞:數(shù)據(jù)挖掘;頻繁項(xiàng)集;FIMM中圖分類號(hào):1]P301.6文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1673~629X(2010)04—0093—04AnAdvancedFrequentItemsetsMiningAlgorithmBasedonMatrixZHANGXiao-da,XULi—zhen(ComputerCollege,SoutheastUniversity,Nanjir~4g211189,China)Abstract:HowtOmineth

3、eusefulassooationrulefromlargenumbersofdatainformationhasbeenamainproblemconcernedwidely.聊Iileintheminingofassociatkmrule.thechiefquestionishowtomineOUtthefrequentitemsetseffectively.Anadvancedfrequentimmsetsmining~orithmbasedonF][刪isproposedinthispaper.Throughdeletingunnecessaryitent

4、sets.thealgorithmgreatlydemi—nishtheworkloadofgettingitemsetsaswellasminifythew.a(chǎn)hofmatrix.Thus,theeficiencyofspaceutilityislargelyimproved.Byop-erating01"1thematrix,allthefrequentit~metsaIegeneratedone—time,itisprovedbyexperimentsthatthisa1g0riismuchmoreef-f~fivethefrequentitemsetami

5、ningalgorithmbasedonmatrixeximing.Itwillimprovetheefficiencyofdatamining.Key:datamining;frequentitemset;FIMMO引言庫的事務(wù)中包含10個(gè)項(xiàng),可能產(chǎn)生的所有項(xiàng)集數(shù)就達(dá)關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個(gè)重要方面,其目到210個(gè),這已經(jīng)是一個(gè)不小的數(shù)字!現(xiàn)實(shí)中數(shù)據(jù)庫中的是從海量的數(shù)據(jù)中挖掘出滿足用戶興趣的依賴關(guān)包含的項(xiàng)目數(shù)可能是100、1000,甚至更多,由此產(chǎn)生的所有可能項(xiàng)集數(shù)將不可想象,因此數(shù)據(jù)庫所有可能系,關(guān)聯(lián)規(guī)則挖掘的核心是挖掘頻繁項(xiàng)集。RekeshA.grawa

6、l等人提出關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法后?,該技術(shù)被眾項(xiàng)集的計(jì)算量和矩陣規(guī)模也將成為FIMM算法的瓶頸。多學(xué)者廣泛研究,出現(xiàn)了許多相關(guān)算法:以Ap一算針對FIMM算法存在的問題,提出了一種改進(jìn)的法為代表的采用逐層搜索的迭代方式和不產(chǎn)生候選項(xiàng)集的FP—growth算法-2J?;诰仃嚨念l繁項(xiàng)集挖掘算法(N—FlMM),該算法只需掃描數(shù)據(jù)庫一次就能把事務(wù)數(shù)據(jù)庫轉(zhuǎn)化成頻繁項(xiàng)集目前,已有研究人員提出了基于矩陣的頻繁項(xiàng)集矩陣,在構(gòu)造頻繁項(xiàng)集矩陣的過程中先去除那些必不挖掘算法FIMM(FrequenthemsetsMiningbasedon可能成為頻繁項(xiàng)集的項(xiàng)集和頻繁1一項(xiàng)集,這樣就大M

7、atrix)-3J,該算法只需掃描數(shù)據(jù)庫一次便構(gòu)造出頻繁大減小了計(jì)算項(xiàng)集的工作量,同時(shí)縮小了矩陣的規(guī)模,項(xiàng)集矩陣,避免了產(chǎn)生大量候選項(xiàng)集的瓶頸。然而在然后對項(xiàng)集向量進(jìn)行累加操作以實(shí)現(xiàn)對項(xiàng)集的計(jì)數(shù),構(gòu)造矩陣的過程中,此算法需計(jì)算出數(shù)據(jù)庫可能產(chǎn)生由此一次性產(chǎn)生所有頻繁項(xiàng)集,避免了FIMM算法的的所有項(xiàng)集,因此要進(jìn)行大量計(jì)算,而且構(gòu)造出的頻繁瓶頸,有效提高了挖掘效率。項(xiàng)集矩陣規(guī)模異常龐大,算法空間效率低。假設(shè)數(shù)據(jù)收稿日期:20o9一o7—14;修回日期:2oo9一l1—041N—FIMM算法作者簡介:~(1986一),女,碩士研究生,研究方向?yàn)橐苿?dòng)數(shù)據(jù)1.1基本概念庫的

8、發(fā)展與應(yīng)用

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。