資源描述:
《基于矩陣技術(shù)的頻繁項(xiàng)目集挖掘算法》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、基于矩陣技術(shù)的頻繁項(xiàng)目集挖掘算法第37卷,b1.37第16期No.16計(jì)算機(jī)工程ComputerEngineering2011年8月August2011?軟件技術(shù)與數(shù)據(jù)庫(kù)?文章■號(hào)t1oo-3428(2o11)16_-珈8__o2文獻(xiàn)標(biāo)識(shí)碼tA中田分類(lèi)號(hào)lTP311.52基于矩陣技術(shù)的頻繁項(xiàng)目集挖掘算法田芏君,蔣軍輝2jn:l:E(1.南京工業(yè)大學(xué)電子與信息工程學(xué)院,南京211816;2.浙江處州建設(shè)管理有限公司,浙江麗水323000;J3.寧波大學(xué)商學(xué)院,浙江寧波315211)搞妥:頻繁模式挖掘算法FP—gr
2、owth算法需遞歸地生成大量的條件FP-樹(shù),且耗費(fèi)大量存儲(chǔ)空間和時(shí)間.為此,采用矩陣技術(shù)統(tǒng)計(jì)約束子樹(shù)中的頻繁項(xiàng)集和頻繁項(xiàng)集的支持度,以進(jìn)行數(shù)據(jù)挖掘.實(shí)驗(yàn)結(jié)果表明,該頻繁模式挖掘算法是有效的,具有較高的時(shí)間效率及空間效率.關(guān)奠訶:頻繁模式;FP—growth算法;矩陣技術(shù);數(shù)據(jù)挖掘;約束子樹(shù)方法FrequentItemSetsMiningAlgorithmBased0nMatrixTechnologyTIANWang~un,JIANGJun.hui2,CHENShi-hui3(1.CollegeofElectro
3、nicsandInformationEngineering,NanjingUniversityofTechnology,Nanjing211816,China;2.ZhejiangChuzhouConstructionManagementCo.,Ltd.,Lishui323000,China;.3.BusinessSchool,NingboUniversity,Ningbo315211,CHina)[Abstract]SomeproblemsexistsinFP—growthalgorithm.Itmustre
4、cursivelygeneratehugenumberofconditionalFP-tre~sthatrequireshugevolumeofmemo~andcostsalotoftime.Inthispaper.ItUSeSmatrixtechnologyconstrainedsub-treestatistiefrequentitemsetsandfrequentitemsetsfordatamining.Experimentalresultshowsconstraintsub-treemethodwith
5、matrixtechnologyisanefficientfrequentpattemminingalgorithmandithasab~ttertimeefficiencyandspaceefficiency.IKeywords]frequentpattern;FP-growthalgorithm;matrixtechnology;datamining;constraintsub—treemethodDOI:10.3969/j.issn.1000-3428.2011.16.027.1概述頻繁模式挖掘是數(shù)據(jù)挖掘
6、的重要內(nèi)容之一,文獻(xiàn)[1]首次提出Apriori算法,數(shù)據(jù)挖掘領(lǐng)域的研究者在關(guān)聯(lián)規(guī)則挖掘與更新上做了大量工作.長(zhǎng)期以來(lái),挖掘頻繁模式主要采用Apriori及其改進(jìn)算法,然而,Apfiori及其改進(jìn)算法需要產(chǎn)生大量的候選項(xiàng)集,并需要多次掃描數(shù)據(jù)庫(kù),這嚴(yán)重影響了算法的效率.文獻(xiàn)【2】提出的頻繁項(xiàng)目集挖掘算法(FP-growth)采用FP—tree的存儲(chǔ)結(jié)構(gòu),打破Apdofi-like框架,可以有效提高頻繁項(xiàng)目集的挖掘效率.FP—growth算法是一種本質(zhì)上不同于Apriori算法的有效模式挖掘算法,FP—growt
7、h采用分而治之的策略,它開(kāi)辟了有效挖掘頻繁模式的新途徑,但它的時(shí)間效率和空間效率還不夠高,在FP—Tree和條件FP—Tree的構(gòu)造與遍歷上會(huì)消耗大量的時(shí)間和空間.針對(duì)以上問(wèn)題,文獻(xiàn)【4】提出一種不需要產(chǎn)生條件FP—Tree而是直接利用最初FP—Tree的約束子樹(shù)進(jìn)行挖掘的算法.該算法根據(jù)FP—Tree產(chǎn)生和挖掘有效地精簡(jiǎn)了樹(shù)節(jié)點(diǎn)指針域的個(gè)數(shù),提出了壓縮FP—Tree(CompactFP—Tree,CFP-樹(shù)),節(jié)省大量存儲(chǔ)空間.文獻(xiàn)[5】提出一種單遍掃描頻繁模式樹(shù)結(jié)構(gòu),在挖掘過(guò)程中動(dòng)態(tài)地逐條分支地重構(gòu)樹(shù),最終
8、產(chǎn)生一棵頻繁遞減的前綴樹(shù),具有良好的壓縮性能.文獻(xiàn)[6】運(yùn)用數(shù)組技術(shù)減少約束子樹(shù)的遍歷,在建立約束子樹(shù)的同時(shí)給出相關(guān)項(xiàng)的支持度,在一定程度上解決了文獻(xiàn)[4]方法需要2次遍歷約束子樹(shù)的缺陷,從挖掘過(guò)程中可以看出,該方法需要遞歸產(chǎn)生數(shù)組來(lái)獲取相關(guān)支持度.本文繼續(xù)沿用CFP一樹(shù)來(lái)存儲(chǔ)事務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)信息,采用基于約束子樹(shù)的頻繁模式挖掘算法避免生成條件FP—Tree,在挖掘約束子樹(shù)的過(guò)程中還將