資源描述:
《數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、武漢理工大學碩士學位論文數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用姓名:高偉峰申請學位級別:碩士專業(yè):計算機應用技術指導教師:熊盛武20060401中文摘要數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱合在其中的、人們事先不知道的、但又是潛在有劇的信息和知識的過程,其主要目標是從大型的數(shù)據(jù)庫中挖掘出對用戶有價值的模式。在事務數(shù)據(jù)庫中挖掘關聯(lián)規(guī)則是數(shù)據(jù)挖掘領域中一個非常重要的研究課題。在關聯(lián)規(guī)則挖掘過程中存在兩個問題:一是產(chǎn)生大項目集;二是產(chǎn)生強關聯(lián)規(guī)則。塒于這兩個問題,算法的復雜性是瓶頸,凼為頻繁集的數(shù)F1
2、和項目的數(shù)目成指數(shù)增長,所以導致在面對大規(guī)模的數(shù)據(jù)庫時,整個算法的耗時巨大,從而最終導致挖掘算法在實際工程中的應用效果較差。本文提出一種從大型數(shù)據(jù)庫中挖掘關聯(lián)規(guī)則的改進算法。該算法以經(jīng)典的Apriori算法為基礎,在分析研究已有各種優(yōu)化算法的基礎上,提出了數(shù)據(jù)劃分的方法,分兩個階段執(zhí)行。第一階段,掃描整個數(shù)據(jù)庫,將其分成若干互不相交的予塊,然后逐次調(diào)入內(nèi)存,根據(jù)支持度在每個子塊上的分配,對每個子塊應用Apriori算法,以產(chǎn)生局部頻繁項集,最后將每個子塊的頻繁項集合并作為第_階段所用的全局候選項集;第二階段,著眼于全
3、局頻繁項集的搜索。根據(jù)每個傘局頻繁項目集必在某個子塊卜是頻繁的這一性質(zhì),對第一階段產(chǎn)生的全局候選項集應用ApriOFi算法,由此產(chǎn)生全局頻繁項集。整個過程只需掃描數(shù)據(jù)庫兩次,大大減少了I/o操作時間,減少了產(chǎn)生的候選項集的數(shù)量。理論分析表明,改進后的Apriori算法的應用效率高,用程序實現(xiàn)了改進前后的算法,實驗結果也表明改進后的算法效率更高,而且隨著數(shù)據(jù)庫規(guī)模的擴大,效率提高更加明顯。本文還將研究成果應用到醫(yī)療信息系統(tǒng),構建了一個季節(jié)流行病關系模型,以發(fā)掘出季節(jié)與人們所可能罹患的流行病的關系,并進一步地探討了不同疾
4、病間潛在的可能聯(lián)系,為人們對疾病的防治提供參考。最后,在總結令文的基礎上,明確了F一步研究的日標和方向。關鍵詞:數(shù)據(jù)挖掘、關聯(lián)規(guī)則、Apriori算法、數(shù)據(jù)劃分、關系模型AbstractDataminingistorevealtheimplicatedbutusefulinformationfrommassive,incomplete,noise,fuzzydataset.Itsessentialtargetistoextractvaluablepatternfromthelarge—scaledatabase.As
5、sociationruleminingisanimportantbranchofdataminingthathasobtainedmanyvaluableresultsbuttherestillareadealofmorechallengingproblemstodiscuss.Thetaskofminingassociationrulesconsistsoftwomainsteps.Thefirstinvolvesfindingthesetofallfrequentitemsets.Thesecondstepinv
6、olvestestingandgeneratingallhighconfidencerulesamongitemsets.Forthebothstep,computablecomplexityisthebottleneckofthealgorithmforthenumberoffrequentitemsetsincreaseswiththenumberofitemsexponentially.ThispaperdescribeanalgorithmcalledPartitionthatisfundamentallyd
7、ifferentfromallthepreviousalgorithmsinthatitscansthedatabaseatmosttWOtimestOgenerateallsignificantassociationrules.Thealgorithmexecutesintwophases,Inthefirstphase,thePartitionalgorithmIogicallydividesthedatabaseintoanumberofnon—overlappingpartitions.Thepartitio
8、nsareconsideredoneatatimeandalllargeitemsetsforthatpartitionaregenerated.Attheendofphase1,theselargeitemsetsaremergedtogenerateasetofallpotentiallargeitemsets.Inphase11,Scan