數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用

數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用

ID:36631720

大?。?.43 MB

頁數(shù):55頁

時間:2019-05-13

數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用_第1頁
數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用_第2頁
數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用_第3頁
數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用_第4頁
數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用_第5頁
資源描述:

《數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫

1、武漢理工大學碩士學位論文數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用姓名:高偉峰申請學位級別:碩士專業(yè):計算機應用技術指導教師:熊盛武20060401中文摘要數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱合在其中的、人們事先不知道的、但又是潛在有劇的信息和知識的過程,其主要目標是從大型的數(shù)據(jù)庫中挖掘出對用戶有價值的模式。在事務數(shù)據(jù)庫中挖掘關聯(lián)規(guī)則是數(shù)據(jù)挖掘領域中一個非常重要的研究課題。在關聯(lián)規(guī)則挖掘過程中存在兩個問題:一是產(chǎn)生大項目集;二是產(chǎn)生強關聯(lián)規(guī)則。塒于這兩個問題,算法的復雜性是瓶頸,凼為頻繁集的數(shù)F1

2、和項目的數(shù)目成指數(shù)增長,所以導致在面對大規(guī)模的數(shù)據(jù)庫時,整個算法的耗時巨大,從而最終導致挖掘算法在實際工程中的應用效果較差。本文提出一種從大型數(shù)據(jù)庫中挖掘關聯(lián)規(guī)則的改進算法。該算法以經(jīng)典的Apriori算法為基礎,在分析研究已有各種優(yōu)化算法的基礎上,提出了數(shù)據(jù)劃分的方法,分兩個階段執(zhí)行。第一階段,掃描整個數(shù)據(jù)庫,將其分成若干互不相交的予塊,然后逐次調(diào)入內(nèi)存,根據(jù)支持度在每個子塊上的分配,對每個子塊應用Apriori算法,以產(chǎn)生局部頻繁項集,最后將每個子塊的頻繁項集合并作為第_階段所用的全局候選項集;第二階段,著眼于全

3、局頻繁項集的搜索。根據(jù)每個傘局頻繁項目集必在某個子塊卜是頻繁的這一性質(zhì),對第一階段產(chǎn)生的全局候選項集應用ApriOFi算法,由此產(chǎn)生全局頻繁項集。整個過程只需掃描數(shù)據(jù)庫兩次,大大減少了I/o操作時間,減少了產(chǎn)生的候選項集的數(shù)量。理論分析表明,改進后的Apriori算法的應用效率高,用程序實現(xiàn)了改進前后的算法,實驗結果也表明改進后的算法效率更高,而且隨著數(shù)據(jù)庫規(guī)模的擴大,效率提高更加明顯。本文還將研究成果應用到醫(yī)療信息系統(tǒng),構建了一個季節(jié)流行病關系模型,以發(fā)掘出季節(jié)與人們所可能罹患的流行病的關系,并進一步地探討了不同疾

4、病間潛在的可能聯(lián)系,為人們對疾病的防治提供參考。最后,在總結令文的基礎上,明確了F一步研究的日標和方向。關鍵詞:數(shù)據(jù)挖掘、關聯(lián)規(guī)則、Apriori算法、數(shù)據(jù)劃分、關系模型AbstractDataminingistorevealtheimplicatedbutusefulinformationfrommassive,incomplete,noise,fuzzydataset.Itsessentialtargetistoextractvaluablepatternfromthelarge—scaledatabase.As

5、sociationruleminingisanimportantbranchofdataminingthathasobtainedmanyvaluableresultsbuttherestillareadealofmorechallengingproblemstodiscuss.Thetaskofminingassociationrulesconsistsoftwomainsteps.Thefirstinvolvesfindingthesetofallfrequentitemsets.Thesecondstepinv

6、olvestestingandgeneratingallhighconfidencerulesamongitemsets.Forthebothstep,computablecomplexityisthebottleneckofthealgorithmforthenumberoffrequentitemsetsincreaseswiththenumberofitemsexponentially.ThispaperdescribeanalgorithmcalledPartitionthatisfundamentallyd

7、ifferentfromallthepreviousalgorithmsinthatitscansthedatabaseatmosttWOtimestOgenerateallsignificantassociationrules.Thealgorithmexecutesintwophases,Inthefirstphase,thePartitionalgorithmIogicallydividesthedatabaseintoanumberofnon—overlappingpartitions.Thepartitio

8、nsareconsideredoneatatimeandalllargeitemsetsforthatpartitionaregenerated.Attheendofphase1,theselargeitemsetsaremergedtogenerateasetofallpotentiallargeitemsets.Inphase11,Scan

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。