數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用

ID：36631720

大?。?.43 MB

頁數(shù)：55頁

時間：2019-05-13

資源描述：

《數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用》由會員上傳分享，免費在線閱讀，更多相關內(nèi)容在學術論文-天天文庫。

1、武漢理工大學碩士學位論文數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用姓名：高偉峰申請學位級別：碩士專業(yè)：計算機應用技術指導教師：熊盛武20060401中文摘要數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，提取隱合在其中的、人們事先不知道的、但又是潛在有劇的信息和知識的過程，其主要目標是從大型的數(shù)據(jù)庫中挖掘出對用戶有價值的模式。在事務數(shù)據(jù)庫中挖掘關聯(lián)規(guī)則是數(shù)據(jù)挖掘領域中一個非常重要的研究課題。在關聯(lián)規(guī)則挖掘過程中存在兩個問題：一是產(chǎn)生大項目集；二是產(chǎn)生強關聯(lián)規(guī)則。塒于這兩個問題，算法的復雜性是瓶頸，凼為頻繁集的數(shù)F1

2、和項目的數(shù)目成指數(shù)增長，所以導致在面對大規(guī)模的數(shù)據(jù)庫時，整個算法的耗時巨大，從而最終導致挖掘算法在實際工程中的應用效果較差。本文提出一種從大型數(shù)據(jù)庫中挖掘關聯(lián)規(guī)則的改進算法。該算法以經(jīng)典的Apriori算法為基礎，在分析研究已有各種優(yōu)化算法的基礎上，提出了數(shù)據(jù)劃分的方法，分兩個階段執(zhí)行。第一階段，掃描整個數(shù)據(jù)庫，將其分成若干互不相交的予塊，然后逐次調(diào)入內(nèi)存，根據(jù)支持度在每個子塊上的分配，對每個子塊應用Apriori算法，以產(chǎn)生局部頻繁項集，最后將每個子塊的頻繁項集合并作為第_階段所用的全局候選項集；第二階段，著眼于全

3、局頻繁項集的搜索。根據(jù)每個傘局頻繁項目集必在某個子塊卜是頻繁的這一性質(zhì)，對第一階段產(chǎn)生的全局候選項集應用ApriOFi算法，由此產(chǎn)生全局頻繁項集。整個過程只需掃描數(shù)據(jù)庫兩次，大大減少了I／o操作時間，減少了產(chǎn)生的候選項集的數(shù)量。理論分析表明，改進后的Apriori算法的應用效率高，用程序實現(xiàn)了改進前后的算法，實驗結果也表明改進后的算法效率更高，而且隨著數(shù)據(jù)庫規(guī)模的擴大，效率提高更加明顯。本文還將研究成果應用到醫(yī)療信息系統(tǒng)，構建了一個季節(jié)流行病關系模型，以發(fā)掘出季節(jié)與人們所可能罹患的流行病的關系，并進一步地探討了不同疾

4、病間潛在的可能聯(lián)系，為人們對疾病的防治提供參考。最后，在總結令文的基礎上，明確了F一步研究的日標和方向。關鍵詞：數(shù)據(jù)挖掘、關聯(lián)規(guī)則、Apriori算法、數(shù)據(jù)劃分、關系模型AbstractDataminingistorevealtheimplicatedbutusefulinformationfrommassive，incomplete，noise，fuzzydataset．Itsessentialtargetistoextractvaluablepatternfromthelarge—scaledatabase．As

5、sociationruleminingisanimportantbranchofdataminingthathasobtainedmanyvaluableresultsbuttherestillareadealofmorechallengingproblemstodiscuss．Thetaskofminingassociationrulesconsistsoftwomainsteps．Thefirstinvolvesfindingthesetofallfrequentitemsets．Thesecondstepinv

6、olvestestingandgeneratingallhighconfidencerulesamongitemsets．Forthebothstep，computablecomplexityisthebottleneckofthealgorithmforthenumberoffrequentitemsetsincreaseswiththenumberofitemsexponentially．ThispaperdescribeanalgorithmcalledPartitionthatisfundamentallyd

7、ifferentfromallthepreviousalgorithmsinthatitscansthedatabaseatmosttWOtimestOgenerateallsignificantassociationrules．Thealgorithmexecutesintwophases，Inthefirstphase，thePartitionalgorithmIogicallydividesthedatabaseintoanumberofnon—overlappingpartitions．Thepartitio

8、nsareconsideredoneatatimeandalllargeitemsetsforthatpartitionaregenerated．Attheendofphase1，theselargeitemsetsaremergedtogenerateasetofallpotentiallargeitemsets．Inphase11，Scan

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 55



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用

數(shù)據(jù)挖掘中關聯(lián)規(guī)則的研究及應用

相關文章

相關標簽