資源描述:
《關(guān)聯(lián)規(guī)則挖掘算法的研究及優(yōu)化》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、安徽大學碩士學位論文關(guān)聯(lián)規(guī)則挖掘算法的研究及優(yōu)化姓名:楊金鳳申請學位級別:碩士專業(yè):計算機軟件與理論指導教師:劉鋒2010-04摘要摘要為適應(yīng)信息處理的新需求,數(shù)據(jù)挖掘作為一種新的信息分析技術(shù)已經(jīng)在當前的數(shù)據(jù)倉庫環(huán)境中進入了實用階段。數(shù)據(jù)挖掘,也稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大量的、有噪聲的、不完全的、模糊的、隨機的數(shù)據(jù)中,提取人們事先不知道的、隱含在其中的、但又是潛在有用的知識和信息的過程,其主要目的是從海量的數(shù)據(jù)中挖掘出對用戶有價值的知識。關(guān)聯(lián)規(guī)則的挖掘是數(shù)據(jù)挖掘領(lǐng)域中一個非常重要的研究方向。一般來說,關(guān)聯(lián)規(guī)則的挖掘分為兩步:(1)無遺漏的找出所有頻繁項集:這些頻繁
2、項集的每一個出現(xiàn)的次數(shù)至少與預定義的最小支持度計數(shù)min_support一樣;(2)由頻繁項集生成強關(guān)聯(lián)規(guī)則:這些規(guī)則必須滿足最小置信度和最小支持度。關(guān)聯(lián)規(guī)則的挖掘算法性能主要是由第1步?jīng)Q定的。本文在對經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法Apriori算法研究的基礎(chǔ)上,對算法的優(yōu)缺點進行了分析,針對Apriori算法的第一步連接步中生成的很多候選項集并不是頻繁項集,為了這些項集花費了大量的系統(tǒng)開銷之一缺點,本文提出了一種改進算法DDApriori算法,對Apriori中的剪枝步驟進行了改進,通過該方法,可以有效地減少大量無用項集和減少判斷項集子集是否是頻繁項集的次數(shù)。實驗結(jié)果表明,
3、優(yōu)化后的算法有更好的效率。關(guān)鍵詞:關(guān)聯(lián)規(guī)則Apriori算法候選項集I頻繁項集關(guān)聯(lián)規(guī)則挖掘算法的研究及優(yōu)化AbstractInordertoadaptthenewdemandsofinformationprocessing,datamininghasenteredanewpracticalphaseinthecurrentdatawarehouseasanewinformationanalysistechnology.Datamining,alsoknownasknowledgediscoveryindatabases,isaprocessthatknowledg
4、eandinformationofpeopledonotknowinadvanceandcoveredinlargedatabutpotentiallyuseful,ispickedupfromlarge,noisy,incomplete,ambiguous,randomdata,themainpurposeofwhichistodiscovervaluableknowledgefromvastamountsofdataforusers.Miningassociationrulesisaveryimportantresearchdirectionofdataminin
5、g.Generallyspeaking,theassociationruleminingcanbedividedintotwosteps:(1)findallfrequentitemsetswithoutomission:countsallofthefrequentitemsetsappearedindatabasemustgreaterthanorequaltoapredefinedminimumsupport;(2)thestrongassociationrulesgeneratedfromfrequentitemsets:alloftheserulesmustm
6、eetthepredefinedminimumconfidenceandthepredefinedminimumsupport.Performanceofassociationruleminingalgorithmsmainlydecidedbythefirststep.Inthispaper,onthebasisofresearchAprioriAlgorithmwhichistheclassicalalgorithmofassociationrulesmining,analysestheadvantagesanddisadvantagesofthealgorith
7、m.ToponderoverthefirststepoftheApriorialgorithmgeneratealotofcandidateitemsetswhicharenotfrequentitemsets,andalloftheseitemsetscostalotofsystemspending.ThispaperpresentsanimprovedalgorithmDDApriorialgorithmtoimprovethetheAprioripruningsteps.Usingthismethod,thelargenumberofusele