資源描述:
《關(guān)聯(lián)規(guī)則挖掘算法研究 (1)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、西南交通大學碩士學位論文關(guān)聯(lián)規(guī)則挖掘算法研究姓名:陳凱申請學位級別:碩士專業(yè):通信與信息系統(tǒng)指導教師:馮全源20050501西南交通大學碩士研究生學位論文第1頁摘要數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中提取知識,因此又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),它是一個跨學科的新興研究領(lǐng)域。關(guān)聯(lián)規(guī)則分析是其中的一個重要分支,用'丁二發(fā)現(xiàn)存在于數(shù)據(jù)庫中的項或?qū)傩蚤g的有趣聯(lián)系,這些聯(lián)系是事先未知且隱藏的,即不能通過傳統(tǒng)的數(shù)據(jù)庫邏輯操作或統(tǒng)計的方法得出。因此關(guān)聯(lián)規(guī)則挖掘不是基于數(shù)據(jù)自身的固有屬性,而是基于數(shù)據(jù)項的同時出現(xiàn)特征。本文首先介紹了數(shù)據(jù)挖掘的基本概念、存在問題及發(fā)展方向。其次介紹了關(guān)聯(lián)分析的基本概念、分類及一些
2、常見的算法思想,其中著重討論了關(guān)聯(lián)規(guī)則算法。關(guān)聯(lián)規(guī)則描述了給定數(shù)據(jù)集中項與項間的有趣聯(lián)系。目前對海量數(shù)據(jù)集關(guān)聯(lián)規(guī)則的研究主要集中在生成頻繁閉項集的挖掘算法上。經(jīng)典的頻繁閉項集挖掘算法CLOSET+根據(jù)不同的數(shù)據(jù)集結(jié)構(gòu)特征,選擇自下而上投影FP—tree策略或自上而下偽投影FP.tree策略生成候選頻繁閉項集,然后再檢測候選項集,篩選出頻繁閉項集,計算的成本較高。本文提出了一種基于棧結(jié)構(gòu)的FP.tree挖掘算法S—growth,其僅需構(gòu)造一棵全局FP.tree,此后利用壓棧與出棧過程實現(xiàn)對FP—tree的挖掘,挖掘過程中無需構(gòu)造條件FP.tree,也不需引入遞歸策略遍歷FP—tree
3、,而且在挖掘過程中可以直接得到完備且非冗余的頻繁閉項集。關(guān)鍵詞:數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則;頻繁項集;頻繁閉項集;棧西南交通大學碩士研究生學位論文第1I頁AbstractDataMiningdistillsknowledgefromamassofdata.So.itiSalsocalledKnowledgeDiscoverfromDatabase.Itisanewresearchareainvolvingseveralbranchsoflearningandcontainingmanydomains.Associationruleisoneofthemostimportantdomains
4、amongthem,whichfindstheinterestingrelationsbetweeniternsorattributesofdatabase.Theserelationsareunknownandhide,i.e.itcannotbegottenwithlogicoperationsorstatisticmethodsoftraditionaldatabaseoperationtechniques.So,miningassociationruledonotbaseonself-attributesbutonco—appearancecharacteramongite
5、msofdatabase.Atthebeginthispaperfirstlyintroducessomebasicprincipaltheories,directionsofdevelopmentandproblemsinthefaceof.Andthen,thispaperpresentstheconceptions,classesandgeneralthoughtsofthealgorithmsaboutassociationrule.Amongthose,someassociationrulealgorithmsal'ediscusseddeeply.Theinterest
6、ingrelationsamongitemsofdatasetal'ereleasedbyassociationrule.Currentresearchinterestingintheassociationrulefocusesonthealgorithmaboutminingfrequemcloseditemsets.Basedonthecharacterofdifferentdatasetstructure,theclassicalgorithmaboutminingfrequentcloseditemsetsCLOSET+needtoadoptbottom-upphysica
7、ltree—projectionortop+downpseudotree—projectionstrategytogetcandidatefrequentcloseditemsets,andthenchecksitforobtainingfrequentcloseditemsets.So,thecostishi曲.ThispaperpresentsanovelminingfrequentcloseditemsetsalgorithmS-growthtomineFP-t