資源描述:
《關聯(lián)規(guī)則的相關算法研究-基于apriori和_fp-growth算法》由會員上傳分享,免費在線閱讀,更多相關內容在工程資料-天天文庫。
1、學校代碼:10491研究生學號:中國地質大學碩士學位論文關聯(lián)規(guī)則的相關算法研究-基于Apriori和FP-growth算法碩士生:學科專業(yè):計算機軟件與理論指導教師:二○一○年五月學校代碼:10491研究生學號:中國地質大學碩士學位論文關聯(lián)規(guī)則的相關算法研究-基于Apriori和FP-growth算法碩士生:學科專業(yè):計算機軟件與理論指導教師:二○一○年五月學校代碼:10491研究生學號:中國地質大學碩士學位論文關聯(lián)規(guī)則的相關算法研究-基于Apriori和FP-growth算法碩士生:學科專業(yè):計算機軟件與理論指導教師:二○一○年五月學校代碼
2、:10491研究生學號:中國地質大學碩士學位論文關聯(lián)規(guī)則的相關算法研究-基于Apriori和FP-growth算法碩士生:學科專業(yè):計算機軟件與理論指導教師:二○一○年五月ADissertationSubmittedtoChinaUniversityofGeosciencesfortheMasterDegreeofComputerSoftwareandTheoryResearchonAssociationRulesMiningAlgorithm-baseonAprioriandFP-growthMasterCandidate:LIANGWei
3、Major:ComputerSoftwareandTheorySupervisor:SUNBinChinaUniversityofGeosciencesWuhanP.R.China中國地質大學(武漢)研究生學位論文原創(chuàng)性聲明本人鄭重聲明:本人所呈交的碩士學位論文《關聯(lián)規(guī)則的相關算法研究-基于Apriori和FP-growth算法》,是本人在導師的指導下,在中國地質大學(武漢)攻讀碩士學位期間獨立進行研究工作所取得的成果。論文中除已注明部分外不包含他人已發(fā)表或撰寫過的研究成果,對論文的完成提供過幫助的有關人員已在文中說明并致以謝意。本人所呈交的
4、碩士學位論文沒有違反學術道德和學術規(guī)范,沒有侵權行為,并愿意承擔由此而產生的法律責任和法律后果。學位論文作者(簽字):日期: 年 月 日作者簡介梁偉,男,壯族,1976年1月出生于廣西壯族自治區(qū)崇左市。2008年9月進入中國地質大學(武漢)信息工程學院攻讀碩士學位,專業(yè)為計算機軟件與理論,研究方向為數(shù)據(jù)庫技術和數(shù)據(jù)挖掘。至今已經修完全部課程,共計15門課程,其中學位課程10門,選修課程5門,各門課程成績合格,總學分為28分,各科平均成績?yōu)?2分。在碩士研究生學習階段,認真學習專業(yè)知識,閱讀大量專業(yè)文獻,以第一作者在公開刊物發(fā)表論文兩篇:
5、△《關聯(lián)規(guī)則算法探討》-企業(yè)技術開發(fā)(CN43-1172/TB,2009.10)△《基于MYSQL的SQL注入問題研究》-科教導刊(CN42-1795/N,2009.12)關聯(lián)規(guī)則的相關算法研究-基于Apriori和FP-growth算法碩士生:梁偉導師:孫斌摘要數(shù)據(jù)挖掘是當今人工智能和數(shù)據(jù)庫研究方面最富活力的領域。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的知識的過程。關聯(lián)規(guī)則數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個主要研究內容,而如何快速發(fā)現(xiàn)頻繁項集是關聯(lián)規(guī)則數(shù)據(jù)挖掘算法的核心問題。本文討論了數(shù)據(jù)挖掘和關聯(lián)規(guī)則的一般理論,包括數(shù)據(jù)挖掘的概念、任務、模式以
6、及數(shù)據(jù)挖掘的應用和發(fā)展趨勢。深入研究了關聯(lián)規(guī)則挖掘算法,分析了關聯(lián)規(guī)則挖掘中經典的Apriori和FP-growth算法,并總結了Apriori和FP-growth算法中存在的問題。針對Apriori算法的效率問題,從兩個角度進行改進:(1)降低候選項目集中候選項產生的數(shù)量;(2)減少掃描數(shù)據(jù)庫的次數(shù)。給出了一種較為高效的關聯(lián)規(guī)則挖掘算法。算法的主要思想是在掃描數(shù)據(jù)庫的同時把支持每個項目的事務都標記出來,采用一種新的方法生成所有的頻繁集。該算法只需對源數(shù)據(jù)庫進行一次掃描就可以找出所有的頻繁集,并通過裁剪候選集的方法達到減少候選項數(shù)目集的目的。
7、這樣做不但降低了算法的I/O負荷,而且減少了時間開銷,具有很高的效率。最后,將基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘改進算法方法應用到學生考試成績管理中,對挖掘結果進行了分析,并提出了指導意見。本文的工作雖然取得了一定的成果,但尚有大量問題有待于進一步研究,比如,關聯(lián)規(guī)則挖掘應用系統(tǒng)的設計;關聯(lián)規(guī)則有趣度的研究以及如何將挖掘結果友好地呈現(xiàn)給用戶。關鍵詞:數(shù)據(jù)挖掘關聯(lián)規(guī)則頻繁集支持度可信度ResearchonAssociationRulesMiningAlgorithm-baseonAprioriandFP-growthMasterCandidate:LIAN
8、GWeiSupervisor:SUNBinABSTRACTDataMiningisoneofthemostactiveresearchfields,especial