資源描述:
《基于apriori算法的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)的設(shè)計與實(shí)現(xiàn)論文》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)的設(shè)計與實(shí)現(xiàn)論文..畢業(yè)摘要隨著信息時代的發(fā)展,信息量呈幾何級數(shù)增長,人們發(fā)現(xiàn)從這些海量信息中獲取有用的信息越來越困難,要找出信息背后隱藏的規(guī)律更是不可想象。數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中獲取有用信息的一門新技術(shù),關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘方法中的一種。本文詳細(xì)論述了基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)的設(shè)計開發(fā)過程。系統(tǒng)基于經(jīng)典的Apriori算法,對事務(wù)數(shù)據(jù)庫進(jìn)行了位圖矩陣轉(zhuǎn)換,大大提高了搜索效率,并能分別挖掘頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。論文組織如下:首先介紹了數(shù)據(jù)挖掘的產(chǎn)生、定義和應(yīng)用;接著闡述了關(guān)聯(lián)規(guī)則挖掘的
2、基本概念;然后對系統(tǒng)的需求進(jìn)行了分析..畢業(yè),并提出設(shè)計方案;緊接著是系統(tǒng)的具體實(shí)現(xiàn);最后對系統(tǒng)進(jìn)行了測試,將系統(tǒng)用于挖掘中藥方劑庫中的藥對藥組,驗(yàn)證了系統(tǒng)的正確性和實(shí)用性。關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori算法需求分析和設(shè)計方案4.1需求分析由于事務(wù)數(shù)據(jù)庫一般只具有對大量數(shù)據(jù)的存取、檢索功能,對于用戶的一般性的使用可以滿足,然而,正是由于數(shù)據(jù)庫中存放了大量的數(shù)據(jù),不同的數(shù)據(jù)項(xiàng),以及多個數(shù)據(jù)項(xiàng)之間還存在有大量的隱含的、未知的、有意義的數(shù)據(jù)關(guān)系,這些關(guān)系對于用戶有著及其重要的作用,所以數(shù)據(jù)挖掘便在此情況下產(chǎn)生了。而關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘
3、中一個重要規(guī)則,Apriori算法又是關(guān)聯(lián)挖掘的一個經(jīng)典算法,它能發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。隨著大量數(shù)據(jù)不停地收集和存儲,許多業(yè)界人士對于從他們的數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則越來越感興趣。從大量商務(wù)事務(wù)記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多商務(wù)決策的制定,如分類設(shè)計、交叉購物和促銷分析。1引言隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)
4、數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏找出數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。于是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并顯示出強(qiáng)大的生命力。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它使人類分析問題和發(fā)現(xiàn)知識能力得到了延伸。2數(shù)據(jù)挖掘概述2.1數(shù)據(jù)挖掘的產(chǎn)生隨著信息時代的發(fā)展,信息量呈幾何級數(shù)增長,然而用于對這些數(shù)據(jù)進(jìn)行分析處理的工具卻很少,人們擁有了海量的數(shù)據(jù)的同時卻苦于信息的缺乏。而激增的數(shù)據(jù)背后隱藏著許多重
5、要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。信息爆炸是一把雙刃劍:巨量的信息既是最重要的財富,又是最危險的殺手。巨量信息也導(dǎo)致決策與理解危機(jī)。面對“人人被數(shù)據(jù)淹沒,人們卻饑餓于知識”的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。數(shù)據(jù)挖掘是信息技術(shù)自然演化的結(jié)果。演化過程的見證是數(shù)據(jù)
6、庫業(yè)界開發(fā)以下功能:數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建,數(shù)據(jù)管理(包括數(shù)據(jù)存儲和檢索,數(shù)據(jù)庫事務(wù)處理),以及數(shù)據(jù)分析與理解(涉及數(shù)據(jù)倉庫和數(shù)據(jù)挖掘)。例如,數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建機(jī)制的早期開發(fā)已成為稍后數(shù)據(jù)存儲和檢索、查詢和事務(wù)處理有效機(jī)制開發(fā)的必備基礎(chǔ)。隨著提供查詢和事務(wù)處理的大量數(shù)據(jù)庫系統(tǒng)廣泛付諸實(shí)踐,數(shù)據(jù)分析和理解自然成為下一個目標(biāo)。2.2數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識。具體來說,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。人們把原始數(shù)據(jù)看
7、作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)有結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也有半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。數(shù)據(jù)挖掘使用復(fù)雜的統(tǒng)計分析和建模技術(shù)來揭示企業(yè)數(shù)據(jù)庫中隱藏的模式與關(guān)系——而這些模式
8、是有可能被普通的方法所忽略的。數(shù)據(jù)挖掘從數(shù)據(jù)的分析入手、幫助決策,能從數(shù)據(jù)中尋找有價值的規(guī)律的技術(shù)。同時它也代表一個分析過程,我們具體化為方法學(xué)。實(shí)際上,數(shù)據(jù)庫中的