資源描述:
《基于apriori算法的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)摘要隨著信息時(shí)代的發(fā)展,信息量呈幾何級(jí)數(shù)增長(zhǎng),人們發(fā)現(xiàn)從這些海量信息中獲取有用的信息越來(lái)越困難,要找出信息背后隱藏的規(guī)律更是不可想象。數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中獲取有用信息的一門(mén)新技術(shù),關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘方法中的一種。本文詳細(xì)論述了基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)的設(shè)計(jì)開(kāi)發(fā)過(guò)程。系統(tǒng)基于經(jīng)典的Apriori算法,對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行了位圖矩陣轉(zhuǎn)換,大大提高了搜索效率,并能分別挖掘頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。論文組織如下:首先介紹了數(shù)據(jù)挖掘的產(chǎn)生、定義和應(yīng)用;
2、接著闡述了關(guān)聯(lián)規(guī)則挖掘的基本概念;然后對(duì)系統(tǒng)的需求進(jìn)行了分析,并提出設(shè)計(jì)方案;緊接著是系統(tǒng)的具體實(shí)現(xiàn);最后對(duì)系統(tǒng)進(jìn)行了測(cè)試,將系統(tǒng)用于挖掘中藥方劑庫(kù)中的藥對(duì)藥組,驗(yàn)證了系統(tǒng)的正確性和實(shí)用性。關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori算法需求分析和設(shè)計(jì)方案4.1需求分析由于事務(wù)數(shù)據(jù)庫(kù)一般只具有對(duì)大量數(shù)據(jù)的存取、檢索功能,對(duì)于用戶的一般性的使用可以滿足,然而,正是由于數(shù)據(jù)庫(kù)中存放了大量的數(shù)據(jù),不同的數(shù)據(jù)項(xiàng),以及多個(gè)數(shù)據(jù)項(xiàng)之間還存在有大量的隱含的、未知的、有意義的數(shù)據(jù)關(guān)系,這些關(guān)系對(duì)于用戶有著及其重要的作用,所以
3、數(shù)據(jù)挖掘便在此情況下產(chǎn)生了。而關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中一個(gè)重要規(guī)則,Apriori算法又是關(guān)聯(lián)挖掘的一個(gè)經(jīng)典算法,它能發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。隨著大量數(shù)據(jù)不停地收集和存儲(chǔ),許多業(yè)界人士對(duì)于從他們的數(shù)據(jù)庫(kù)中挖掘關(guān)聯(lián)規(guī)則越來(lái)越感興趣。從大量商務(wù)事務(wù)記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多商務(wù)決策的制定,如分類(lèi)設(shè)計(jì)、交叉購(gòu)物和促銷(xiāo)分析。1引言隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來(lái)越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更
4、好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。缺乏找出數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。于是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并顯示出強(qiáng)大的生命力。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。它使人類(lèi)分析問(wèn)題和發(fā)現(xiàn)知識(shí)能力得到了延伸。2數(shù)據(jù)挖掘概述2.1數(shù)據(jù)挖掘的產(chǎn)生隨著信息時(shí)代的發(fā)展,信息量呈幾何級(jí)
5、數(shù)增長(zhǎng),然而用于對(duì)這些數(shù)據(jù)進(jìn)行分析處理的工具卻很少,人們擁有了海量的數(shù)據(jù)的同時(shí)卻苦于信息的缺乏。而激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。信息爆炸是一把雙刃劍:巨量的信息既是最重要的財(cái)富,又是最危險(xiǎn)的殺手。巨量信息也導(dǎo)致決策與理解危機(jī)。面對(duì)“人人被數(shù)據(jù)淹
6、沒(méi),人們卻饑餓于知識(shí)”的挑戰(zhàn),數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來(lái)越顯示出其強(qiáng)大的生命力。數(shù)據(jù)挖掘是信息技術(shù)自然演化的結(jié)果。演化過(guò)程的見(jiàn)證是數(shù)據(jù)庫(kù)業(yè)界開(kāi)發(fā)以下功能:數(shù)據(jù)收集和數(shù)據(jù)庫(kù)創(chuàng)建,數(shù)據(jù)管理(包括數(shù)據(jù)存儲(chǔ)和檢索,數(shù)據(jù)庫(kù)事務(wù)處理),以及數(shù)據(jù)分析與理解(涉及數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘)。例如,數(shù)據(jù)收集和數(shù)據(jù)庫(kù)創(chuàng)建機(jī)制的早期開(kāi)發(fā)已成為稍后數(shù)據(jù)存儲(chǔ)和檢索、查詢和事務(wù)處理有效機(jī)制開(kāi)發(fā)的必備基礎(chǔ)。隨著提供查詢和事務(wù)處理的大量數(shù)據(jù)庫(kù)系統(tǒng)廣泛付諸實(shí)踐,數(shù)據(jù)分析和理解自然成為下一個(gè)目標(biāo)。2.2數(shù)據(jù)挖掘的定義數(shù)據(jù)挖
7、掘是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。具體來(lái)說(shuō),數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。人們把原始數(shù)據(jù)看作是形成知識(shí)的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)有結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),也有半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過(guò)程控制等,還可以用于數(shù)據(jù)自身的
8、維護(hù)。因此,數(shù)據(jù)挖掘是一門(mén)很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。數(shù)據(jù)挖掘使用復(fù)雜的統(tǒng)計(jì)分析和建模技術(shù)來(lái)揭示企業(yè)數(shù)據(jù)庫(kù)中隱藏的模式與關(guān)系——而這些模式是有可能被普通的方法所忽略的。數(shù)據(jù)挖掘從數(shù)據(jù)的分析入手、幫助決策,能從數(shù)據(jù)中尋找有價(jià)值的規(guī)律的技術(shù)。同時(shí)它也代表一個(gè)分析過(guò)程,我們具體化為方法學(xué)。實(shí)際上,數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)是一門(mén)交叉性