資源描述:
《改進apriori算法及其在領(lǐng)域數(shù)據(jù)挖掘中應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下,進行研究工作所取得的成果。除文屮已經(jīng)注明引用的內(nèi)容外,本學(xué)位論文的研究成果不包含任何他人創(chuàng)作的、已公開發(fā)表或者沒有公開發(fā)表的作品的內(nèi)容。對本論文所涉及的研究工作做岀貢獻的其他個人和集體,均己在文中以明確方式標(biāo)明。本學(xué)位論文原創(chuàng)性聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者簽名:.妙關(guān)于學(xué)位論文版權(quán)使用授權(quán)的說明本人完全了解河北工業(yè)大學(xué)關(guān)于收集、保存、使用學(xué)位論文的規(guī)定。同意如下各項內(nèi)容:按照學(xué)校要求提交學(xué)位論文的印刷本和電子版本;學(xué)校有權(quán)保存學(xué)位論文的印刷本和電子版,并采用影印、縮印
2、、掃描、數(shù)字化或其它手段保存論文;學(xué)校有權(quán)提供目錄檢索以及提供木學(xué)位論文全文或者部分的閱覽服務(wù);學(xué)校有權(quán)按有關(guān)規(guī)定向國家有關(guān)部門或者機構(gòu)送交論文的復(fù)印件和電子版;在不以贏利為目的的前提下,學(xué)校可以適當(dāng)復(fù)制論文的部分或全部內(nèi)容用于學(xué)術(shù)活動。(保密的學(xué)位論文在解密后適用本授權(quán)說明)學(xué)位論文作者簽名:導(dǎo)師簽名:第一章緒論§1-1課題研究背景和意義1-1-1課題研究背景隨著計算機的普及應(yīng)用和計算機網(wǎng)絡(luò)的飛速發(fā)展,在過去若干年里,無論是商業(yè)企業(yè)、科研機構(gòu)或者政府部門,各個領(lǐng)域都積累了海量的、以不同形式存儲的數(shù)據(jù)。面對這些以不同形式存儲的海量數(shù)據(jù),人
3、們要想獲得自己想要的知識,往往感覺到無從下手,因此,經(jīng)常處于一種“數(shù)據(jù)豐富而信息貧乏”的尷尬狀況。如何才能從數(shù)據(jù)的海洋里獲取有價值的信息已成為眾多專家學(xué)者的研究重點。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的產(chǎn)生為這個問題提供了一種可行的解決方案。數(shù)據(jù)倉庫(DalaWarehouse,簡稱DW)是20世紀(jì)90年代初由W.H.Inmon首次提出來的。他對數(shù)據(jù)倉庫的定義為:“是一個面向主題的、集成的、不可更新的且隨時間不斷變化的數(shù)據(jù)集合,用來支持管理人員決策”[llo數(shù)據(jù)倉庫技術(shù)為領(lǐng)域數(shù)據(jù)的集成提供了解決方案,也為數(shù)據(jù)挖掘提供了更廣闊的發(fā)展空間和應(yīng)用前景。數(shù)據(jù)
4、挖掘(DataMining,簡稱DM)也稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases,簡稱KDD),是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但乂是潛在有用的信息和知識的過程⑵。數(shù)據(jù)挖掘最初主要應(yīng)用于商業(yè)活動,主要目的是從大暈數(shù)據(jù)屮尋找有用的信息,如市場管理、欺詐管理和風(fēng)險管理。它主要應(yīng)用于對數(shù)據(jù)的加工,并從己冇的數(shù)據(jù)庫中找出新的知識或規(guī)律,從大量積累的數(shù)據(jù)中挖掘出我們感興趣的信息或還未掌握的新知識。用數(shù)據(jù)挖掘工具對數(shù)據(jù)進行分析,從而發(fā)現(xiàn)重要的數(shù)據(jù)模式,
5、對商務(wù)決策、金融、科學(xué)和醫(yī)學(xué)等領(lǐng)域研究做出了巨大貢獻。要想完成數(shù)據(jù)和信息之間的轉(zhuǎn)換,就需要系統(tǒng)地開發(fā)一套合適的數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)換成知識“金塊”。目前,數(shù)據(jù)挖掘的研究己和數(shù)據(jù)倉庫的研究結(jié)合起來.數(shù)據(jù)倉庫環(huán)境下數(shù)據(jù)挖掘技術(shù)的研究已成為信息科學(xué)的熱點問題之一。1-1-2課題研究意義領(lǐng)域數(shù)據(jù)挖掘是建立在領(lǐng)域數(shù)據(jù)倉庫技術(shù)之上的?;跀?shù)據(jù)倉庫和數(shù)據(jù)挖掘的知識,領(lǐng)域數(shù)據(jù)倉庫的建立為領(lǐng)域數(shù)據(jù)挖掘提供了一個數(shù)據(jù)支撐平臺,領(lǐng)域數(shù)據(jù)倉庫把領(lǐng)域數(shù)據(jù)集成一體,供挖掘使用。領(lǐng)域數(shù)據(jù)挖掘有著深遠(yuǎn)的研究意義,主要概括為以下兩點。1)領(lǐng)域數(shù)據(jù)的統(tǒng)一規(guī)范化管理。隨
6、著各企業(yè)部門的管理服務(wù)等系統(tǒng)的不斷完善,數(shù)據(jù)量越來越大,領(lǐng)域數(shù)據(jù)倉庫的建立為領(lǐng)域內(nèi)數(shù)據(jù)的集成提供-個平臺,為領(lǐng)域數(shù)據(jù)的統(tǒng)一規(guī)范化管理也提供了一個數(shù)據(jù)標(biāo)準(zhǔn)。2)為領(lǐng)域高層管理者提供決策支持。建立領(lǐng)域數(shù)據(jù)挖掘系統(tǒng),領(lǐng)域高層決策者可以從大量的領(lǐng)域相關(guān)數(shù)據(jù)中獲取有用知識,從而為決策提供科學(xué)的有利依據(jù)?!?-2研究現(xiàn)狀1-2-1數(shù)據(jù)倉庫研究現(xiàn)狀由于數(shù)據(jù)倉庫最初從國外發(fā)展起來,因此應(yīng)用己較為普遍,在數(shù)據(jù)積累方面也占有比較領(lǐng)先的位置,而且由于業(yè)務(wù)人員IT背景較強,業(yè)務(wù)應(yīng)用也較為豐富,因此在數(shù)據(jù)倉庫建設(shè)方面有比較完善的管理和實施方案,從忖前情況來看,世界
7、五百強的企業(yè)絕大多數(shù)己經(jīng)建設(shè)完成或正在建設(shè)自己的數(shù)據(jù)倉庫系統(tǒng),處于世界領(lǐng)先地位的電信運營企業(yè)均建有數(shù)據(jù)倉庫系統(tǒng)⑶。20世紀(jì)90年代中后期國外電信運營商開始數(shù)據(jù)倉庫的建設(shè)工作,如AT&Twireless,從1997年夏天開始用了將近4年的時間,一直到2001年8月才完成,后來經(jīng)過多次改造,新增了18個數(shù)據(jù)源,并進行了大規(guī)模的節(jié)點和系統(tǒng)的擴展。建設(shè)始于1994年的西南貝爾的數(shù)據(jù)倉庫是當(dāng)時最大的數(shù)據(jù)倉庫,后經(jīng)擴展,至I」2000年9月份時已達到178個節(jié)點,7120個18.2G的磁盤,數(shù)據(jù)庫容量達128TB,2004年9月時達314個節(jié)點,數(shù)據(jù)
8、庫容量高達242TB⑷。各大公司企業(yè)都在不斷建設(shè)擴展自己的數(shù)據(jù)倉庫系統(tǒng)。近幾年來,隨著中國市場競爭的加劇和企業(yè)信息化的需要,國內(nèi)的數(shù)據(jù)倉庫建設(shè)得到了迅猛發(fā)展,如鐵道部門引入數(shù)據(jù)倉庫進行客流分析