資源描述:
《基于矩陣的關(guān)聯(lián)規(guī)則挖掘算法的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、山東大學(xué)碩士學(xué)位論文基于矩陣的關(guān)聯(lián)規(guī)則挖掘算法的設(shè)計(jì)與實(shí)現(xiàn)姓名:牛小飛申請(qǐng)學(xué)位級(jí)別:碩士專(zhuān)業(yè):計(jì)算機(jī)軟件與理論指導(dǎo)教師:石冰山東大學(xué)很大的進(jìn)步,然而,有一幣架中還沒(méi)有被發(fā)現(xiàn),如規(guī)則天上漲,四天后下跌的可能我們稱該規(guī)則為事務(wù)間關(guān)耳;出了挖掘1.維事務(wù)間關(guān)聯(lián)關(guān)鍵字:數(shù)據(jù)挖掘、關(guān)聯(lián)規(guī)山東才AbstactDhaetpam?1bn1?1engmor0abundantdataaarchfr0nt■1erw?1nf0rmat■10nscat?10nshaVegre?1mpr0Vedtheabedt0af?1e1dthabr0adpr0spectescr?1besth
2、ec0funct?10n0fdatatam?1n?1ngsystd?1fferencebetpr0gresmu1'pe0srw¥ai?1st?1ngasm?1n?1ngfrMm?10csrt01s■10kfeurdaysafterc0mest?1ngwe?1ntertrec0n.cept■1nter—tp■1r0cessnter—traethnoaaanyroncapacat■亠faeoroeW8io111±1%11o?IXomnKeyWords:DataminiiUpdationassocia日期:本人鄭重聲明:月立進(jìn)行研究所取得的萬(wàn)包含任何其他個(gè)人
3、或糜究作出重要貢獻(xiàn)的個(gè)丿的法彳唸議*X諸基于矩陣由第一章引言1?1課題提f隨著信息技術(shù)的迅其主要原因是隨著數(shù)據(jù)黍知俱種類(lèi)甫例如,則問(wèn)題【2】,并于199書(shū)富弄奚聯(lián)規(guī)則的挖掘問(wèn)題算法進(jìn)行優(yōu)化,如引入隨機(jī)算法挖掘規(guī)則的效率:有的二Apriori算法的挖掘刁挖掘頻繁項(xiàng)集的FP—Gr(六珈關(guān)聯(lián)規(guī)則的挑戰(zhàn)性在于數(shù)扌用內(nèi)存小、L/o操作少、扌關(guān)聯(lián)規(guī)則挖凰編加4W標(biāo)數(shù)據(jù)中客體BI山東大第二章課題研究邸數(shù)據(jù)挖掘(Dat中提取隱含其中、人忙式進(jìn)行高級(jí)處理的遼面關(guān)于關(guān)聯(lián)規(guī)則的研究2.1數(shù)據(jù)衣2.1.3分類(lèi)(學(xué)會(huì)一個(gè)分類(lèi)函數(shù)或分類(lèi)杉據(jù)項(xiàng)映射到給定類(lèi)別中的某集),以及基于訓(xùn)練
4、集中數(shù)成一系列的分類(lèi)規(guī)則,這些以更好地理解數(shù)據(jù)庫(kù)中的每距離度量。2?1?6演彳這可能包括時(shí)間相關(guān)數(shù)特點(diǎn)包括時(shí)間序列分析2o2數(shù)據(jù)挖掘1典型的數(shù)據(jù)挖掘山東大學(xué)彳用戶確信方面的知識(shí)也可匸模式的興趣度。?數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘的最重要I成,用于特征化、關(guān)聯(lián)、分類(lèi)?模式評(píng)估模塊:通常此成分使用興趣度'以便將搜索聚集在有趣的模:評(píng)估模塊也可以與挖掘模塊3對(duì)于有效的數(shù)據(jù)挖掘,建議丿搜索限制在有興趣的模式上。概括說(shuō)來(lái),數(shù)據(jù)非的本質(zhì)區(qū)別是數(shù)據(jù)挖掘據(jù)挖掘所得到的信息應(yīng)是指該信息是預(yù)先未預(yù)或知識(shí),甚至是違背直賢有價(jià)值。數(shù)據(jù)挖掘是從現(xiàn)呂數(shù)據(jù)挖掘出現(xiàn)之前早亡準(zhǔn)備的數(shù)據(jù),這
5、些數(shù)據(jù)第三章ABM算法的理關(guān)聯(lián)規(guī)則描述了數(shù)據(jù)庫(kù)中,關(guān)聯(lián)規(guī)則模式是比較重g出,是數(shù)據(jù)挖掘中一種簡(jiǎn)單彳聯(lián)規(guī)則的算法屬于無(wú)監(jiān)督學(xué)習(xí)£3?1關(guān)聯(lián)規(guī)則的有:子集設(shè)即iT厲項(xiàng)白關(guān)聯(lián)151116】山東刁狀況不好,索賠率也木描述關(guān)聯(lián)規(guī)則屬I(mǎi))支持度(S支持度s是Dsuppon(Az,事務(wù)中岀跳的概率。例m,有100條,則關(guān)聯(lián)夫頻度。滿足最小支持衛(wèi)黑有3)擄?僵山東大學(xué)供。例如對(duì)一個(gè)學(xué)校的50顯示:60%的學(xué)生(3CN1(2000)既打籃球又匚則“打籃球j吃谷類(lèi)早餐,,是-2000/3000=665因?yàn)榭偟某怨阮?lèi)早餐的學(xué)生I即避免生感:鯉,旳卿則flB)=P(B山東大是
6、布爾型關(guān)聯(lián)規(guī)則;性所以是一個(gè)數(shù)值型關(guān)聯(lián)2.基于規(guī)則中數(shù);在單層的關(guān)聯(lián)規(guī)貝同的層次的;而在多層例如:IBM臺(tái)式機(jī)==>Sony打印機(jī),ABM算法挖掘的是單整數(shù)弓山東大學(xué)TIDItemsetsT1BroadoCoke,CT2Coke,Beerl"3Coke.Mill(T4Bread?Coke.T5Bread?M鹽T6Coke,Mi1kT7Bread.MiIkT8Bread,Coke,hz7n9Bread,Coke山東大on高算法丿皆能就是產(chǎn)生的*上存在著問(wèn)題。主K)都需要掃描數(shù)昨L2是最耗床山東大學(xué);第一遍,先把數(shù)據(jù)J個(gè)部分能夠放入內(nèi)彳項(xiàng)集)。然后匯總j全
7、局支持度,以確;頻繁集至少在一個(gè);想,同樣可以減輕(進(jìn)行掃描的事務(wù)集山東h最小支持度而它們不包當(dāng)k=2時(shí)的性能是一使用哈希函數(shù)h(x,y)=(((£i口~q舌+(ord?t山東大學(xué)項(xiàng),并分別挖掘每個(gè)數(shù)據(jù)棒在內(nèi)存中,將原來(lái)從磁盤(pán)耶比在磁盤(pán)中快數(shù)萬(wàn)倍57..論文[7]對(duì)FP—tr,(1)它有一個(gè)標(biāo)記為prefixsubtree)的集合,itable).(2)每個(gè)項(xiàng)前綴子樹(shù)[1inko_在旌聯(lián)£2頁(yè)目集。山東大接后綴。它使用最不頻索開(kāi)銷(xiāo)。142面給出的數(shù)據(jù)庫(kù)0B¥Q7▼3月2)可以被擴(kuò)WI展為{1,2L”最小支持?jǐn)?shù)211?z5}也是頻繁3—項(xiàng)集。3,5)都不
8、能再擴(kuò)展,算法終一圖3.翱瀆駆外推g嘟4山東大第四章基于矩陣的前面我們介紹的纟需要多次掃描數(shù)據(jù)