資源描述:
《式關聯(lián)規(guī)則挖掘若干算法研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、IIIIIIIIIPllllllllllllllIJIIIIllllllFIIIJIIJIllllJY1524114⑩浙爐z角矢乎碩士學位論文論文題目:坌查式羞琺趣到挖掘羞壬簋法瑟究皇塞瑟學科專業(yè):一鹽差趣廑凰技盎一一指導教師:蕉盎壘提交日期:2009年2月分布式關聯(lián)規(guī)則挖掘符十算法研究’j實現(xiàn)分布式關聯(lián)規(guī)則挖掘若干算法研究與實現(xiàn)摘要隨著信息時代的到來和計算機網絡技術的飛速發(fā)展,分布式環(huán)境日益普遍,而傳統(tǒng)的集中式數據挖掘技術無法解決分布式下的挖掘問題,故在分布式下如何進行有效的數據挖掘成為當今人工智能研究領域一個熱門課
2、題。關聯(lián)規(guī)則是數據挖掘研究領域的一個重要問題,目前所面臨的最大挑戰(zhàn)是計算效率,內存和結果冗余問題。解決的途徑之一是開發(fā)高效的分布式算法。因此本文從分布式的角度出發(fā),針對關聯(lián)規(guī)則挖掘理論和方法進行了深入研究,提出了若干高效的分布式關聯(lián)規(guī)則挖掘算法。具體研究內容如下:第一,針對關聯(lián)規(guī)則的問題及現(xiàn)有分布式系統(tǒng)體系結構的特點,根據數據分布和通信模型的不同,提出了兩種分布式挖掘關聯(lián)規(guī)則的框架:同步挖掘和異步挖掘。第二,分析當前分布式拓撲結構的特點,提出了網狀分布式拓撲結構下關聯(lián)規(guī)則同步挖掘算法NDMA和星型分布式拓撲結構下關聯(lián)規(guī)
3、則異步挖掘算法SDMA算法。算法中用到的優(yōu)化技術包括:基于哈希方法的候選集的劃分和通信技術,候選集局部前綴樹的構建和全局修剪技術,局部數據抽樣技術及集成時的歸納學習和推導技術等,這些技術能產生較小的候選集,使候選集計數通信次數減為0(n),從而提高了算法效率,改善了內存使用情況。實驗結果表明"NDMA算法在支分布式關聯(lián)艦則挖掘若干算法研究.’j實現(xiàn)持度較低時執(zhí)行效率比同類算法FDM高60%以上。算法中用到的提高挖掘精度的技術包括:提出候選頻繁模式集降低分布式挖掘漏計概率;提出負邊界和動態(tài)縮減的支持度解決抽樣導致挖掘精度
4、不高的問題,定義了棄真和存?zhèn)蝺深愬e誤來評估挖掘結果。實驗結果表明:SDMA算法抽樣率在25%就達到了棄真錯誤為1.6%,存?zhèn)五e誤為4.6%較高的挖掘精度。第三,針對現(xiàn)有分布式關聯(lián)規(guī)則挖掘結果冗余的問題,設計了一個全新的分布式無冗余關聯(lián)規(guī)則異步算法DGNRR。該算法摒棄了現(xiàn)存相關算法在分站點采用完全模式挖掘的方法,改用閉合模式挖掘。算法核心技術主要有定義了閉合模式傳輸格式和集成后的閉合模式格式,設計了根據源站點的不同的兩套閉合模式集成規(guī)則,分析了無冗余關聯(lián)規(guī)則的特點,在此基礎上給出了從閉合模式產生無冗余關聯(lián)規(guī)則的方法。最
5、后在稀疏型,密集型和介于稀疏型與密集型之間的三個數據集上驗證了算法的可行性。第四,設計了一個分布式數據挖掘原型系統(tǒng)DDMine。系統(tǒng)采用EJB(EnterpriseJavaBeans)分布式組件技術,適合面向企業(yè)數據挖掘。在總結分布式數據挖掘系統(tǒng)時,提出了分布式關聯(lián)規(guī)則算法設計的一般思路。關鍵詞:分布式關聯(lián)規(guī)則挖掘;分布式拓撲結構;閉合模式;無冗余關聯(lián)規(guī)則;EJBU分布式關聯(lián)規(guī)則挖掘若干算法研究0實現(xiàn)THESTUDYANDIMPLEMENTATIONOFSEVERALDISTIUBUTEDALGORITHMSFORMI
6、NINGASSOCAITIONRULESABSTRACTWiththecomingofinformationeraandrapiddevelopmentofcomputernetworktechnology,thedistributedenvironmenthasbecomeincreasinglypopular.However,thetraditionalcentralizeddataminingtechnologycannotcompletethedistributedminingtask,howtomineeff
7、icientknowledgefromdataunderdistributedenvironmenthasbecomeahottopicinartificialintelligencefield.Associationrulesminingisanimportanttaskofdatamining.Atpresent,mainchallengeisinefficiency,memorypowerandtheredundantissue.Developingdistributedminingalgorithmsisabe
8、tterchoice.So,inthisthesis,wefocusonresearchondistributedminingassociationrules,andproposeseveralefficientdistributedalgorithms.Thefollowingisourmainresearchworks:Fir