資源描述:
《決策樹(shù)算法應(yīng)用及并行化研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、電子科技大學(xué)UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA碩士學(xué)位論文MASTERTHESIS論文題目決策樹(shù)算法應(yīng)用及并行化研究學(xué)科專業(yè)計(jì)算機(jī)應(yīng)用技術(shù)作者姓名李偉學(xué)號(hào)201121060481指導(dǎo)教師楊波教授分類號(hào)密級(jí)UDC學(xué)位論文決策樹(shù)算法應(yīng)用及并行化研究李偉指導(dǎo)教師楊波教授電子科技大學(xué)成都(姓名、職稱、單位名稱)申請(qǐng)學(xué)位級(jí)別碩士學(xué)科專業(yè)計(jì)算機(jī)應(yīng)用技術(shù)提交論文日期2014.03.26論文答辯日期2014.05.20學(xué)位授予單位和日期電子科技大學(xué)2014年6月29日答辯委員會(huì)主席評(píng)閱人IRESEACHONAPPLICATIONANDPARA
2、LELLIZATIONOFDECISIONTREEALGORITHMAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerAppliedTechnologyAuthor:LiWeiAdvisor:Prof.YangBoSchool:SchoolofComputerScience&EngineeringI獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成
3、果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示謝意。作者簽名:日期:年月日論文使用授權(quán)本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和磁盤(pán),允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)作者簽名:導(dǎo)師簽名:日期:年月日II摘要摘要在信息科技飛速發(fā)展的今天,各行各業(yè)每天都會(huì)產(chǎn)生大量的數(shù)據(jù),這些
4、數(shù)據(jù)中蘊(yùn)含著豐富的知識(shí)。對(duì)于善于運(yùn)用數(shù)據(jù)分析的用戶來(lái)講這就是一筆財(cái)富,而對(duì)于不了解或者不會(huì)對(duì)數(shù)據(jù)進(jìn)行發(fā)掘的用戶就是數(shù)據(jù)垃圾。對(duì)于不同類型的數(shù)據(jù)需運(yùn)用不同的挖掘算法,但傳統(tǒng)的數(shù)據(jù)挖掘算法處理的數(shù)據(jù)量是有限的,當(dāng)數(shù)據(jù)量顯著增大時(shí),就需要更合適的數(shù)據(jù)挖掘算法來(lái)處理。云計(jì)算是近幾年興起的新概念,在計(jì)算機(jī)領(lǐng)域,從某種意義上來(lái)講,可以把云計(jì)算當(dāng)做一種網(wǎng)絡(luò),一種可以處理海量數(shù)據(jù)的新模式。開(kāi)發(fā)云計(jì)算架構(gòu)下的數(shù)據(jù)挖掘系統(tǒng)是當(dāng)前處理海量數(shù)據(jù)挖掘的一種趨勢(shì)。通過(guò)對(duì)傳統(tǒng)算法的改進(jìn),將算法移植到云計(jì)算平臺(tái),借助云技術(shù)的并行化處理能力,海量數(shù)據(jù)的挖掘問(wèn)題也將迎刃而解?;谝陨系难芯勘尘埃紫缺疚膶?duì)數(shù)據(jù)挖掘技術(shù)和云計(jì)
5、算平臺(tái)進(jìn)行研究,然后對(duì)數(shù)據(jù)挖掘決策樹(shù)算法進(jìn)行處理,結(jié)合實(shí)際工作情況,對(duì)C4.5算法的應(yīng)用進(jìn)行研究,并使用羅比達(dá)法則對(duì)算法效能進(jìn)行改進(jìn)。然后根據(jù)海量數(shù)據(jù)挖掘的要求,將能產(chǎn)生簡(jiǎn)單決策樹(shù)結(jié)構(gòu)的算法-CART,進(jìn)行基于隨機(jī)森林模型的改進(jìn)。隨機(jī)森林模型對(duì)于決策樹(shù)建樹(shù)的數(shù)據(jù)類型、數(shù)據(jù)缺失、屬性類別以及決策屬性類別多值要求都不高,基于這些優(yōu)點(diǎn)將CART算法應(yīng)用到隨機(jī)森林模型中能克服CART算法的弊端。最后本文將對(duì)算法并行化進(jìn)行研究,通過(guò)對(duì)幾個(gè)并行模型的研究,選擇最合適的MapReduce編程模型將改進(jìn)的CART算法實(shí)現(xiàn)。通過(guò)實(shí)驗(yàn),將改進(jìn)的CART算法在串行和并行模式下分析大量數(shù)據(jù),實(shí)驗(yàn)表明算法在有效性、
6、處理速度和加速比等方面都有較好的表現(xiàn),以此驗(yàn)證算法改進(jìn)的有效性。關(guān)鍵詞:云計(jì)算,決策樹(shù),C4.5,CART,MapReduceIIIABSTRACTABSTRACTNowadays,withtherapiddevelopmentofinformationtechnology,massivedata
whichcontainawealthofknowledgearecreatedamongbusinesses.Thesedataare
fortuneforthosewhoaregoodatdiscoveringknowledge,whilearedatarubbishfor
thosewho
7、arenot.Differentdataminingalgorithmsshouldbeadoptedfordifferent
typesofdata,howevertraditionalalgorithmscanonlyprocesslimitedamountofdata.
Therefore,weneedmoresuitabledataminingalgorithms.Cloudcomputingisanewconc