資源描述:
《基于粗糙集的決策樹分類方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號:密級10151單位代碼UDC;?大續(xù)乂掌全日制學(xué)術(shù)型碩±研究生學(xué)位論文基于粗糕集的決策樹分類方法研究尹哲指導(dǎo)教師劉智副教授申請學(xué)位類別工學(xué)碩±學(xué)科)(?;Q計算機科學(xué)與技術(shù)學(xué)位授予單位大連海事大學(xué)2016年3月分類號密級UDC單位代碼10151大連海事大學(xué)碩±學(xué)位論文基于粗繼集的決策樹分類方法研究尹哲指導(dǎo)教師劉智職稱副教授學(xué)位授予單位大連海事大學(xué)申請學(xué)位級別碩±學(xué)科(專業(yè))計算
2、機科學(xué)與技術(shù)2022論文完成曰期巧.1.1答辯曰期>1作卻2/巧答般員會捕ResearchonDecisionTreeAlgorithmBased0凸RoughSetTheoiyA化esisSubmitted化DalianMaritimeUniversityInartialfulfillmentofthereuirementsforthedereeofpqgMasterofacademicByYinZheComWerScience
3、andTechnolo(pgy)ThesisSuervisor:AssociateProfessorLiuZhipDecember2015大連海事大學(xué)學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明;,獨立進行研巧工作所取得的成果本人鄭重聲明本論文是在導(dǎo)師的指導(dǎo)下,""撰弓成碩±學(xué)位論文基于粗飽集的決策樹分類方法研究。除論文中已經(jīng)注明引用的內(nèi)容外,對論文的研巧做出重要貢獻的個人和集體,均已在文中W明確方式標(biāo)明。本論文中不包含任何未加明確注明的其它個人或集體己經(jīng)公開發(fā)表或未公開發(fā)表的成果。本
4、聲明的法律責(zé)任由本人承擔(dān)。衫學(xué)位論文作者簽名;T學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者及指導(dǎo)教師完全了解大連海事大學(xué)有關(guān)保留、使用研究生學(xué)位論文的規(guī)定,目P:大連海事大學(xué)有權(quán)保留并向國家有關(guān)部口或機構(gòu)送交學(xué)位論。文的復(fù)印件和電子版,允許論文被查閱和借閱本人授權(quán)大連海事大學(xué)可將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,也可采用影印、縮印或掃描等復(fù)制手段保存和匯編學(xué)位論文。同意將本學(xué)位論文收錄到《中國優(yōu)秀博碩±學(xué)位論文全文數(shù)據(jù)庫》(中國學(xué)術(shù)期刊(光盤版)電子雜志社)、《中國學(xué)位論文全文數(shù)據(jù)庫》(
5、中國科學(xué)技術(shù)信息研究所)等數(shù)據(jù)庫中,并電子出版物形式出版發(fā)行和提供信息服務(wù)。保密的論文在解密后遵守此規(guī)定。本學(xué)位論文屬于:保密□在年解密后適用本授權(quán)書。""不保密^(請在W上方框內(nèi)打V)論文作者簽名:%導(dǎo)師簽名:曰期SJ月中文摘要摘要""進入互聯(lián)網(wǎng)+時代,人們從生產(chǎn)、生活中積累的數(shù)據(jù)呈現(xiàn)爆發(fā)式増長,數(shù)據(jù)已成為重要的戰(zhàn)略資源,如何利用海量數(shù)據(jù)發(fā)現(xiàn)新知識己成為數(shù)據(jù)挖掘領(lǐng)域的研、究熱點,,其中決策樹分類算法W其結(jié)構(gòu)清晰算法高效的特點被廣泛應(yīng)用。由于數(shù)據(jù)挖掘中決策樹算法在分類效率和準(zhǔn)確
6、率上對決策信息的規(guī)范性較為敏感,并且隨著數(shù)據(jù)量的幾何式增長,常規(guī)的串行決策樹分類算法己難于突破內(nèi)存瓶頸和計算能力約束。因此,本文將粗趟集中的屬性約簡理論與決策椅分類算法相結(jié)合,降低了決策樹的復(fù)雜程度并提高了算法效率,取得了良好的理論和應(yīng)用效果。本文的主要研究內(nèi)容分為W下幾個部分::從屬性約簡的候選屬性入手(1)粗趟集理論方面,在分析現(xiàn)有屬性約簡算法的基礎(chǔ)上,將相關(guān)屬性測度加入選擇候選屬性的過程中。在選擇候選屬性時,優(yōu)先選擇與核屬性相關(guān)度最大的屬性加入候選約簡集,同時剔除非相關(guān)屬性,通過這種思想達到約簡
7、集最小,并保證屬性約簡集信息量最大化的目的。通過大量,這種算法有效解決了約簡集增刪候選屬性時的盲目性對比實驗驗證,節(jié)省了屬性約簡過程中的計算開銷。(2)決策樹分類算法方面:結(jié)合基于相關(guān)屬性的屬性約簡算法,本文得到了節(jié)點兀余度更低的決策樹分類結(jié)果,并針對現(xiàn)有串斤決策樹分類算法無法適應(yīng)大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘需求,及并行決策樹分類算法在分布式框架下I/O開銷過大的一educe問題,使用種新的數(shù)據(jù)結(jié)構(gòu)簡化了Map和R過程,得到了新的決策樹分裂/O掠準(zhǔn),藉此降低了節(jié)點周轉(zhuǎn)次數(shù)和I開銷。通過實驗顯示,分布式并行決策樹
8、算法在保證分類準(zhǔn)確率的情況下,得到了較為優(yōu)異的決策樹尺度和運行效率。關(guān)鍵詞:巧巧巧巧;屬性約巧;決巧巧;分布式并行框架;英文摘要ABSTRACT""EnteringtheInternet+period,