基于決策樹的分類方法研究

基于決策樹的分類方法研究

ID:38676762

大?。?.36 MB

頁數(shù):42頁

時(shí)間:2019-06-17

基于決策樹的分類方法研究_第1頁
基于決策樹的分類方法研究_第2頁
基于決策樹的分類方法研究_第3頁
基于決策樹的分類方法研究_第4頁
基于決策樹的分類方法研究_第5頁
資源描述:

《基于決策樹的分類方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、南京師范大學(xué)碩士學(xué)位論文基于決策樹的分類方法研究姓名:戴南申請學(xué)位級(jí)別:碩士專業(yè):計(jì)算數(shù)學(xué)(計(jì)算機(jī)應(yīng)用方向)指導(dǎo)教師:朱玉龍2003.5.1南京師范太學(xué)2003年砸{:研究生畢業(yè)論文璀于決鐿樹的分類方法研究摘要廠{數(shù)掘挖掘,又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取具有潛在應(yīng)用價(jià)值的知識(shí)或模式。模式按其作用可分為兩類:描述型模式和預(yù)測型模式。分類模式是一種重要的預(yù)測型模式。挖掘分婁模式的方法有多種,如決策樹方法、貝葉斯網(wǎng)絡(luò)、遺傳算法、基于關(guān)聯(lián)的分類方法、羊H糙集和k一最臨近方、/法等等。,/驢I本文研究如何用決策樹方法進(jìn)行分

2、類模式挖掘。文中詳細(xì)闡述了幾種極具代表性的決策樹算法:包括使用信息熵原理分割樣本集的ID3算法;可以處理連續(xù)屬性和屬性值空缺樣本的C4.5算法;依據(jù)GINI系數(shù)尋找最佳分割并生成二叉決策樹的CART算法;將樹剪枝融入到建樹過程中的PUBLIC算法:在決策樹生成過程中加入人工智能和人為干預(yù)的基于人機(jī)交互的決策樹生成方法;以及突破主存容量限制,具有良好的伸縮性和并行性的SI,lQ和SPRINT算法。對這些算法的特點(diǎn)作了詳細(xì)的分析和比較,指出了它們各自的優(yōu)勢和不足。文中對分布式環(huán)境下的決策樹分類方法進(jìn)行了描述,提出了分布式ID3算法。該算法在傳

3、統(tǒng)的ID3算法的基礎(chǔ)上引進(jìn)了新的數(shù)掘結(jié)構(gòu):屬性按類別分稚表,使得算法具有可伸縮性和并行性。最后著重介紹了作者獨(dú)立完成的一個(gè)決策樹分類器。它使用的核心算法為可伸縮的ID3算法,分類器使用MicrosoftVisualc++6.0開發(fā)。實(shí)驗(yàn)結(jié)果表明作者開發(fā)的分類器可以有效地生成決策樹,建樹時(shí)間隨樣本集個(gè)數(shù)呈線性增長,具有可伸縮性。。,,蕩囊關(guān)鍵字:數(shù)據(jù)挖掘1分類規(guī)則,決策樹,分布式數(shù)據(jù)挖掘南京師范大學(xué)2003年碩士研究生畢業(yè)論文娃于決策樹的分類方法研究AbstractDatamining,referredtoasknowledgediscov

4、eryindatabases,istheextractionofpaRemsrepresentingvaluableknowledgeimplicitlystoredinlargedatabasesordatawarehouses.ClassificationisaformofdataanalysisthatCallbeusedtoextractmodelsdescribingimportantdataclasses.Therearemanytechniquesfordataclassificationsuchasdecisiontree

5、induction,BayesianclassificationandBayesianbeliefnetworks,association·basedclassification,geneticalgorithms,roughsets,andk—nearestneiighborclassifiers.Thispaperintroducesthedecisiontreemethodforclassification.Firstly'somebasicalgorithmsforinducingdecisiontreearediscussed,

6、includingID3,whichusesinformationgaintoselectasplittingattributewhenpartitioningatrainingset;C4.5,whichCandealwithnumericattributes;CART,whichBsesG]NIruleinattributeselectionandinducesabinarytree;PUBLIC,whichputstreepruninginthetreebuildingphase;Interactivemethod,whichput

7、sArtificialIntelligenceandhuman·computerinteractionintotheprocedureofdecisiontreeinduction;aswellasSLIQandSPRINTwhicharescalableandcanbeeasilyparallelized.Advantagesanddisadvantagesofthesealgorithmsarealsopresented.Methodsforinducingdecisiontreeindistributeddatabasesystem

8、aredescribedandadistributedalgorithmbasedonID3isproposed.Usinganewdatastructurecalledattributesd

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。