資源描述:
《基于決策樹的分類方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、南京師范大學(xué)碩士學(xué)位論文基于決策樹的分類方法研究姓名:戴南申請學(xué)位級(jí)別:碩士專業(yè):計(jì)算數(shù)學(xué)(計(jì)算機(jī)應(yīng)用方向)指導(dǎo)教師:朱玉龍2003.5.1南京師范太學(xué)2003年砸{:研究生畢業(yè)論文璀于決鐿樹的分類方法研究摘要廠{數(shù)掘挖掘,又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取具有潛在應(yīng)用價(jià)值的知識(shí)或模式。模式按其作用可分為兩類:描述型模式和預(yù)測型模式。分類模式是一種重要的預(yù)測型模式。挖掘分婁模式的方法有多種,如決策樹方法、貝葉斯網(wǎng)絡(luò)、遺傳算法、基于關(guān)聯(lián)的分類方法、羊H糙集和k一最臨近方、/法等等。,/驢I本文研究如何用決策樹方法進(jìn)行分
2、類模式挖掘。文中詳細(xì)闡述了幾種極具代表性的決策樹算法:包括使用信息熵原理分割樣本集的ID3算法;可以處理連續(xù)屬性和屬性值空缺樣本的C4.5算法;依據(jù)GINI系數(shù)尋找最佳分割并生成二叉決策樹的CART算法;將樹剪枝融入到建樹過程中的PUBLIC算法:在決策樹生成過程中加入人工智能和人為干預(yù)的基于人機(jī)交互的決策樹生成方法;以及突破主存容量限制,具有良好的伸縮性和并行性的SI,lQ和SPRINT算法。對這些算法的特點(diǎn)作了詳細(xì)的分析和比較,指出了它們各自的優(yōu)勢和不足。文中對分布式環(huán)境下的決策樹分類方法進(jìn)行了描述,提出了分布式ID3算法。該算法在傳
3、統(tǒng)的ID3算法的基礎(chǔ)上引進(jìn)了新的數(shù)掘結(jié)構(gòu):屬性按類別分稚表,使得算法具有可伸縮性和并行性。最后著重介紹了作者獨(dú)立完成的一個(gè)決策樹分類器。它使用的核心算法為可伸縮的ID3算法,分類器使用MicrosoftVisualc++6.0開發(fā)。實(shí)驗(yàn)結(jié)果表明作者開發(fā)的分類器可以有效地生成決策樹,建樹時(shí)間隨樣本集個(gè)數(shù)呈線性增長,具有可伸縮性。。,,蕩囊關(guān)鍵字:數(shù)據(jù)挖掘1分類規(guī)則,決策樹,分布式數(shù)據(jù)挖掘南京師范大學(xué)2003年碩士研究生畢業(yè)論文娃于決策樹的分類方法研究AbstractDatamining,referredtoasknowledgediscov
4、eryindatabases,istheextractionofpaRemsrepresentingvaluableknowledgeimplicitlystoredinlargedatabasesordatawarehouses.ClassificationisaformofdataanalysisthatCallbeusedtoextractmodelsdescribingimportantdataclasses.Therearemanytechniquesfordataclassificationsuchasdecisiontree
5、induction,BayesianclassificationandBayesianbeliefnetworks,association·basedclassification,geneticalgorithms,roughsets,andk—nearestneiighborclassifiers.Thispaperintroducesthedecisiontreemethodforclassification.Firstly'somebasicalgorithmsforinducingdecisiontreearediscussed,
6、includingID3,whichusesinformationgaintoselectasplittingattributewhenpartitioningatrainingset;C4.5,whichCandealwithnumericattributes;CART,whichBsesG]NIruleinattributeselectionandinducesabinarytree;PUBLIC,whichputstreepruninginthetreebuildingphase;Interactivemethod,whichput
7、sArtificialIntelligenceandhuman·computerinteractionintotheprocedureofdecisiontreeinduction;aswellasSLIQandSPRINTwhicharescalableandcanbeeasilyparallelized.Advantagesanddisadvantagesofthesealgorithmsarealsopresented.Methodsforinducingdecisiontreeindistributeddatabasesystem
8、aredescribedandadistributedalgorithmbasedonID3isproposed.Usinganewdatastructurecalledattributesd