資源描述:
《基于決策樹的分類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、蘭州大學(xué)碩士學(xué)位論文基于決策樹的分類算法研究姓名:周海波申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:屈志毅20090501摘要數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程。在這一過程中,對數(shù)據(jù)的分類是數(shù)據(jù)挖掘領(lǐng)域研究的重要課題。本文闡述了數(shù)據(jù)挖掘和分類技術(shù)的理論基礎(chǔ),主要介紹如何利用決策樹方法對數(shù)據(jù)進行分類挖掘,詳細的描述了決策樹的基本知識和相關(guān)算法,并對幾種典型的決策樹算法進行了分析和比較。主要研究工作如下:1.在
2、分析XML技術(shù)和決策樹的基礎(chǔ)上,提出了一種決策樹在XML數(shù)據(jù)庫挖掘中的分析模型,為解決不同數(shù)據(jù)接口問題進行了有益的嘗試;2.針對ID3算法傾向于取值較多屬性的缺點,引入概率影響因子對ID3算法作了修正,使決策樹減少了對取值較多的屬性的依賴性,并通過使用學(xué)生信息訓(xùn)練集對兩種算法建立的決策樹進行比較,取得了良好的效果;3.利用修正后的決策樹算法,使用C++語言,在蘭州氣象局氣象技術(shù)保障網(wǎng)絡(luò)管理信息系統(tǒng)中進行數(shù)據(jù)挖掘,為決策部門提供了合理、科學(xué)的決策根據(jù)。關(guān)鍵詞:數(shù)據(jù)挖掘,決策樹,XML,ID3算法,信息熵,概
3、率影響因子ABSTRACTDataminingmeanstheprocessofincomplete,noisy,fuzzyandrandomdata,extractionofimplidt,inwhichpeopledon’tknowinadvance,butpotentiallyusefulinformationandknowledge.Inthisprocess,theclassificationofdataindataminingisallimportantsubjectofstudy.Thisp
4、aperexpoundsthetechnicaldataminingandtheclassificationofbasictheory,mainlyintroduceshowtousethedecisiontreetodataminingmethodofclassification,decisiontreeisdescribedindetailthebasicknowledgeandrelatedalgorithms,andseveraltypicalalgorithmsofdecisiontreeana
5、lysisandcompared.Themainresearchworkasfollows:1.AnalysisofXMLtechnologyandthebasisofthedecisiontree,atreeintheXMLdatabaseminingintheanalysismodel,whichcaneffectivelysolvetheproblemofdifferentdatainterface.2.ID3algorithmbasedontheattributevaluestendtobemor
6、edisadvantages,introducingtheprobabilityofinfluencingfactorsofID3algorithmcorrected,makethedecisiontreetoreducethedependenceoftheattributevalues,andthroughtheuseofstudents’informationcollectionoftwokindsofdecisiontreealgorithmofcomparison,achievedgoodeffe
7、ct.3.Usingthemodifieddecisiontreealgorithm,usingC++language,Inmeteorologicaltechnicalguaranteeinformationsystemindatamining,andtoprovidearationaldecision—makingdepartments,thescientificdecision-makingbasis.Keywords:DataMining,DecisionTree,XML,ID3,Informat
8、ionEntropy,ProbabilisticInfluenceFactor.原創(chuàng)性聲明本人鄭重聲明:本人所呈交的學(xué)位論文,是在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的成果。學(xué)位論文中凡引用他人已經(jīng)發(fā)表或未發(fā)表的成果、數(shù)據(jù)、觀點等,均己明確注明出處。除文中已經(jīng)注明引用的內(nèi)容外,不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的科研成果。對本文的研究成果做出重要貢獻的個人和集體,均己在文中以明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。論文作者簽