資源描述:
《基于變精度粗糙集的決策樹(shù)分類算法研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、分類號(hào)UDC密級(jí)——單位代碼!Q!§!基于變精度粗糙集的決策樹(shù)分類算法研究顏文娟指導(dǎo)教師劉智職稱副教授學(xué)位授予單位大連海事大學(xué)申請(qǐng)學(xué)位級(jí)別工學(xué)碩士學(xué)科(專業(yè))計(jì)算機(jī)科學(xué)與技術(shù)論文完成日期2011.06答辯日期2011.07答辯委員會(huì)主席ResearchonClassificationAlgorithmofDecisionTreeBasedonVariablePrecisionRoughSetAthesisSubmittedtoDalianMaritimeUniversityInpartialfulfillmentofthe
2、requirementsforthedegreeofMasterofDegreebyYanWenjuan(ComputerScienceandTechnology)ThesisSu[PfessorLiuZhilleslsSupervlsor:rotessOrlULlllrJuly2011大連海事大學(xué)學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說(shuō)明原創(chuàng)性聲明本人鄭重聲明:本論文是在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果,撰寫成博/碩士學(xué)位論文:基王變糙廑狃蕉篡數(shù)迭筮撾筮耋篡法嬰塞:.。除論文中已經(jīng)注明引用的內(nèi)容外,對(duì)論文的研究做出重要貢
3、獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本論文中不包含任何未加明確注明的其他個(gè)人或集體已經(jīng)公開(kāi)發(fā)表或未公開(kāi)發(fā)表的成果。本聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者簽名:一學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者及指導(dǎo)教師完全了解大連海事大學(xué)有關(guān)保留、使用研究生學(xué)位論文的規(guī)定,即:大連海事大學(xué)有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交學(xué)位論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)大連海事大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,也可采用影印、縮印或掃描等復(fù)制手段保存和匯編學(xué)位論文。同意將本學(xué)位論文收錄到《中國(guó)優(yōu)
4、秀博碩士學(xué)位論文全文數(shù)據(jù)庫(kù)》(中國(guó)學(xué)術(shù)期刊(光盤版)電子雜志社)、《中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù)》(中國(guó)科學(xué)技術(shù)信息研究所)等數(shù)據(jù)庫(kù)中,并以電子出版物形式出版發(fā)行和提供信息服務(wù)。保密的論文在解密后遵守此規(guī)定。本學(xué)位論文屬于:保密口在——年解密后適用本授權(quán)書。不保密口(請(qǐng)?jiān)谝陨戏娇騼?nèi)打“√")導(dǎo)師簽名2叼場(chǎng)加I(年7月中文摘要摘要數(shù)據(jù)挖掘自上世紀(jì)80年代后期出現(xiàn)以來(lái),經(jīng)過(guò)二十多年的發(fā)展,現(xiàn)在已成為機(jī)器學(xué)習(xí)和人工智能這兩大熱門領(lǐng)域的重要研究?jī)?nèi)容。特征屬性提取、冗余屬性約簡(jiǎn)、分類精度和算法效率的提高以及相關(guān)算法針對(duì)某特定領(lǐng)域或背景的改
5、進(jìn)和應(yīng)用都是目前數(shù)據(jù)挖掘的研究重點(diǎn)。在數(shù)據(jù)挖掘的所有方法中,決策樹(shù)分類算法以其計(jì)算量小、容易理解、運(yùn)行結(jié)果直觀易懂等優(yōu)點(diǎn),受到眾多學(xué)者關(guān)注。所以,本文通過(guò)對(duì)相關(guān)領(lǐng)域現(xiàn)有算法的深入研究,針對(duì)屬性約簡(jiǎn)和決策樹(shù)分類存在的不足,做出相應(yīng)的改進(jìn),并選擇多個(gè)UCI數(shù)據(jù)集做對(duì)比實(shí)驗(yàn),取得不錯(cuò)的效果。具體來(lái)說(shuō),主要研究?jī)?nèi)容包括以下三個(gè)方面:(1)在進(jìn)行屬性約簡(jiǎn)時(shí),現(xiàn)有算法所采用的重要屬性選擇標(biāo)準(zhǔn)傾向于選擇取值個(gè)數(shù)較多的屬性,而沒(méi)有考慮屬性取值的有效性。因此,本文提出了一種新的重要屬性選擇標(biāo)準(zhǔn),該標(biāo)準(zhǔn)使用了支持度對(duì)屬性的有效取值進(jìn)行統(tǒng)計(jì),并
6、將有效取值個(gè)數(shù)和13逼近精度綜合作為衡量屬性重要性的標(biāo)準(zhǔn)。(2)本文針對(duì)現(xiàn)有決策樹(shù)分類算法存在的對(duì)噪聲數(shù)據(jù)敏感和分裂屬性選擇困難等不足,結(jié)合變精度粗糙集能夠容忍噪聲數(shù)據(jù)的優(yōu)點(diǎn),提出了一種新的分裂屬性選擇標(biāo)準(zhǔn),該標(biāo)準(zhǔn)從變精度明確區(qū)和信息論的角度進(jìn)行綜合考慮,使得改進(jìn)算法構(gòu)造的決策樹(shù)既能有效抵抗噪聲數(shù)據(jù)又具有較高的正確分類率。另外,通過(guò)引入置信度和支持度的概念實(shí)現(xiàn)在決策樹(shù)構(gòu)建過(guò)程中的預(yù)剪枝,可以有效降低樹(shù)的規(guī)模;將匹配度應(yīng)用到對(duì)測(cè)試數(shù)據(jù)的類標(biāo)號(hào)預(yù)測(cè)中,提高分類精度。(3)將經(jīng)過(guò)屬性提取、數(shù)據(jù)預(yù)處理等步驟的冠心病中醫(yī)診療病例作為
7、實(shí)驗(yàn)數(shù)據(jù)。首先進(jìn)行屬性約簡(jiǎn),挖掘出對(duì)冠心病有影響的因素;然后使用約簡(jiǎn)后的數(shù)據(jù)構(gòu)建決策樹(shù),提取決策規(guī)則,實(shí)現(xiàn)對(duì)冠心病病例樣本的中醫(yī)癥型分類。關(guān)鍵詞:變精度粗糙集;屬性約簡(jiǎn);決策樹(shù);冠心病英文摘要ABSTRACTAfter觚呻yearsofdevdopment,datamininghasbecomeakeyresearchtopicinareasofmachinelearningandartificialintelligencesinceitfirstappearedinthelate80s.Atpresent,feature
8、extraction,attributereduction,improvementofalgorithmefficiencyandclassificationaccuracyandapplicationofrelevantmethodsinthespecificareasarethefocusofdat