資源描述:
《基于粗糙集屬性約簡分類算法的研究和應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、大連理工大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明作者鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下進(jìn)行研究工作所取得的成果。盡我所知,除文中已經(jīng)注明引用內(nèi)容和致謝的地方外,本論文不包含其他個(gè)人或集體已經(jīng)發(fā)表的研究成果,也不包含其他已申請(qǐng)學(xué)位或其他用途使用過的成果。與我一同工作的同志對(duì)本研究所做的貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意。若有不實(shí)之處,本人愿意承擔(dān)相關(guān)法律責(zé)任。學(xué)位論文題目:≤鞋§凈型蟄緩毯凰蛐面瑙區(qū)蟄盔丕盤蜩望作者簽名:型孕日期:皇童主年二厶月j∑日大連理工大學(xué)碩士學(xué)位論文摘要數(shù)據(jù)分類是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要課題,目的在于根據(jù)數(shù)據(jù)集的特點(diǎn)產(chǎn)生一個(gè)分類模型,把數(shù)據(jù)庫中未標(biāo)記
2、的數(shù)據(jù)映射到給定的具體類別中的某一個(gè)。分類的技術(shù)主要有兩類,一類是基于傳統(tǒng)技術(shù),只適合處理確定性的問題;另一類是基于軟計(jì)算技術(shù),可以靈活處理不確定性,不完整性以及非均勻性的數(shù)據(jù)。粗糙集是軟計(jì)算方法中處理不確定性數(shù)據(jù)的數(shù)學(xué)工具。粗糙集是在不影響分類能力的情況下,通過屬性約簡的方式刪除知識(shí)庫中的冗余信息來導(dǎo)出問題的決策或分類規(guī)則。屬性約簡問題是粗糙集理論研究的主要內(nèi)容之一,已經(jīng)被證明為NP.hard問題。常用的屬性約簡算法包括基于差別矩陣的基礎(chǔ)算法和基于某種屬性重要度的啟發(fā)式算法等。本文首先介紹了經(jīng)典的屬性約簡算法并分析了各自的優(yōu)缺點(diǎn),然后將粗糙集的最小屬性約簡問題和組合優(yōu)化中
3、的最小集合覆蓋問題聯(lián)系起來。先分析證明了屬性約簡問題和集合覆蓋問題的等價(jià)性,在此基礎(chǔ)上提出了一種基于改進(jìn)的相關(guān)矩陣的屬性約簡算法,即先對(duì)決策表進(jìn)行簡化,然后對(duì)相關(guān)矩陣進(jìn)行預(yù)處理,這樣有效的避免了空元素和重復(fù)元素的存在,經(jīng)處理后的相關(guān)矩陣比傳統(tǒng)相關(guān)矩陣更簡單,在其基礎(chǔ)上實(shí)現(xiàn)了最小屬性約簡算法,能夠快速求出決策表的最小屬性約簡并且節(jié)省了存儲(chǔ)空間。理論分析和實(shí)驗(yàn)表明,基于改進(jìn)的相關(guān)矩陣的屬性約簡算法可減小屬性約簡的搜索空間,提高約簡的效率。由于粗糙集對(duì)噪音敏感,在噪聲大的環(huán)境中存在分類不精確的問題,需要與其他軟計(jì)算理論和方法相結(jié)合。使用神經(jīng)網(wǎng)絡(luò)分類時(shí),如果文本特征維數(shù)過高就容易導(dǎo)
4、致神經(jīng)網(wǎng)絡(luò)不易收斂,文本分類精度低,學(xué)習(xí)時(shí)間太長。所以本文在文本分類中將粗糙集理論和神經(jīng)網(wǎng)絡(luò)結(jié)合起來,提出了新的分類模型,即粗糙集.神經(jīng)網(wǎng)絡(luò)分類模型,把粗糙集的屬性約簡作為神經(jīng)網(wǎng)絡(luò)的前端,將經(jīng)過特征選擇的向量空間模型轉(zhuǎn)化為決策表并離散化,然后對(duì)其進(jìn)行屬性約簡,以便降低特征空間的維數(shù),縮短神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和訓(xùn)練時(shí)間,提高分類的精度。最后用該模型對(duì)復(fù)旦大學(xué)李榮陸提供的中文分類語料庫進(jìn)行了文本分類,實(shí)驗(yàn)結(jié)果表明,該分類模型有更高的分類準(zhǔn)確率、召回率和F1值。最后,結(jié)合北京慈銘健康體檢集團(tuán)的實(shí)際數(shù)據(jù)庫,運(yùn)用粗糙集.神經(jīng)網(wǎng)絡(luò)分類模型進(jìn)行體重預(yù)測(cè),準(zhǔn)確率達(dá)到了77.6%。關(guān)鍵詞:粗糙集;
5、屬性約簡;相關(guān)矩陣;神經(jīng)網(wǎng)絡(luò);文本分類基于粗糙集屬性約簡的分類算法研究與應(yīng)用ResearchandApplicationofCategorizationAlgorithmsBasedonRoughSetsAttributesReductionAbstractDataclassificationisanimportanttopicinthefieldofdatamining.Itproducesaclassificationmodelwhichmapsthenotmarkeddatatoagivenspecificcategoryaccordingtothecharacter
6、isticsofthedataset.Oneoftheclassificationtechnologiesisbasedonthetraditionalclassifytechnology.Theotheroneissoftware—basedcomputingtechnologywhichcandealwitlltheuncertainty.integrityandnon—uniformdata.Roughsettheoryisamathematicaltoolinsoftcomputingmethodsfordealingwimvaguenessanduncertain
7、ty.Themainideaistoexportclassificationrulesunderthepremiseofthesameclassificationabilitybytheattributereduction.Intheroughsettheory,oneofthemostimportantproblemsisattributereductionwhichhasbeenprovedtobeanNP-hardproblem.BothalgorithmsbasedonSkowronMatrixandalg