資源描述:
《最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、論文題目最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究專業(yè)學(xué)位類別工程碩士學(xué)號(hào)201091250101作者姓名王新瑩指導(dǎo)教師何羚副教授萬方數(shù)據(jù)分類號(hào)密級(jí)注1UDC學(xué)位論文最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究(題名和副題名)王新瑩(作者姓名)指導(dǎo)教師何玲副教授電子科技大學(xué)成都高學(xué)理高級(jí)工程師成都市經(jīng)濟(jì)信息中心成都(姓名、職稱、單位名稱)申請(qǐng)學(xué)位級(jí)別碩士專業(yè)學(xué)位類別工程碩士工程領(lǐng)域名稱軟件工程提交論文日期2013.05.15論文答辯日期2013.05.23學(xué)位授予單位和日期電子科技大學(xué)2013年06月23日答辯委員會(huì)主席評(píng)閱人注1
2、:注明《國(guó)際十進(jìn)分類法UDC》的類號(hào)。萬方數(shù)據(jù)APPLICATIONOFOPTIMALFEATURESELECTIONALGORITHMINTEXTCLASSIFICATIONAThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:SoftwareEngineeringAuthor:WangXinyingAdvisor:HeLingSchool:SchoolofAeronauticsandAstronautics1萬方數(shù)據(jù)注1注明《
3、國(guó)際十進(jìn)分類法UDC》的類號(hào)獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。簽名:日期:年月日關(guān)于論文使用授權(quán)的說明本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借
4、閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)簽名:導(dǎo)師簽名:日期:年月日2萬方數(shù)據(jù)摘要摘要隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的成熟,數(shù)據(jù)庫(kù)系統(tǒng)逐漸普及。從文字分類搜索、到商業(yè)決策分析、更乃至前沿的生物工程。在數(shù)據(jù)庫(kù)中儲(chǔ)存的大量數(shù)據(jù)中隱藏著許多信息,這些隱藏的信息對(duì)于決策有著十分重要的作用。用作對(duì)這些隱藏信息進(jìn)行分析處理的工具雖有了很大的發(fā)展,但是很多隱藏信息的許多重要內(nèi)涵還遠(yuǎn)遠(yuǎn)沒有得到足夠的利用。數(shù)據(jù)挖掘作
5、為一種新型的數(shù)據(jù)處理技術(shù),數(shù)據(jù)挖掘的過程就是對(duì)數(shù)據(jù)信息的再處理再分析過程。首先需要收集各種相關(guān)數(shù)據(jù)信息,其次通過各項(xiàng)模型化處理方式如取樣、分析、結(jié)論等獲得符合目標(biāo)的關(guān)鍵因素。所以,數(shù)據(jù)挖掘及其相關(guān)的技術(shù)和應(yīng)用的研究和發(fā)展受到了業(yè)界的重視與長(zhǎng)足的進(jìn)展。從而研究一種更加高效的Filter型特征選擇算法對(duì)各個(gè)學(xué)科領(lǐng)域都有著非常重要的作用。文本分類就是根據(jù)預(yù)先定義的主題類別,按照一定的規(guī)則將文檔集合中未知類別的文本自動(dòng)確定一個(gè)類別,涉及數(shù)據(jù)分類、計(jì)算機(jī)學(xué)科,工科,信息學(xué)科、管理學(xué)等多個(gè)學(xué)科。至今,大部分的機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、
6、數(shù)據(jù)分類技術(shù)被應(yīng)用到文本分類里。本文首先研究了貝葉斯網(wǎng)絡(luò)、樸素貝葉斯分類器、Filter型特征選擇算法的問題,然后在此基礎(chǔ)上詳細(xì)討論了基于最小聯(lián)合互信息虧損的最優(yōu)特征選擇算法,并基于文本分類的應(yīng)用需求進(jìn)行了最優(yōu)特征選擇算法在文本分類上的研究及設(shè)計(jì)。最后通過試驗(yàn),驗(yàn)證了Filter型算法可有效應(yīng)用于文本分類的領(lǐng)域。本文重點(diǎn)研究了以下內(nèi)容:首先,闡述了貝葉斯網(wǎng)絡(luò)與樸素貝葉斯分類的定義。根據(jù)特征的不同,歸納了其特點(diǎn)及模型,以及相關(guān)應(yīng)用。其次,闡述了Filter型特征選擇算法的含義和基本特征。根據(jù)特征的不同,歸納了現(xiàn)有Filte
7、r型特征選擇算法分為以特征子集搜索為基礎(chǔ)的最優(yōu)特征選擇法和特征排序法兩種類別,并對(duì)每種類別加以深入剖析。力求獲得每種算法的特點(diǎn)、基本原理以及存在的缺點(diǎn)。再者,通過文本分類的定義及應(yīng)用的介紹,引出了特征選擇算法在文本分類上的研究。并通過算法的代碼及實(shí)驗(yàn)過程進(jìn)行了深入的研究。從而驗(yàn)證了Filter型算法可有效應(yīng)用于文本分類的領(lǐng)域,提高了文本分類的效率。關(guān)鍵詞:分類,特征選擇,貝葉斯分類器,filter型特征選擇算法I萬方數(shù)據(jù)ABSTRACTABSTRACTWiththematurityofnetworktechnologya
8、nddatabasetechnology,databasesystemsarebecomingmorecommon.Fromthetextclassificationsearch,totheanalysisofbusinessdecisions,andevenmorecutting-edgebio-engineeri