最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究

最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究

ID:39145699

大小:2.85 MB

頁數(shù):78頁

時間:2019-06-25

最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究_第1頁
最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究_第2頁
最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究_第3頁
最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究_第4頁
最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究_第5頁
資源描述:

《最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫

1、論文題目最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究專業(yè)學位類別工程碩士學號201091250101作者姓名王新瑩指導教師何羚副教授萬方數(shù)據(jù)分類號密級注1UDC學位論文最優(yōu)特征選擇算法在文本分類上的應(yīng)用研究(題名和副題名)王新瑩(作者姓名)指導教師何玲副教授電子科技大學成都高學理高級工程師成都市經(jīng)濟信息中心成都(姓名、職稱、單位名稱)申請學位級別碩士專業(yè)學位類別工程碩士工程領(lǐng)域名稱軟件工程提交論文日期2013.05.15論文答辯日期2013.05.23學位授予單位和日期電子科技大學2013年06月23日答辯委員會主席評閱人注1

2、:注明《國際十進分類法UDC》的類號。萬方數(shù)據(jù)APPLICATIONOFOPTIMALFEATURESELECTIONALGORITHMINTEXTCLASSIFICATIONAThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:SoftwareEngineeringAuthor:WangXinyingAdvisor:HeLingSchool:SchoolofAeronauticsandAstronautics1萬方數(shù)據(jù)注1注明《

3、國際十進分類法UDC》的類號獨創(chuàng)性聲明本人聲明所呈交的學位論文是本人在導師指導下進行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學或其它教育機構(gòu)的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示謝意。簽名:日期:年月日關(guān)于論文使用授權(quán)的說明本學位論文作者完全了解電子科技大學有關(guān)保留、使用學位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交論文的復印件和磁盤,允許論文被查閱和借

4、閱。本人授權(quán)電子科技大學可以將學位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存、匯編學位論文。(保密的學位論文在解密后應(yīng)遵守此規(guī)定)簽名:導師簽名:日期:年月日2萬方數(shù)據(jù)摘要摘要隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的成熟,數(shù)據(jù)庫系統(tǒng)逐漸普及。從文字分類搜索、到商業(yè)決策分析、更乃至前沿的生物工程。在數(shù)據(jù)庫中儲存的大量數(shù)據(jù)中隱藏著許多信息,這些隱藏的信息對于決策有著十分重要的作用。用作對這些隱藏信息進行分析處理的工具雖有了很大的發(fā)展,但是很多隱藏信息的許多重要內(nèi)涵還遠遠沒有得到足夠的利用。數(shù)據(jù)挖掘作

5、為一種新型的數(shù)據(jù)處理技術(shù),數(shù)據(jù)挖掘的過程就是對數(shù)據(jù)信息的再處理再分析過程。首先需要收集各種相關(guān)數(shù)據(jù)信息,其次通過各項模型化處理方式如取樣、分析、結(jié)論等獲得符合目標的關(guān)鍵因素。所以,數(shù)據(jù)挖掘及其相關(guān)的技術(shù)和應(yīng)用的研究和發(fā)展受到了業(yè)界的重視與長足的進展。從而研究一種更加高效的Filter型特征選擇算法對各個學科領(lǐng)域都有著非常重要的作用。文本分類就是根據(jù)預(yù)先定義的主題類別,按照一定的規(guī)則將文檔集合中未知類別的文本自動確定一個類別,涉及數(shù)據(jù)分類、計算機學科,工科,信息學科、管理學等多個學科。至今,大部分的機器學習方法、統(tǒng)計方法、

6、數(shù)據(jù)分類技術(shù)被應(yīng)用到文本分類里。本文首先研究了貝葉斯網(wǎng)絡(luò)、樸素貝葉斯分類器、Filter型特征選擇算法的問題,然后在此基礎(chǔ)上詳細討論了基于最小聯(lián)合互信息虧損的最優(yōu)特征選擇算法,并基于文本分類的應(yīng)用需求進行了最優(yōu)特征選擇算法在文本分類上的研究及設(shè)計。最后通過試驗,驗證了Filter型算法可有效應(yīng)用于文本分類的領(lǐng)域。本文重點研究了以下內(nèi)容:首先,闡述了貝葉斯網(wǎng)絡(luò)與樸素貝葉斯分類的定義。根據(jù)特征的不同,歸納了其特點及模型,以及相關(guān)應(yīng)用。其次,闡述了Filter型特征選擇算法的含義和基本特征。根據(jù)特征的不同,歸納了現(xiàn)有Filte

7、r型特征選擇算法分為以特征子集搜索為基礎(chǔ)的最優(yōu)特征選擇法和特征排序法兩種類別,并對每種類別加以深入剖析。力求獲得每種算法的特點、基本原理以及存在的缺點。再者,通過文本分類的定義及應(yīng)用的介紹,引出了特征選擇算法在文本分類上的研究。并通過算法的代碼及實驗過程進行了深入的研究。從而驗證了Filter型算法可有效應(yīng)用于文本分類的領(lǐng)域,提高了文本分類的效率。關(guān)鍵詞:分類,特征選擇,貝葉斯分類器,filter型特征選擇算法I萬方數(shù)據(jù)ABSTRACTABSTRACTWiththematurityofnetworktechnologya

8、nddatabasetechnology,databasesystemsarebecomingmorecommon.Fromthetextclassificationsearch,totheanalysisofbusinessdecisions,andevenmorecutting-edgebio-engineeri

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。