文本分類中特征選擇算法的研究與改進

文本分類中特征選擇算法的研究與改進

ID:35082925

大?。?.09 MB

頁數(shù):62頁

時間:2019-03-17

文本分類中特征選擇算法的研究與改進_第1頁
文本分類中特征選擇算法的研究與改進_第2頁
文本分類中特征選擇算法的研究與改進_第3頁
文本分類中特征選擇算法的研究與改進_第4頁
文本分類中特征選擇算法的研究與改進_第5頁
資源描述:

《文本分類中特征選擇算法的研究與改進》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、碩士學位論文題目:文本分類中特征選擇算法的研究與改進研究生徐君軍專業(yè)計算機技術(shù)指導教師吳國華研究員完成日期2016年03月抗州電子科技大學學位論文原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重聲明:所呈交的學位論文,是本人在導師的指導下,獨立進行研。究工作所取得的成果除文中己經(jīng)注巧引巧的內(nèi)容外,本論文不含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作品或成果。對本文的研巧做出重要貢獻的個人和集il體,均己在文中U明確方式標明。一申請學位論文與資料若有不實之處,本人承巧切相關(guān)責任。論文作者簽名:日期:年3月若曰徐襄單學

2、位論文使用授權(quán)說明本人完全了解杭州電子科技大學關(guān)于保留和使用學位論文的規(guī)定,目P;研宛生在校攻讀學位期間論文工作的知識產(chǎn)權(quán)單位屬杭州電子科技大學。本人保證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時署名單位仍然為杭州電子科技大學。學校有權(quán)保留送交論文的復(fù)印件J公布論文,允許查閱和借閱論文;學校可^^l的全部或部分內(nèi)容■、,可y允許采用影巧縮印或其它復(fù)制手段保存論文。(保密論文在解密后遵守此規(guī)定)論文作者簽名:^日期;年^月iT日指導教師簽名;日期:年月(^巧龍1奏^杭州電子科技大學碩士學位論文文本分類中特征選

3、擇算法的研究與改進研究生:徐君軍指導教師:吳國華研究員2016年03月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchandImprovementofFeatureSelectionAlgorithminTextClassificationCandidate:XuJunjunSupervisor:Prof.WuGuohuaMarch,2016摘要文本分類作為管理和組織文本信息的有效手段,一直是文本數(shù)據(jù)挖掘領(lǐng)域的研究熱點。但是文本分類中依然存在特

4、征高維性、稀疏性、類別離散度高等問題,嚴重影響了文本分類的準確性。為了解決這些問題,本文把文本特征選擇算法作為主要研究對象,提出了改進的互信息、信息增益特征選擇算法。改進的互信息特征選擇算法通過引入特征的詞頻和分布信息,設(shè)計出互信息特征評估函數(shù),消除了低頻特征詞和類內(nèi)分布信息對分類的影響,進而提高了文本分類準確率。改進的信息增益特征選擇算法通過引入特征頻度和離散度信息,構(gòu)造出信息增益特征評估函數(shù),降低了分布不均衡特征詞和類別離散度對分類的影響。再將特征詞未出現(xiàn)概率在評估函數(shù)中去除,進一步優(yōu)化了特征評估函數(shù)。從而提高了文本特征選擇精度,改善了文本

5、分類效果?;谏鲜鰞煞N改進算法,本文實現(xiàn)了文本分類系統(tǒng)。文本分類對比實驗表明,提出的兩個改進算法均能準確的選擇出最優(yōu)特征子集,并且在文本分類的查全率、查準率和F1值上均優(yōu)于傳統(tǒng)算法。關(guān)鍵詞:文本分類、特征選擇、互信息、文本特征、信息增益IABSTRACTAsaneffectivemethodofmanagingandorganizingtextinformation,textclassificationhasalwaysbeentheresearchhotspotinthefieldoftextmining.Butintextclassific

6、ation,therearesomeproblemssuchashighdimensionalityoffeatures,sparsityandhighclassdiscretizationandsoon,whichseriouslyaffectitsaccuracy.Inordertosolvetheseproblems,thispaperchoosefeatureselectionalgorithmasthemainresearchobjecttoputforwardimprovedfeatureselectionalgorithmsofm

7、utualinformationandinformationgain.Theimprovedmutualinformationfeatureselectionalgorithmdevelopedafeatureevaluatefunctionofmutualinformationbyintroducingwordfrequencyandinformationdistributionofthefeaturestoremoveinfluenceoffeaturewordsoflowfrequencyandinformationdistributio

8、nwithinclassonclassification,soastoimprovetheaccuracyoftextclassification.T

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。