資源描述:
《文本分類中特征選擇算法的研究與改進》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、碩士學位論文題目:文本分類中特征選擇算法的研究與改進研究生徐君軍專業(yè)計算機技術(shù)指導教師吳國華研究員完成日期2016年03月抗州電子科技大學學位論文原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重聲明:所呈交的學位論文,是本人在導師的指導下,獨立進行研。究工作所取得的成果除文中己經(jīng)注巧引巧的內(nèi)容外,本論文不含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作品或成果。對本文的研巧做出重要貢獻的個人和集il體,均己在文中U明確方式標明。一申請學位論文與資料若有不實之處,本人承巧切相關(guān)責任。論文作者簽名:日期:年3月若曰徐襄單學
2、位論文使用授權(quán)說明本人完全了解杭州電子科技大學關(guān)于保留和使用學位論文的規(guī)定,目P;研宛生在校攻讀學位期間論文工作的知識產(chǎn)權(quán)單位屬杭州電子科技大學。本人保證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時署名單位仍然為杭州電子科技大學。學校有權(quán)保留送交論文的復(fù)印件J公布論文,允許查閱和借閱論文;學校可^^l的全部或部分內(nèi)容■、,可y允許采用影巧縮印或其它復(fù)制手段保存論文。(保密論文在解密后遵守此規(guī)定)論文作者簽名:^日期;年^月iT日指導教師簽名;日期:年月(^巧龍1奏^杭州電子科技大學碩士學位論文文本分類中特征選
3、擇算法的研究與改進研究生:徐君軍指導教師:吳國華研究員2016年03月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchandImprovementofFeatureSelectionAlgorithminTextClassificationCandidate:XuJunjunSupervisor:Prof.WuGuohuaMarch,2016摘要文本分類作為管理和組織文本信息的有效手段,一直是文本數(shù)據(jù)挖掘領(lǐng)域的研究熱點。但是文本分類中依然存在特
4、征高維性、稀疏性、類別離散度高等問題,嚴重影響了文本分類的準確性。為了解決這些問題,本文把文本特征選擇算法作為主要研究對象,提出了改進的互信息、信息增益特征選擇算法。改進的互信息特征選擇算法通過引入特征的詞頻和分布信息,設(shè)計出互信息特征評估函數(shù),消除了低頻特征詞和類內(nèi)分布信息對分類的影響,進而提高了文本分類準確率。改進的信息增益特征選擇算法通過引入特征頻度和離散度信息,構(gòu)造出信息增益特征評估函數(shù),降低了分布不均衡特征詞和類別離散度對分類的影響。再將特征詞未出現(xiàn)概率在評估函數(shù)中去除,進一步優(yōu)化了特征評估函數(shù)。從而提高了文本特征選擇精度,改善了文本
5、分類效果?;谏鲜鰞煞N改進算法,本文實現(xiàn)了文本分類系統(tǒng)。文本分類對比實驗表明,提出的兩個改進算法均能準確的選擇出最優(yōu)特征子集,并且在文本分類的查全率、查準率和F1值上均優(yōu)于傳統(tǒng)算法。關(guān)鍵詞:文本分類、特征選擇、互信息、文本特征、信息增益IABSTRACTAsaneffectivemethodofmanagingandorganizingtextinformation,textclassificationhasalwaysbeentheresearchhotspotinthefieldoftextmining.Butintextclassific
6、ation,therearesomeproblemssuchashighdimensionalityoffeatures,sparsityandhighclassdiscretizationandsoon,whichseriouslyaffectitsaccuracy.Inordertosolvetheseproblems,thispaperchoosefeatureselectionalgorithmasthemainresearchobjecttoputforwardimprovedfeatureselectionalgorithmsofm
7、utualinformationandinformationgain.Theimprovedmutualinformationfeatureselectionalgorithmdevelopedafeatureevaluatefunctionofmutualinformationbyintroducingwordfrequencyandinformationdistributionofthefeaturestoremoveinfluenceoffeaturewordsoflowfrequencyandinformationdistributio
8、nwithinclassonclassification,soastoimprovetheaccuracyoftextclassification.T