資源描述:
《文本分類(lèi)中特征選擇算法的研究與改進(jìn)》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、碩士學(xué)位論文題目:文本分類(lèi)中特征選擇算法的研究與改進(jìn)研究生徐君軍專(zhuān)業(yè)計(jì)算機(jī)技術(shù)指導(dǎo)教師吳國(guó)華研究員完成日期2016年03月抗州電子科技大學(xué)學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說(shuō)明原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研。究工作所取得的成果除文中己經(jīng)注巧引巧的內(nèi)容外,本論文不含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的作品或成果。對(duì)本文的研巧做出重要貢獻(xiàn)的個(gè)人和集il體,均己在文中U明確方式標(biāo)明。一申請(qǐng)學(xué)位論文與資料若有不實(shí)之處,本人承巧切相關(guān)責(zé)任。論文作者簽名:日期:年3月若曰徐襄單學(xué)
2、位論文使用授權(quán)說(shuō)明本人完全了解杭州電子科技大學(xué)關(guān)于保留和使用學(xué)位論文的規(guī)定,目P;研宛生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬杭州電子科技大學(xué)。本人保證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為杭州電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件J公布論文,允許查閱和借閱論文;學(xué)校可^^l的全部或部分內(nèi)容■、,可y允許采用影巧縮印或其它復(fù)制手段保存論文。(保密論文在解密后遵守此規(guī)定)論文作者簽名:^日期;年^月iT日指導(dǎo)教師簽名;日期:年月(^巧龍1奏^杭州電子科技大學(xué)碩士學(xué)位論文文本分類(lèi)中特征選
3、擇算法的研究與改進(jìn)研究生:徐君軍指導(dǎo)教師:吳國(guó)華研究員2016年03月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchandImprovementofFeatureSelectionAlgorithminTextClassificationCandidate:XuJunjunSupervisor:Prof.WuGuohuaMarch,2016摘要文本分類(lèi)作為管理和組織文本信息的有效手段,一直是文本數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)。但是文本分類(lèi)中依然存在特
4、征高維性、稀疏性、類(lèi)別離散度高等問(wèn)題,嚴(yán)重影響了文本分類(lèi)的準(zhǔn)確性。為了解決這些問(wèn)題,本文把文本特征選擇算法作為主要研究對(duì)象,提出了改進(jìn)的互信息、信息增益特征選擇算法。改進(jìn)的互信息特征選擇算法通過(guò)引入特征的詞頻和分布信息,設(shè)計(jì)出互信息特征評(píng)估函數(shù),消除了低頻特征詞和類(lèi)內(nèi)分布信息對(duì)分類(lèi)的影響,進(jìn)而提高了文本分類(lèi)準(zhǔn)確率。改進(jìn)的信息增益特征選擇算法通過(guò)引入特征頻度和離散度信息,構(gòu)造出信息增益特征評(píng)估函數(shù),降低了分布不均衡特征詞和類(lèi)別離散度對(duì)分類(lèi)的影響。再將特征詞未出現(xiàn)概率在評(píng)估函數(shù)中去除,進(jìn)一步優(yōu)化了特征評(píng)估函數(shù)。從而提高了文本特征選擇精度,改善了文本
5、分類(lèi)效果?;谏鲜鰞煞N改進(jìn)算法,本文實(shí)現(xiàn)了文本分類(lèi)系統(tǒng)。文本分類(lèi)對(duì)比實(shí)驗(yàn)表明,提出的兩個(gè)改進(jìn)算法均能準(zhǔn)確的選擇出最優(yōu)特征子集,并且在文本分類(lèi)的查全率、查準(zhǔn)率和F1值上均優(yōu)于傳統(tǒng)算法。關(guān)鍵詞:文本分類(lèi)、特征選擇、互信息、文本特征、信息增益IABSTRACTAsaneffectivemethodofmanagingandorganizingtextinformation,textclassificationhasalwaysbeentheresearchhotspotinthefieldoftextmining.Butintextclassific
6、ation,therearesomeproblemssuchashighdimensionalityoffeatures,sparsityandhighclassdiscretizationandsoon,whichseriouslyaffectitsaccuracy.Inordertosolvetheseproblems,thispaperchoosefeatureselectionalgorithmasthemainresearchobjecttoputforwardimprovedfeatureselectionalgorithmsofm
7、utualinformationandinformationgain.Theimprovedmutualinformationfeatureselectionalgorithmdevelopedafeatureevaluatefunctionofmutualinformationbyintroducingwordfrequencyandinformationdistributionofthefeaturestoremoveinfluenceoffeaturewordsoflowfrequencyandinformationdistributio
8、nwithinclassonclassification,soastoimprovetheaccuracyoftextclassification.T