文本分類(lèi)中特征選擇算法的研究與改進(jìn)

文本分類(lèi)中特征選擇算法的研究與改進(jìn)

ID:35082925

大?。?.09 MB

頁(yè)數(shù):62頁(yè)

時(shí)間:2019-03-17

文本分類(lèi)中特征選擇算法的研究與改進(jìn)_第1頁(yè)
文本分類(lèi)中特征選擇算法的研究與改進(jìn)_第2頁(yè)
文本分類(lèi)中特征選擇算法的研究與改進(jìn)_第3頁(yè)
文本分類(lèi)中特征選擇算法的研究與改進(jìn)_第4頁(yè)
文本分類(lèi)中特征選擇算法的研究與改進(jìn)_第5頁(yè)
資源描述:

《文本分類(lèi)中特征選擇算法的研究與改進(jìn)》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)

1、碩士學(xué)位論文題目:文本分類(lèi)中特征選擇算法的研究與改進(jìn)研究生徐君軍專(zhuān)業(yè)計(jì)算機(jī)技術(shù)指導(dǎo)教師吳國(guó)華研究員完成日期2016年03月抗州電子科技大學(xué)學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說(shuō)明原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研。究工作所取得的成果除文中己經(jīng)注巧引巧的內(nèi)容外,本論文不含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的作品或成果。對(duì)本文的研巧做出重要貢獻(xiàn)的個(gè)人和集il體,均己在文中U明確方式標(biāo)明。一申請(qǐng)學(xué)位論文與資料若有不實(shí)之處,本人承巧切相關(guān)責(zé)任。論文作者簽名:日期:年3月若曰徐襄單學(xué)

2、位論文使用授權(quán)說(shuō)明本人完全了解杭州電子科技大學(xué)關(guān)于保留和使用學(xué)位論文的規(guī)定,目P;研宛生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬杭州電子科技大學(xué)。本人保證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為杭州電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件J公布論文,允許查閱和借閱論文;學(xué)校可^^l的全部或部分內(nèi)容■、,可y允許采用影巧縮印或其它復(fù)制手段保存論文。(保密論文在解密后遵守此規(guī)定)論文作者簽名:^日期;年^月iT日指導(dǎo)教師簽名;日期:年月(^巧龍1奏^杭州電子科技大學(xué)碩士學(xué)位論文文本分類(lèi)中特征選

3、擇算法的研究與改進(jìn)研究生:徐君軍指導(dǎo)教師:吳國(guó)華研究員2016年03月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchandImprovementofFeatureSelectionAlgorithminTextClassificationCandidate:XuJunjunSupervisor:Prof.WuGuohuaMarch,2016摘要文本分類(lèi)作為管理和組織文本信息的有效手段,一直是文本數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)。但是文本分類(lèi)中依然存在特

4、征高維性、稀疏性、類(lèi)別離散度高等問(wèn)題,嚴(yán)重影響了文本分類(lèi)的準(zhǔn)確性。為了解決這些問(wèn)題,本文把文本特征選擇算法作為主要研究對(duì)象,提出了改進(jìn)的互信息、信息增益特征選擇算法。改進(jìn)的互信息特征選擇算法通過(guò)引入特征的詞頻和分布信息,設(shè)計(jì)出互信息特征評(píng)估函數(shù),消除了低頻特征詞和類(lèi)內(nèi)分布信息對(duì)分類(lèi)的影響,進(jìn)而提高了文本分類(lèi)準(zhǔn)確率。改進(jìn)的信息增益特征選擇算法通過(guò)引入特征頻度和離散度信息,構(gòu)造出信息增益特征評(píng)估函數(shù),降低了分布不均衡特征詞和類(lèi)別離散度對(duì)分類(lèi)的影響。再將特征詞未出現(xiàn)概率在評(píng)估函數(shù)中去除,進(jìn)一步優(yōu)化了特征評(píng)估函數(shù)。從而提高了文本特征選擇精度,改善了文本

5、分類(lèi)效果?;谏鲜鰞煞N改進(jìn)算法,本文實(shí)現(xiàn)了文本分類(lèi)系統(tǒng)。文本分類(lèi)對(duì)比實(shí)驗(yàn)表明,提出的兩個(gè)改進(jìn)算法均能準(zhǔn)確的選擇出最優(yōu)特征子集,并且在文本分類(lèi)的查全率、查準(zhǔn)率和F1值上均優(yōu)于傳統(tǒng)算法。關(guān)鍵詞:文本分類(lèi)、特征選擇、互信息、文本特征、信息增益IABSTRACTAsaneffectivemethodofmanagingandorganizingtextinformation,textclassificationhasalwaysbeentheresearchhotspotinthefieldoftextmining.Butintextclassific

6、ation,therearesomeproblemssuchashighdimensionalityoffeatures,sparsityandhighclassdiscretizationandsoon,whichseriouslyaffectitsaccuracy.Inordertosolvetheseproblems,thispaperchoosefeatureselectionalgorithmasthemainresearchobjecttoputforwardimprovedfeatureselectionalgorithmsofm

7、utualinformationandinformationgain.Theimprovedmutualinformationfeatureselectionalgorithmdevelopedafeatureevaluatefunctionofmutualinformationbyintroducingwordfrequencyandinformationdistributionofthefeaturestoremoveinfluenceoffeaturewordsoflowfrequencyandinformationdistributio

8、nwithinclassonclassification,soastoimprovetheaccuracyoftextclassification.T

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。