文本分類中特征選擇與加權(quán)算法的研究

文本分類中特征選擇與加權(quán)算法的研究

ID:35082928

大?。?.55 MB

頁數(shù):62頁

時間:2019-03-17

文本分類中特征選擇與加權(quán)算法的研究_第1頁
文本分類中特征選擇與加權(quán)算法的研究_第2頁
文本分類中特征選擇與加權(quán)算法的研究_第3頁
文本分類中特征選擇與加權(quán)算法的研究_第4頁
文本分類中特征選擇與加權(quán)算法的研究_第5頁
資源描述:

《文本分類中特征選擇與加權(quán)算法的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、碩士學(xué)位論文題目:文本分類中特征選擇與加權(quán)算法的研究研究生王劉陽專業(yè)計(jì)算機(jī)技術(shù)指導(dǎo)教師趙乃良教授吳國華研究員完成日期2016年03月坑州電子科技大學(xué)學(xué)位論文原創(chuàng)性聲巧和使用授權(quán)說明原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作曲或成果。對本文的研巧做出重要貢獻(xiàn)的個人和集體,均已在文中W明確方式標(biāo)明。申請學(xué)位論文與資料若有不實(shí)么處一,本人承擔(dān)切相關(guān)貴任。‘論文作者簽名;身

2、曰期:年月曰I1內(nèi)?3學(xué)化論文使用搬說明:本人完全了解杭州電子科技大學(xué)關(guān)于保留和使用學(xué)位論文的規(guī)定,即研巧生在巧攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬抗州電子科技大學(xué)。本人保證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時署名單位仍然為杭州電子科技大學(xué)。學(xué)巧有枚保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)??桑坠颊撐牡娜崳姟#ú炕虿糠謨?nèi)容,可抖允許采用影印、縮印或其芭復(fù)制手段保存論文保密論文在解密后遵守此規(guī)定)論文作者簽名;i叫的曰期;年之月3曰指導(dǎo)教師簽名__期:年成曰賊礎(chǔ)含喪襄最I戶

3、|杭州電子科技大學(xué)碩士學(xué)位論文文本分類中特征選擇與加權(quán)算法的研究研究生:王劉陽指導(dǎo)教師:趙乃良教授吳國華研究員2016年3月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchonAlgorithmofFeatureSelectionandWeightinginTextClassificationCandidate:WangLiuyangSupervisor:Prof.ZhaoNailiangProf.WuGuohuaMarc

4、h,2016摘要文本分類是組織和管理文本信息的有效手段,但是文本分類中存在高維性、類別區(qū)分能力低等問題,嚴(yán)重影響了文本分類的性能。為了解決文本分類的高維性問題,本文對常見的特征選擇算法進(jìn)行了比較、研究,選擇了降維效果較好的期望交叉熵算法。同時,分別從特征項(xiàng)詞頻在類內(nèi)信息、類內(nèi)和類間信息分布熵對算法的影響進(jìn)行了分析,并提出了基于信息熵的改進(jìn)算法,解決了算法對特征項(xiàng)詞頻考慮不足的缺陷。另外,本文也對TF-IDF特征加權(quán)算法進(jìn)行了研究,分別從特征項(xiàng)在類間分布的集中性、類內(nèi)分布的均勻性方面分析,本文提出了一種改進(jìn)的TF-IDF特征

5、加權(quán)算法,解決了算法對特征項(xiàng)類別考慮不足的缺陷?;谏鲜龈倪M(jìn)算法,本文實(shí)現(xiàn)了文本分類系統(tǒng)。文本分類對比實(shí)驗(yàn)表明,基于信息熵的改進(jìn)算法解決了高維性問題,能夠準(zhǔn)確的選擇出最優(yōu)特征子集,提升了文本分類的性能。改進(jìn)的TF-IDF算法解決了特征項(xiàng)的類別區(qū)分能力的問題,可賦予特征項(xiàng)更精準(zhǔn)的權(quán)重,提高了文本分類的準(zhǔn)確度。關(guān)鍵字:文本分類、特征選擇、信息熵、期望交叉熵、特征加權(quán)IABSTRACTTextclassificationisaneffectivewaytoorganizeandmanagetextinformation,butt

6、heresomecomplicatedproblemsintextclassificationwhichincludehigh-dimension,lowerabilityofcategorydistinguishing,whichseriouslyaffecttheperformanceoftextclassification.Inordertosolvehigh-dimensionproblemintextclassification,thispapercomparedandstudiedsomefeaturesele

7、ctionalgorithms,andselectedtheexpectedcrossentropyfeatureselectionalgorithmwhichworksbestindimensionreduction.Meanwhile,thispapermadeananalysisfromthefrequencyoffeaturesinformationwithincategory,theinformationdistributionentropyofwithincategoryandamongdifferentcat

8、egories,anexpectedcrossentropyfeatureselectionmethodbasedoninformationentropywasproposedtoresolvetheinsufficientconsiderationofthefrequencyoffeaturesint

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。