資源描述:
《文本分類中特征選擇與加權(quán)算法的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士學(xué)位論文題目:文本分類中特征選擇與加權(quán)算法的研究研究生王劉陽專業(yè)計算機技術(shù)指導(dǎo)教師趙乃良教授吳國華研究員完成日期2016年03月坑州電子科技大學(xué)學(xué)位論文原創(chuàng)性聲巧和使用授權(quán)說明原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨立進行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作曲或成果。對本文的研巧做出重要貢獻的個人和集體,均已在文中W明確方式標明。申請學(xué)位論文與資料若有不實么處一,本人承擔切相關(guān)貴任。‘論文作者簽名;身
2、曰期:年月曰I1內(nèi)?3學(xué)化論文使用搬說明:本人完全了解杭州電子科技大學(xué)關(guān)于保留和使用學(xué)位論文的規(guī)定,即研巧生在巧攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬抗州電子科技大學(xué)。本人保證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時署名單位仍然為杭州電子科技大學(xué)。學(xué)巧有枚保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)??桑坠颊撐牡娜崳?。(部或部分內(nèi)容,可抖允許采用影印、縮印或其芭復(fù)制手段保存論文保密論文在解密后遵守此規(guī)定)論文作者簽名;i叫的曰期;年之月3曰指導(dǎo)教師簽名__期:年成曰賊礎(chǔ)含喪襄最I戶
3、|杭州電子科技大學(xué)碩士學(xué)位論文文本分類中特征選擇與加權(quán)算法的研究研究生:王劉陽指導(dǎo)教師:趙乃良教授吳國華研究員2016年3月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchonAlgorithmofFeatureSelectionandWeightinginTextClassificationCandidate:WangLiuyangSupervisor:Prof.ZhaoNailiangProf.WuGuohuaMarc
4、h,2016摘要文本分類是組織和管理文本信息的有效手段,但是文本分類中存在高維性、類別區(qū)分能力低等問題,嚴重影響了文本分類的性能。為了解決文本分類的高維性問題,本文對常見的特征選擇算法進行了比較、研究,選擇了降維效果較好的期望交叉熵算法。同時,分別從特征項詞頻在類內(nèi)信息、類內(nèi)和類間信息分布熵對算法的影響進行了分析,并提出了基于信息熵的改進算法,解決了算法對特征項詞頻考慮不足的缺陷。另外,本文也對TF-IDF特征加權(quán)算法進行了研究,分別從特征項在類間分布的集中性、類內(nèi)分布的均勻性方面分析,本文提出了一種改進的TF-IDF特征
5、加權(quán)算法,解決了算法對特征項類別考慮不足的缺陷。基于上述改進算法,本文實現(xiàn)了文本分類系統(tǒng)。文本分類對比實驗表明,基于信息熵的改進算法解決了高維性問題,能夠準確的選擇出最優(yōu)特征子集,提升了文本分類的性能。改進的TF-IDF算法解決了特征項的類別區(qū)分能力的問題,可賦予特征項更精準的權(quán)重,提高了文本分類的準確度。關(guān)鍵字:文本分類、特征選擇、信息熵、期望交叉熵、特征加權(quán)IABSTRACTTextclassificationisaneffectivewaytoorganizeandmanagetextinformation,butt
6、heresomecomplicatedproblemsintextclassificationwhichincludehigh-dimension,lowerabilityofcategorydistinguishing,whichseriouslyaffecttheperformanceoftextclassification.Inordertosolvehigh-dimensionproblemintextclassification,thispapercomparedandstudiedsomefeaturesele
7、ctionalgorithms,andselectedtheexpectedcrossentropyfeatureselectionalgorithmwhichworksbestindimensionreduction.Meanwhile,thispapermadeananalysisfromthefrequencyoffeaturesinformationwithincategory,theinformationdistributionentropyofwithincategoryandamongdifferentcat
8、egories,anexpectedcrossentropyfeatureselectionmethodbasedoninformationentropywasproposedtoresolvetheinsufficientconsiderationofthefrequencyoffeaturesint