文本分類中特征加權算法和文本表示策略研究

文本分類中特征加權算法和文本表示策略研究

ID:35082924

大小:5.57 MB

頁數:122頁

時間:2019-03-17

文本分類中特征加權算法和文本表示策略研究_第1頁
文本分類中特征加權算法和文本表示策略研究_第2頁
文本分類中特征加權算法和文本表示策略研究_第3頁
文本分類中特征加權算法和文本表示策略研究_第4頁
文本分類中特征加權算法和文本表示策略研究_第5頁
資源描述:

《文本分類中特征加權算法和文本表示策略研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、'.畫歡:論類雜織細.;,‘:心‘’中V/?禪巡巧、.,:、、礙錠讚臂:受1辣%藻採麟1..誦;?。チx論調.巧護冷療豪養(yǎng)搏古學峻総巧私蘇r羯幕.班就>:儀絶‘5^雜球城#%隹學、‘'KS聲勢品,議禱ate啤如,\霉?^筋豁綠藏誦、滅蔡系\》薦纖接、|Vf賊^,真;如茲,節(jié)始|轅觀編.霉.‘&:',暑〇齡巧游舅‘irt#*嘉八’、斬、轉:/#;《i苗蓋寒;邊,:s3;、縣濟編.;‘、^^|£^著鷄競|^.持寒'^^梯辨觀.識難草繁.碳辦夢1如。瓣、雜游新"'‘聲記身^又滅致爲城逝鴻鶴\藏於辭舞,式盧皆東聲綠夫學織\欲皆V

2、盧巧嚴驚腫^:^c;雞霉咬漏班峭觀—提巧殘壤綠遞葬賴—‘?I、^'心,強琴胃昏;,>裹為気為每禱終苗私鳴g獨創(chuàng)性聲明':本人鄭重聲明:所提交的學位論文是本人在導師指導下獨立進行硏究J作所取得的成果,。據我所知,除了特別加^^^標注和致謝的地方外論文中不包含巧他人已經發(fā)表或撰寫過的研究成果。對本人的研兜做出重要貢獻的個人和集體,均Li在文中作了明確的說明。本聲明的法律結果由本人承擔。學位論文作者簽名:巧期:如6XQ學位論文使用授權書]本學位論文作者完全了解東北師范大學有關化酌、使用學位論文,自:的規(guī)定1權,東北范大學巧并向國家有口或

3、機構送交學位論的復印和化子版師有保關部文件。允許論文被查閱和借閱本人授權東北師范大學可W將學位論文的全部或部分內容L、縮、匯編入有關數據庫進行檢,可:A采巧印或其它手段保存本學位索影印復制編論文。(保學位論密后適用)密的文在解本授權書.學位論者簽名:艱導教師簽名文作擔、、苗I備:jd日期:茄f又/日期業(yè)后去:學位論文向作者畢工作位:話;單電通訊地址;郵;編學校代碼:10200研究生學號:2013200383分類號:TP39密級:無博士學位論文文本分類中特征加權算法和文本表示策略研究ResearchontheTermW

4、eightingSchemeandTextRepresentationStrategyforTextCategorization作者:賈隆嘉指導教師:孫鐵利教授一級學科:環(huán)境科學與工程二級學科:智能環(huán)境分析與規(guī)劃研究方向:智能文本挖掘東北師范大學學位評定委員會2016年3月摘要數據已經滲透到各個行業(yè),成為重要的生產因素。隨著大數據時代的到來,對文本信息處理技術的需求與日俱增,人工管理方式已經無法滿足社會需求,因此,自動文本分類技術變得越來越重要,已成為廣大科研團體研究的熱點。本文在分析和總結文本分類框架、文本表示模型、文本預處理、特征選擇、特征提取、特征加權、文本分類器以及分類性能評

5、估的基礎上,對文本特征加權和文本表示策略進行了深入研究。面向均衡數據集,提出了兩種特征加權算法;面向失衡數據集,提出了一種特征加權算法,共計三種有監(jiān)督特征加權算法。此外,針對有監(jiān)督特征加權算法,本文提出了一種最優(yōu)文本表示策略。取得的階段性成果如下:1.基于類別信息的特征加權算法對于采用向量空間模型的大多數文本分類器來說,特征加權一直是分類的瓶頸,特征加權的效果直接影響分類器的分類性能。在分析傳統(tǒng)特征加權算法的基礎上,提出了一種新的特征加權算法。通過將基于詞的特征轉換為基于類別的特征,使數據集的特征維度由原始成千上萬維降低到了與數據集的類別數相同的維度。從而使得特征表示矩陣不再是稀疏矩

6、陣。相比其他特征加權方法,本文的方法不但可以提高文本分類精度,而且可以有效地提高分類速度、降低分類時間。2.基于類空間密度的特征加權算法在分析傳統(tǒng)特征加權算法中的逆類別頻率方法基礎上,引入了類空間密度,進而將逆類別空間密度頻率引入到了特征加權算法中。在度量特征的區(qū)分能力時,針對類別頻率相同,但在此類別頻率下文檔頻率不同的情況,可以為特征賦予不同的權重。該方法能更加客觀地反映特征對分類的重要程度,有效地改善樣本空間分布狀態(tài),使同類別樣本更加緊湊,異類別樣本更加松散。通過將tf*icf和icf-based方法中的逆類別頻率參數更新為本文提出的逆類別空間密度頻率參數,得到了兩個新的特征加權

7、算法:tf*ICSDF和ICSDF-based。實驗結果表明,本文的特征加權算法可以獲得較好的文本分類性能。3.面向失衡數據集的特征加權算法當采用常用特征加權算法對失衡數據集進行加權,經常不能達到預期的效果。主要是由于失衡數據集數據分布的特殊性所導致。本文在分析失衡數據集數據分布特點的基礎上,提出了一種面向失衡數據集的特征加權算法。算法通過結合特征在正類別文檔中出現的概率與特征在負類別文檔中出現的概率兩個方面,綜合度量失衡數據集中不同特征對于文本分類的重要

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。