中文文本自動分類算法研究

中文文本自動分類算法研究

ID:38671345

大小:961.42 KB

頁數(shù):69頁

時間:2019-06-17

中文文本自動分類算法研究_第1頁
中文文本自動分類算法研究_第2頁
中文文本自動分類算法研究_第3頁
中文文本自動分類算法研究_第4頁
中文文本自動分類算法研究_第5頁
資源描述:

《中文文本自動分類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、上海交通大學(xué)碩士學(xué)位論文中文文本自動分類算法研究姓名:王香港申請學(xué)位級別:碩士專業(yè):電子與通信工程指導(dǎo)教師:倪佑生20071201上海交通大學(xué)碩士學(xué)位論文摘要中文文本自動分類算法研究摘要隨著Internet的迅猛發(fā)展和日益普及,電子文本信息迅速膨脹,如何有效地組織和管理這些信息,并快速、準確、全面地從中找到用戶所需要的信息是當(dāng)前信息科學(xué)和技術(shù)領(lǐng)域面臨的一大挑戰(zhàn)。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以在較大程度上解決信息雜亂現(xiàn)象的問題,方便用戶準確地定位所需的信息和分流信息。而且作為信息過濾、信息檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化

2、圖書館等領(lǐng)域的技術(shù)基礎(chǔ),文本分類技術(shù)有著廣泛的應(yīng)用前景。本文對文本分類及其相關(guān)技術(shù)進行了研究。從提高分類方法的快速性、準確性和穩(wěn)定性出發(fā),提出多種有效的解決或改進的方法和技術(shù)。較系統(tǒng)地綜述了中文文本分類中自動分詞技術(shù)、特征提取技術(shù)、文本分類模型和性能評估技術(shù)的研究現(xiàn)狀和研究方法。較全面地討論了貝葉斯方法、k近鄰方法和AdaBoost等三種中文文本分類方法。作者采用三個模型,實現(xiàn)了樸素貝葉斯分類器、k近鄰分類器和Adaboost分類器三個中文文本分類器,集成了一個實用性較強的實驗系統(tǒng)。文中深入地分析了k近鄰方法的不足,提出了改進的k近鄰方法,

3、有基于隱含語義,特征聚合,強化文本中語義鏈屬性因子與檢索相結(jié)合的迭代近鄰法四種方法進行改進,提高了分類器的性能。重點討論了AdaBoost的相關(guān)問題。概述了boost理論的主要內(nèi)容和應(yīng)用情況。NaiveBayesian分類器是一種有效的文本分類方法,但由于具有較強的穩(wěn)定性,很難通過Boosting機制提高其性能。因此用Naive分類器作第I頁上海交通大學(xué)碩士學(xué)位論文摘要為Boosting的基分類器需要解決的最大問題,就是如何破壞NaiveBayesian分類器的穩(wěn)定性。提出了3種破壞NaiveBayesian學(xué)習(xí)器穩(wěn)定性的方法。第一種方法改

4、變訓(xùn)練集樣本,第二種方法采用隨機屬性選擇社團,第三種方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征詞集。實驗表明,這幾種方法各有其優(yōu)缺點,但都比原有方法準確、高效。實驗表明,三種分類器都適合于中文文本分類的需要,其中Adaboost分類器的分類性能最好。而樸素貝葉斯的簡單快速,k近鄰方法性能適中同樣適用于中文文本分類的需要。關(guān)鍵詞:特征選擇,文本分類,貝葉斯分類器,k近鄰分類器,Adaboost分類算法第II頁上海交通大學(xué)碩士學(xué)位論文ABSTRACTASTUDYONCHINESETEXTCATEGORIZATI

5、ONABSTRACTWiththerapiddevelopmentandspreadofInternet,electronictextinformationgreatlyincreases.Itisagreatchallengeforinformationscienceandtechnologythathowtoorganizeandprocesslargeamountofdocumentdata,andfindtheinterestedinformationofuserquickly,exactlyandfully.Asthekeytec

6、hnologyinorganizingandprocessinglargemountofdocumentdata,textclassificationcansolvetheproblemofinformationdisordertoagreatextent,andisconvenientforusertofindtherequiredinformationquickly.Moreover,textclassificationhasthebroadappliedfutureasthetechnicalbasisofinformationfil

7、tering,informationretrieval,searchengine,textdatabase,anddigitallibraryandsoon.Researchontextclassificationanditsrelatedtechnologiesaredoneinthepaper.Fromtheangleofimprovingthespeed,precisionandstability,severalmethodsandtechniquesarepresented.Thethesissummarizessystematic

8、allysometechniquesaboutwordsegmentation,featureselection,categorizingalgorithmandperforma

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。