中文文本自動分類算法研究

ID：38671345

大小：961.42 KB

頁數(shù)：69頁

時間：2019-06-17

資源描述：

《中文文本自動分類算法研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、上海交通大學(xué)碩士學(xué)位論文中文文本自動分類算法研究姓名：王香港申請學(xué)位級別：碩士專業(yè)：電子與通信工程指導(dǎo)教師：倪佑生20071201上海交通大學(xué)碩士學(xué)位論文摘要中文文本自動分類算法研究摘要隨著Internet的迅猛發(fā)展和日益普及，電子文本信息迅速膨脹，如何有效地組織和管理這些信息，并快速、準確、全面地從中找到用戶所需要的信息是當(dāng)前信息科學(xué)和技術(shù)領(lǐng)域面臨的一大挑戰(zhàn)。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù)，可以在較大程度上解決信息雜亂現(xiàn)象的問題，方便用戶準確地定位所需的信息和分流信息。而且作為信息過濾、信息檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化

2、圖書館等領(lǐng)域的技術(shù)基礎(chǔ)，文本分類技術(shù)有著廣泛的應(yīng)用前景。本文對文本分類及其相關(guān)技術(shù)進行了研究。從提高分類方法的快速性、準確性和穩(wěn)定性出發(fā)，提出多種有效的解決或改進的方法和技術(shù)。較系統(tǒng)地綜述了中文文本分類中自動分詞技術(shù)、特征提取技術(shù)、文本分類模型和性能評估技術(shù)的研究現(xiàn)狀和研究方法。較全面地討論了貝葉斯方法、k近鄰方法和AdaBoost等三種中文文本分類方法。作者采用三個模型，實現(xiàn)了樸素貝葉斯分類器、k近鄰分類器和Adaboost分類器三個中文文本分類器，集成了一個實用性較強的實驗系統(tǒng)。文中深入地分析了k近鄰方法的不足，提出了改進的k近鄰方法，

3、有基于隱含語義，特征聚合，強化文本中語義鏈屬性因子與檢索相結(jié)合的迭代近鄰法四種方法進行改進，提高了分類器的性能。重點討論了AdaBoost的相關(guān)問題。概述了boost理論的主要內(nèi)容和應(yīng)用情況。NaiveBayesian分類器是一種有效的文本分類方法，但由于具有較強的穩(wěn)定性，很難通過Boosting機制提高其性能。因此用Naive分類器作第I頁上海交通大學(xué)碩士學(xué)位論文摘要為Boosting的基分類器需要解決的最大問題，就是如何破壞NaiveBayesian分類器的穩(wěn)定性。提出了3種破壞NaiveBayesian學(xué)習(xí)器穩(wěn)定性的方法。第一種方法改

4、變訓(xùn)練集樣本，第二種方法采用隨機屬性選擇社團，第三種方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征詞集。實驗表明，這幾種方法各有其優(yōu)缺點，但都比原有方法準確、高效。實驗表明，三種分類器都適合于中文文本分類的需要，其中Adaboost分類器的分類性能最好。而樸素貝葉斯的簡單快速，k近鄰方法性能適中同樣適用于中文文本分類的需要。關(guān)鍵詞：特征選擇，文本分類，貝葉斯分類器，k近鄰分類器，Adaboost分類算法第II頁上海交通大學(xué)碩士學(xué)位論文ABSTRACTASTUDYONCHINESETEXTCATEGORIZATI

5、ONABSTRACTWiththerapiddevelopmentandspreadofInternet,electronictextinformationgreatlyincreases.Itisagreatchallengeforinformationscienceandtechnologythathowtoorganizeandprocesslargeamountofdocumentdata,andfindtheinterestedinformationofuserquickly,exactlyandfully.Asthekeytec

6、hnologyinorganizingandprocessinglargemountofdocumentdata,textclassificationcansolvetheproblemofinformationdisordertoagreatextent,andisconvenientforusertofindtherequiredinformationquickly.Moreover,textclassificationhasthebroadappliedfutureasthetechnicalbasisofinformationfil

7、tering,informationretrieval,searchengine,textdatabase,anddigitallibraryandsoon.Researchontextclassificationanditsrelatedtechnologiesaredoneinthepaper.Fromtheangleofimprovingthespeed,precisionandstability,severalmethodsandtechniquesarepresented.Thethesissummarizessystematic

8、allysometechniquesaboutwordsegmentation,featureselection,categorizingalgorithmandperforma

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 69



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

中文文本自動分類算法研究

中文文本自動分類算法研究

相關(guān)文章

相關(guān)標(biāo)簽