資源描述:
《中文文本自動分類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、上海交通大學(xué)碩士學(xué)位論文中文文本自動分類算法研究姓名:王香港申請學(xué)位級別:碩士專業(yè):電子與通信工程指導(dǎo)教師:倪佑生20071201上海交通大學(xué)碩士學(xué)位論文摘要中文文本自動分類算法研究摘要隨著Internet的迅猛發(fā)展和日益普及,電子文本信息迅速膨脹,如何有效地組織和管理這些信息,并快速、準確、全面地從中找到用戶所需要的信息是當(dāng)前信息科學(xué)和技術(shù)領(lǐng)域面臨的一大挑戰(zhàn)。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以在較大程度上解決信息雜亂現(xiàn)象的問題,方便用戶準確地定位所需的信息和分流信息。而且作為信息過濾、信息檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化
2、圖書館等領(lǐng)域的技術(shù)基礎(chǔ),文本分類技術(shù)有著廣泛的應(yīng)用前景。本文對文本分類及其相關(guān)技術(shù)進行了研究。從提高分類方法的快速性、準確性和穩(wěn)定性出發(fā),提出多種有效的解決或改進的方法和技術(shù)。較系統(tǒng)地綜述了中文文本分類中自動分詞技術(shù)、特征提取技術(shù)、文本分類模型和性能評估技術(shù)的研究現(xiàn)狀和研究方法。較全面地討論了貝葉斯方法、k近鄰方法和AdaBoost等三種中文文本分類方法。作者采用三個模型,實現(xiàn)了樸素貝葉斯分類器、k近鄰分類器和Adaboost分類器三個中文文本分類器,集成了一個實用性較強的實驗系統(tǒng)。文中深入地分析了k近鄰方法的不足,提出了改進的k近鄰方法,
3、有基于隱含語義,特征聚合,強化文本中語義鏈屬性因子與檢索相結(jié)合的迭代近鄰法四種方法進行改進,提高了分類器的性能。重點討論了AdaBoost的相關(guān)問題。概述了boost理論的主要內(nèi)容和應(yīng)用情況。NaiveBayesian分類器是一種有效的文本分類方法,但由于具有較強的穩(wěn)定性,很難通過Boosting機制提高其性能。因此用Naive分類器作第I頁上海交通大學(xué)碩士學(xué)位論文摘要為Boosting的基分類器需要解決的最大問題,就是如何破壞NaiveBayesian分類器的穩(wěn)定性。提出了3種破壞NaiveBayesian學(xué)習(xí)器穩(wěn)定性的方法。第一種方法改
4、變訓(xùn)練集樣本,第二種方法采用隨機屬性選擇社團,第三種方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征詞集。實驗表明,這幾種方法各有其優(yōu)缺點,但都比原有方法準確、高效。實驗表明,三種分類器都適合于中文文本分類的需要,其中Adaboost分類器的分類性能最好。而樸素貝葉斯的簡單快速,k近鄰方法性能適中同樣適用于中文文本分類的需要。關(guān)鍵詞:特征選擇,文本分類,貝葉斯分類器,k近鄰分類器,Adaboost分類算法第II頁上海交通大學(xué)碩士學(xué)位論文ABSTRACTASTUDYONCHINESETEXTCATEGORIZATI
5、ONABSTRACTWiththerapiddevelopmentandspreadofInternet,electronictextinformationgreatlyincreases.Itisagreatchallengeforinformationscienceandtechnologythathowtoorganizeandprocesslargeamountofdocumentdata,andfindtheinterestedinformationofuserquickly,exactlyandfully.Asthekeytec
6、hnologyinorganizingandprocessinglargemountofdocumentdata,textclassificationcansolvetheproblemofinformationdisordertoagreatextent,andisconvenientforusertofindtherequiredinformationquickly.Moreover,textclassificationhasthebroadappliedfutureasthetechnicalbasisofinformationfil
7、tering,informationretrieval,searchengine,textdatabase,anddigitallibraryandsoon.Researchontextclassificationanditsrelatedtechnologiesaredoneinthepaper.Fromtheangleofimprovingthespeed,precisionandstability,severalmethodsandtechniquesarepresented.Thethesissummarizessystematic
8、allysometechniquesaboutwordsegmentation,featureselection,categorizingalgorithmandperforma