boosting在文本分類中的應(yīng)用

boosting在文本分類中的應(yīng)用

ID:33407205

大?。?25.59 KB

頁數(shù):26頁

時(shí)間:2019-02-25

boosting在文本分類中的應(yīng)用_第1頁
boosting在文本分類中的應(yīng)用_第2頁
boosting在文本分類中的應(yīng)用_第3頁
boosting在文本分類中的應(yīng)用_第4頁
boosting在文本分類中的應(yīng)用_第5頁
資源描述:

《boosting在文本分類中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、學(xué)校代碼:幽分類號(hào):咝⑧研究生學(xué)號(hào):!Q圣QQ圣QQ墨21圣壘!密級(jí):玉東牡JIf予葒大孽碩士學(xué)位論文Boosting在文本分類中的應(yīng)用TheapplicationofBoostingintextclassification指導(dǎo)教師:學(xué)科專業(yè):研究方向:學(xué)位類型:作者:周志平郭建華教授概率論與數(shù)理統(tǒng)計(jì)機(jī)器學(xué)習(xí)學(xué)歷碩士東北師范大學(xué)學(xué)位評(píng)定委員會(huì)2010年5月■一0_;蛩m∽一鍵一霰。{.I么1’l獨(dú)創(chuàng)性聲明本人鄭重聲明:所提交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下獨(dú)立進(jìn)行研究工作所取得的成果。據(jù)我所知,除了特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果。對(duì)

2、本人的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中作了明確的說明。本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作孝簽名:上42#卜日期:』烏叢J乙£一學(xué)位論文使用授權(quán)書本學(xué)位論文作者完全了解東北師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:東北師范大學(xué)有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交學(xué)位論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)東北師范大學(xué)可以采用影印、縮印或其它復(fù)制手段保存、匯編本學(xué)位論文。同意將本學(xué)位論文收錄到《中國優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫》(中國學(xué)術(shù)期刊(光盤版)電子雜志社)、《中國學(xué)位論文全文數(shù)據(jù)庫》(中國科學(xué)技術(shù)信息研究所)等數(shù)據(jù)庫中,并以電子出版物形式出版發(fā)

3、行和提供信息服務(wù)。(保密的學(xué)位論文在解密后適用本授權(quán)書)學(xué)位論文作者簽名:日期:學(xué)位論文作工作單位:通訊地址:指導(dǎo)教師簽名:互醴堡。日期:2望fQ。盤=6電話:——郵編:——爨靜,...,mp..j曩?!诋?dāng)今社會(huì),人們身邊充斥著大量的數(shù)據(jù),特別是文本數(shù)據(jù),使人目不暇接。面對(duì)如此海量數(shù)據(jù),我們已經(jīng)不能簡單地憑借人工處理來得到信息,迫切需要計(jì)算機(jī)來幫助我們更好地發(fā)現(xiàn)和管理這些信息資源。如何從海量數(shù)據(jù)中挖掘出有用的信息已成為當(dāng)今科學(xué)研究的一個(gè)重要課題。文本數(shù)據(jù)挖掘是應(yīng)用數(shù)理統(tǒng)計(jì)方法及計(jì)算機(jī)技術(shù),對(duì)文本數(shù)據(jù)進(jìn)行信息提取的--fq新興學(xué)科。文本分類是文本數(shù)據(jù)挖掘的一個(gè)重要研

4、究方向。文本分類的方法已經(jīng)有很多,比!ttlNa'iveBayes,K一近鄰,支持向量機(jī),神經(jīng)網(wǎng)絡(luò)等等。但對(duì)于中文文本分類問題,由于中文文本本身的復(fù)雜性,一直沒有得到很好的解決,中文文本分類是建立在漢字編碼,詞語切分,歧義詞消解和新詞的識(shí)別等基礎(chǔ)上的一項(xiàng)技術(shù)。中文文本數(shù)據(jù)的處理是以語句作為研究對(duì)象,以詞作為最小研究單位的,因此無論是在中文文本數(shù)據(jù)的語法研究還是計(jì)算數(shù)學(xué)模型上都存在相當(dāng)大的難度,目前采用的方法主要有基于語法規(guī)則的方法,基于數(shù)理統(tǒng)計(jì)方法,以及語法規(guī)則與數(shù)理統(tǒng)計(jì)相結(jié)合的方法。本文是在采用反向最大匹配分詞技術(shù),消解歧義,以及添加新詞的基礎(chǔ)上,建立了向量空間模型。

5、基于數(shù)理統(tǒng)計(jì)的方法,使用NaiveBayes分類器,并使用AdaBoost算法對(duì)分類器的分類效率進(jìn)行提升,以達(dá)到提高預(yù)測精度的目的。針對(duì)本文提出的方法,將其應(yīng)用到了“長春市市長公開電話”數(shù)據(jù)的分類問題中,分類精度得到提升,顯示該方法的有效性及其重要的應(yīng)用價(jià)值。關(guān)鍵詞:文本分類;NaiveBayes-Boosting;AdaBoostAbstractInmodemsociety,peoplealebombardedwithalotofinformation,especiallytextmessages,whicharetoomanyforpeopletotakein.In

6、ordertomakebetteruseofalltheseinformation,it'snecessarytohaveaclassificationoftheinformation.Therearealreadymanytextclassificationmethods,suchasNaiveBayes,K-neighbor,neuralnetworksandSOon.ButforChinesetextclassification,duetothecomplexityoftheChinesetextitself,theChinesetextdataclassific

7、ationproblemhasnotbeenproperlyresolved.Chinesetextclassificationisatechnologybasedoncharacterencoding,wordsegmentation,ambiguouswordsdigestionandidentificationofnewwords.AstheChineselanguageprocessingtakessentencesastheobjectofstudy,therefore,whetherinChinesegrammarstudyo

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。