基于支持向量機的文本分類方法研究

基于支持向量機的文本分類方法研究

ID:36740646

大小:1.64 MB

頁數(shù):58頁

時間:2019-05-14

基于支持向量機的文本分類方法研究_第1頁
基于支持向量機的文本分類方法研究_第2頁
基于支持向量機的文本分類方法研究_第3頁
基于支持向量機的文本分類方法研究_第4頁
基于支持向量機的文本分類方法研究_第5頁
資源描述:

《基于支持向量機的文本分類方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、t一研68咀⑧天津大薯中國近代第所大學(xué)碩士學(xué)位論文學(xué)科專業(yè):系統(tǒng)工程作者姓名:墮堡指導(dǎo)教師:至堊墮塑量??㈣2005年12月中文摘要數(shù)據(jù)挖掘是一門從大規(guī)模數(shù)據(jù)中提取有用信息和知識的新興技術(shù),文本挖掘是數(shù)據(jù)挖掘中一項重要內(nèi)容。面對大規(guī)模的、高維的數(shù)據(jù),如何建立有效的文本挖掘算法是數(shù)據(jù)挖掘研究的方向之一。圍繞以上問題,本文利用支持向量機對文本分類數(shù)據(jù)挖掘中涉及的若汗問題進行了深入研究,主要包括以下幾個方面的內(nèi)容:通過對支持向量訓(xùn)練速度慢的主要原因進行分析,利用一種預(yù)抽取兩類樣本相對邊界的邊界向量的FFMVM方法、模

2、糊循環(huán)迭代算法,提高支持向量機訓(xùn)練速度。在此基礎(chǔ)上,提出了一種基于上述改進的支持向量機的兩類文本分類算法,以預(yù)抽取的邊界向量集合作為初始工作集合,以模糊循環(huán)迭代算法對支持向量機進行訓(xùn)練,實驗結(jié)果表明,與傳統(tǒng)方法相比該算法具有更高的效率。針對目前支持向量機多類分類方法存在的缺點,在一種新的支持向量機多類分類方法基礎(chǔ)上提出了一種SVM多類文本分類算法。實驗結(jié)果表明,此方法與目前認(rèn)為性能好的DDAGSVM方法相比,需要訓(xùn)練的支持向量機數(shù)目少,訓(xùn)練速度快,分類速度快,同時克服了可能出現(xiàn)的不確定分類區(qū)域的存在。關(guān)鍵詞:文

3、本挖掘,支持向量機,兩類分類,多類分類ABSTRACTDataminingisanewtechnologythatisusedtoextractusefulinformationandknowledgefromlargedatabases.Textclassificationisanimportanttaskofdatamining.Facingthemassivevolumeandhighdimensionaldatahowtobuildeffectivealgorithmfortextminingisone

4、ofresearchdirectionsofdatamining.Aimingataboveissues,someproblemsoftextclassificationwithSVM(supportvectormachine)havebeenstudiedsubstantiallyinthispaper.Themaincontentsarelistedasfollows:ThroughanalyzingthemainreasonthatthetrainingspeedofSVMisslow,weemploya

5、pre—extractingSVs(supportvectors)algorithmandcirculatediterativealgorithmtoimprovethespeedoftrainingSVM.Andbasedonitanewtwoclassestextcategorizationalgorithmispresentedwhichincludespre—extractingsupportvectorsastheinitialworkingsetandfuzzycirculatediterative

6、algorithmastrainingmethodofSVM.Comparedwiththeconventionalsupportvectormachines,thepresentmethodpossessesmuchhighercomputationefficiency.TosolvetheproblemsanddefectionsofexistingmethodsofSVMmulticlassclassification.a(chǎn)newmethodofSVMmulticlassclassificationbase

7、donbinarytreeisemployedandappliedittomultielasstextcategorization.Severalsimulationsdemonstratethatcomparedwiththeexistingmethods,thenewmethodprseessedthefollowingadvantages:thenumberofSVMsneededtobetrainedisless,thespeedoftraininganddecisionisfastandtheregi

8、onthatcannotbeclassifieddoesnotexistagain.keywords=Textmining,supportvectormachines(SVM),twoclassestextcategorization,multiclasstextcategorizationⅡ獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進行的研究工作和取得的研究成果,除了文中特

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。