資源描述:
《基于支持向量機的文本分類方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、t一研68咀⑧天津大薯中國近代第所大學(xué)碩士學(xué)位論文學(xué)科專業(yè):系統(tǒng)工程作者姓名:墮堡指導(dǎo)教師:至堊墮塑量??㈣2005年12月中文摘要數(shù)據(jù)挖掘是一門從大規(guī)模數(shù)據(jù)中提取有用信息和知識的新興技術(shù),文本挖掘是數(shù)據(jù)挖掘中一項重要內(nèi)容。面對大規(guī)模的、高維的數(shù)據(jù),如何建立有效的文本挖掘算法是數(shù)據(jù)挖掘研究的方向之一。圍繞以上問題,本文利用支持向量機對文本分類數(shù)據(jù)挖掘中涉及的若汗問題進行了深入研究,主要包括以下幾個方面的內(nèi)容:通過對支持向量訓(xùn)練速度慢的主要原因進行分析,利用一種預(yù)抽取兩類樣本相對邊界的邊界向量的FFMVM方法、模
2、糊循環(huán)迭代算法,提高支持向量機訓(xùn)練速度。在此基礎(chǔ)上,提出了一種基于上述改進的支持向量機的兩類文本分類算法,以預(yù)抽取的邊界向量集合作為初始工作集合,以模糊循環(huán)迭代算法對支持向量機進行訓(xùn)練,實驗結(jié)果表明,與傳統(tǒng)方法相比該算法具有更高的效率。針對目前支持向量機多類分類方法存在的缺點,在一種新的支持向量機多類分類方法基礎(chǔ)上提出了一種SVM多類文本分類算法。實驗結(jié)果表明,此方法與目前認(rèn)為性能好的DDAGSVM方法相比,需要訓(xùn)練的支持向量機數(shù)目少,訓(xùn)練速度快,分類速度快,同時克服了可能出現(xiàn)的不確定分類區(qū)域的存在。關(guān)鍵詞:文
3、本挖掘,支持向量機,兩類分類,多類分類ABSTRACTDataminingisanewtechnologythatisusedtoextractusefulinformationandknowledgefromlargedatabases.Textclassificationisanimportanttaskofdatamining.Facingthemassivevolumeandhighdimensionaldatahowtobuildeffectivealgorithmfortextminingisone
4、ofresearchdirectionsofdatamining.Aimingataboveissues,someproblemsoftextclassificationwithSVM(supportvectormachine)havebeenstudiedsubstantiallyinthispaper.Themaincontentsarelistedasfollows:ThroughanalyzingthemainreasonthatthetrainingspeedofSVMisslow,weemploya
5、pre—extractingSVs(supportvectors)algorithmandcirculatediterativealgorithmtoimprovethespeedoftrainingSVM.Andbasedonitanewtwoclassestextcategorizationalgorithmispresentedwhichincludespre—extractingsupportvectorsastheinitialworkingsetandfuzzycirculatediterative
6、algorithmastrainingmethodofSVM.Comparedwiththeconventionalsupportvectormachines,thepresentmethodpossessesmuchhighercomputationefficiency.TosolvetheproblemsanddefectionsofexistingmethodsofSVMmulticlassclassification.a(chǎn)newmethodofSVMmulticlassclassificationbase
7、donbinarytreeisemployedandappliedittomultielasstextcategorization.Severalsimulationsdemonstratethatcomparedwiththeexistingmethods,thenewmethodprseessedthefollowingadvantages:thenumberofSVMsneededtobetrainedisless,thespeedoftraininganddecisionisfastandtheregi
8、onthatcannotbeclassifieddoesnotexistagain.keywords=Textmining,supportvectormachines(SVM),twoclassestextcategorization,multiclasstextcategorizationⅡ獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進行的研究工作和取得的研究成果,除了文中特