資源描述:
《基于支持向量機的不平衡數(shù)據(jù)分類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、江蘇科技大學(xué)碩士學(xué)位論文大摘要論文題目基于支持向量機的不平衡數(shù)據(jù)分類算法研究研究方向智能信息處理技術(shù)學(xué)科、專業(yè)計算機技術(shù)研究生姓名洪淑芳導(dǎo)師姓名于化龍?zhí)畋頃r間2014年3月16日萬方數(shù)據(jù)大摘要基于支持向量機的不平衡數(shù)據(jù)分類算法研究大摘要在這個信息爆炸的時代,數(shù)據(jù)量的龐大已經(jīng)引起人們的高度重視,因此需要尋找其規(guī)律并對其進行充分利用。分類問題是處理大量數(shù)據(jù)時最常遇到的問題,它已經(jīng)成為機器學(xué)習(xí)領(lǐng)域一個重要研究內(nèi)容。與傳統(tǒng)的分類方法相比,支持向量機具有泛化能力強、不易陷入局部極小值、高維和小樣本適應(yīng)性等優(yōu)
2、點,能更好地解決過學(xué)習(xí)、維數(shù)災(zāi)難、局部極小值等問題,因此支持向量機是本文首要考慮的分類方法。支持向量機(SVM)主要思想是通過核函數(shù)將訓(xùn)練集映射到高維空間。研究表明支持向量機對平衡數(shù)據(jù)有較好的分類效果,而對非平衡數(shù)據(jù)分類效果較差。其中主要原因是支持向量機的分類超平面僅僅是由少量的支持向量所決定的。支持向量機在處理不平衡數(shù)據(jù)分類問題時,其預(yù)測具有一定的傾向性,對于樣本數(shù)量多的類別,其分類誤差小,而對于樣本數(shù)量少的類別,其分類誤差大。故本文主要研究了如何利用支持向量機來解決不平衡數(shù)據(jù)分類問題,具體研究
3、成果如下:(1)針對二類不平衡數(shù)據(jù)分類問題,從理論上分析了類不平衡分布對支持向量機性能產(chǎn)生危害的原因,提出了一種基于支持向量機的優(yōu)化的決策閾值調(diào)整算法(SVM-OTHR),并利用其來解決類不平衡問題,希望其能回答一個令人困惑的問題:分類超平面應(yīng)該移動多大距離?具體來講,該策略是自適應(yīng)的,可以根據(jù)訓(xùn)練樣本的分布找到分類超平面的最優(yōu)移動距離。此外,為了進一步提高分類器的泛化能力,增強其魯棒性,本文也擴展了該策略,提出一種集成分類算法(EnSVM-OTHR),進一步提高了分類性能。通過10個UCI數(shù)據(jù)集
4、驗證了上述兩種算法的有效性和可行性。(2)針對高維的多類不平衡數(shù)據(jù)分類問題,提出了一種集成支持向量機分類算法。該算法首先利用OAA編碼策略將多類分類問題轉(zhuǎn)換為多個二分類問題,繼而用特征子空間策略大量精確且高差異的調(diào)整策略訓(xùn)練子集。接下來在每個訓(xùn)練子集中使用決策閾值調(diào)整策略或隨機降采樣方法來降低類不平衡的危害性。最后,利用支持向量機作為基分類器,并且利用計數(shù)器投票規(guī)則做出最終的決策。通過8個多類癌癥DNA微陣列數(shù)據(jù)集,其中有不同數(shù)量的類別,樣本,和類不平衡比率,評估了該方法。實驗結(jié)果表明:因該方法可
5、產(chǎn)生更平衡和健壯的分類結(jié)果,所以明顯優(yōu)于一些傳統(tǒng)的分類方法,有效了萬方數(shù)據(jù)大摘要提高分類性能。綜上所述,本文對支持向量機進行了改進,使其能更好地用于解決類不平衡問題。然而,本研究仍有許多待改進和提高之處,如所提算法盡管可取得較好的分類效果,但時空復(fù)雜度仍然較高,這也有待在未來的工作中做出改進。另外,本文涉及的集成分類算法均是以Bagging為框架開發(fā)的,故在未來的工作中,也將進一步考慮現(xiàn)有算法與AdaBoost集成學(xué)習(xí)框架相結(jié)合的可行性。同時,本文算法只在少量數(shù)據(jù)集上進行了驗證,在未來的工作中,我
6、們也希望能在各種應(yīng)用領(lǐng)域的真實數(shù)據(jù)集上對本文算法進行驗證,以推廣其應(yīng)用的范圍。關(guān)鍵詞:支持向量機;類不平衡學(xué)習(xí);集成學(xué)習(xí);分類;DNA微陣列數(shù)據(jù)萬方數(shù)據(jù)AbstractTheResearchofImbalancedDataClassificationAlgorithmBasedonSupportVectorMachineAbstractIntheeraofinformationexplosion,thelargenumberofdatahasarousedpeople'sattention,thu
7、sitneedspeopletofindtheirownregularpatternsandtomakefulluseofthem.Classificationproblemareoneofthemostfrequentlyencounteredproblemsindataprocessing.Ithasbecomeanimportantresearchcontentofmachinelearning.Comparedwiththetraditionalclassificationmethods,
8、supportvectormachinehasseveralmeritsasfollows:highgeneralizationability,absenceoflocalminimaandadaptationforhigh-dimensionandsmallsampledata,whichcanbettersolvetheproblemslistedasfollows:over-learning,dimensiondisasterandlocalminima,thuswegive