資源描述:
《svm分類器設(shè)計》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、SVM分類器設(shè)計1?引言支撐矢量機(SVM)是90年代中期發(fā)展起來的基于統(tǒng)計學(xué)習(xí)理論的一種機器學(xué)習(xí)方法,通過尋求結(jié)構(gòu)化風(fēng)險最小來提高學(xué)習(xí)機泛化能力,實現(xiàn)經(jīng)驗風(fēng)險和置信范圍的最小化,從而達到在統(tǒng)計樣本雖:較少的情況下,亦能獲得良好統(tǒng)計規(guī)律的FI的。SVM分類器在推廣性和經(jīng)驗謀差兩方面能達到平衡,是目前比較盛行的分類器。1.1什么是SVM分類器所謂支持向量機,顧名思義,分為兩個部分了解,一什么是支持向量,簡單來說,就是支持或者是支撐平面上把兩類類別劃分開來的超平面的向量點;二這里的“機”是什么意思?!皺C(machine,機器)
2、”便是一個算法。在機器學(xué)習(xí)領(lǐng)域,常把一些算法看做是一個機器,如分類機(當(dāng)然,也叫做分類器),而支持向最機木身便是一種監(jiān)督式學(xué)習(xí)的方法它廣泛的應(yīng)用于統(tǒng)計分類以及冋歸分析中。SVM的主要思想可以概括為兩點:⑴它是針對線性可分情況進行分析;(2)對于線性不可分的悄況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間釆用線性算法對樣本的非線性特征進行線性分析成為可能。1.2SVM分類器的優(yōu)點和缺點優(yōu)點:(1)由于核函數(shù)隱含一個復(fù)雜映射,經(jīng)驗誤差小,因此針對小樣本數(shù)據(jù)利用支持向
3、量能夠完成線性或非線性規(guī)劃問題;推廣性和經(jīng)驗誤差平衡。(2)SVM的最終決策函數(shù)只由靠近邊界的少數(shù)的支持向量所確定,計算的復(fù)雜性収決丁支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。(3)少數(shù)支持向最決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣木、“剔除”大最兀余樣本,而且注定了該方法不但算法簡單,而且具有較好的“魯棒”性。這種“魯棒”性主要體現(xiàn)在:①增、刪非支持向量樣本對模型沒有影響;②支持向量樣本集具有一定的魯棒性;③有些成功的應(yīng)用中,SVM方法對核的選取不敏感缺點:(1)在訓(xùn)練分類器吋,SVM
4、的著眼點在于兩類的交界部分,那些混雜在另一類中的點往往無助于提高分類器的性能,反而會大大增加訓(xùn)練器的計算負(fù)擔(dān),同吋它們的存在還可能造成過學(xué)習(xí),使泛化能力減弱.為了改善支持向量機的泛化能力。(2)SVM算法對人規(guī)模訓(xùn)練樣木難以實丿施。由于SVM是借助二次規(guī)劃來求解支持向量,而求解二次規(guī)劃將涉及m階矩陣的計算(m為樣木的個數(shù)),當(dāng)m數(shù)1=1很人時該矩陣的存儲和計算將耗費大量的機器內(nèi)存和運算時間。(3)用SVM解決多分類問題存在困難。經(jīng)典的支持向量機算法只給出了二類分類的算法,而在數(shù)據(jù)挖掘的實際應(yīng)用中,一般要解決多類的分類問題。
5、可以通過多個二類支持向量機的組合來解決。主耍有一對多組合模式、一對一組合模式和SVM決策樹;再就是通過構(gòu)造多個分類器的組合來解決。主要原理是克服SVM固有的缺點,結(jié)合其他算法的優(yōu)勢,解決多類問題的分類精度。女與粗集理論結(jié)合,形成一種優(yōu)勢互補的多類問題的組合分類器1.3SVM分類器當(dāng)前研究熱點(1)針對大樣本數(shù)據(jù)訓(xùn)練難度問題,對SVM算法的改進。例如J.Platt的SM0算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、張學(xué)工的CSVM以及0.L.Mangasarian等的SOR算法。(2)如何降低邊
6、界混雜點(即所謂統(tǒng)計誤差導(dǎo)致的“不干凈”點)導(dǎo)致的不必要的訓(xùn)練計算負(fù)擔(dān),增強泛化能力。這種思路聚焦于樣本數(shù)據(jù)預(yù)處理的探索,例如NN-SVMo(1)分類器設(shè)計思想之間的融合以及取長補短。例如[2]采樣支撐矢最機和最近鄰分類相結(jié)合的方法,在捉高支撐矢量機的粕度的同時,也較好的解決了核參數(shù)的問題。1.4本文所解決的問題本文對所給的二類樣本,隨機生成等容量的訓(xùn)練樣本和測試樣本,利用訓(xùn)練樣本使用三種核函數(shù)生成最優(yōu)決策超平而,對測試樣木進行判決,將測試結(jié)果與訓(xùn)練目標(biāo)進行比較。使用“特異性”和“敏感度”兩個指標(biāo)評估不同核函數(shù)的下支撐矢量
7、機的性能。2.SVM方法論述支持向量機屮對于非線性可分的情況,可使用一個非線性函數(shù)俠兀)把數(shù)據(jù)映射到一個高維特征空間,在高維特征空間建立優(yōu)化超平面,判決函數(shù)變?yōu)椋簄=Sgn工exv(p(x(pg>+b/=1i般無法知道0(兀)的具體表達,也難以知曉樣木映射到高維空間麻的維數(shù)、分布等情況,不能再高維空間求解超平面。由TSVM理論只考慮高維特征空間的點積運算而點積運算可由其對應(yīng)的核函數(shù)宜接給出,即KgXj)=<(pg(pg>,用內(nèi)積Kg?)代替最優(yōu)分類面中的點積,就相當(dāng)于把原特征空間變換到了某?新的特征空間,得到浙的優(yōu)化函數(shù)
8、:I1/Max:W(a)=工匕一牙工/=!2/J=1Subjectto0<^0,z=i求解上述問題麻得到的最優(yōu)分類函數(shù)是:fx)=Sgn工e’Ka,兀)+/?b是分類閥值,可以用任一個支持向量求得,或通過兩類中任意一對支持向量取中值求得。其中核函數(shù)K(S)可以有多種形式,常用的有:(1)線性