資源描述:
《支持向量機簡介ppt課件.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、支持向量機簡介主要內(nèi)容SVM的理論基礎(chǔ)相關(guān)基礎(chǔ)知識線性支持向量機的求解非線性支持向量機——核方法算法歸納關(guān)于SVM思想:通過某種事先選擇的非線性映射(核函數(shù))將輸入向量映射到一個高維特征空間,在這個空間中尋找最優(yōu)分類超平面。使得它能夠盡可能多的將兩類數(shù)據(jù)點正確的分開,同時使分開的兩類數(shù)據(jù)點距離分類面最遠。途徑:構(gòu)造一個約束條件下的優(yōu)化問題,具體說是一個帶線性不等式約束條件的二次規(guī)劃問題(constrainedquadraticprograming),求解該問題,構(gòu)造分類超平面,從而得到?jīng)Q策函數(shù)。SVM的理論基礎(chǔ)傳統(tǒng)機器學(xué)習(xí)方法的經(jīng)驗風(fēng)險最小化原則統(tǒng)計學(xué)習(xí)理論
2、的結(jié)構(gòu)化風(fēng)險最小化原則VC維泛化誤差的邊界經(jīng)驗風(fēng)險最小化原則ERM傳統(tǒng)的學(xué)習(xí)理論主要是基于經(jīng)驗風(fēng)險最小化原則(ERM)的。學(xué)習(xí)機器的預(yù)測輸出的期望風(fēng)險可以表示為:在訓(xùn)練過程中,輸入與輸出組成訓(xùn)練樣本(x,y),提供給學(xué)習(xí)機器。在測試過程中,訓(xùn)練后的學(xué)習(xí)機器對于輸入x給出預(yù)測輸出。a為廣義參數(shù)(所有參數(shù)的集合)。預(yù)測輸出可表示為為損失函數(shù),用來衡量兩個變量之間的不一致程度。因此,機器學(xué)習(xí)問題也可以表示為,從一組獨立同分布的觀測樣本出發(fā),通過最小化風(fēng)險泛函R(a),確定學(xué)習(xí)機器的廣義參數(shù)a的過程。最小化期望風(fēng)險R(a),必須利用聯(lián)合概率F(x,y)的信息。在實際中,
3、聯(lián)合分布未知,只有觀測樣本。用算術(shù)平均值逼近期望風(fēng)險。由于Remp(a)是用已知的訓(xùn)練樣本(經(jīng)驗數(shù)據(jù))定義的,因此稱為經(jīng)驗風(fēng)險。用經(jīng)驗風(fēng)險Remp(a)最小化來代替期望風(fēng)險R(a)最小化,來求出學(xué)習(xí)機器的參數(shù)a的方法----經(jīng)驗風(fēng)險最小化原則ERM。多年來,經(jīng)驗風(fēng)險最小化原則作為解決模式識別等機器學(xué)習(xí)問題的基本思想,幾乎統(tǒng)治了這個領(lǐng)域內(nèi)的所有研究。理論表明,當(dāng)訓(xùn)練數(shù)據(jù)趨于無窮多時,經(jīng)驗風(fēng)險收斂于實際風(fēng)險。因此經(jīng)驗風(fēng)險最小化原則隱含地使用了訓(xùn)練樣本無窮多的假設(shè)條件。復(fù)雜度高的學(xué)習(xí)機器,往往具有較低的經(jīng)驗風(fēng)險。因此,經(jīng)驗風(fēng)險最小化原則的結(jié)果,將使學(xué)習(xí)機器變得越來越復(fù)
4、雜。因此,如何根據(jù)實際問題,在學(xué)習(xí)機器的經(jīng)驗風(fēng)險和模型復(fù)雜度之間取得合理的折衷,從而使學(xué)習(xí)機器具有更高的泛化性能,是非常重要的問題。VC維統(tǒng)計學(xué)習(xí)理論是關(guān)于小樣本進行歸納學(xué)習(xí)的理論,其中一個重要的概念就是VC維(Vapnik-Chervonenkisdimension)。模式識別方法中VC維的直觀定義是:對一個指示函數(shù)集,如果存在h個樣本能夠被函數(shù)集里的函數(shù)按照所有可能的2h種形式分開,則稱函數(shù)集能夠把h個樣本打散。函數(shù)集的VC維就是它能打散的最大樣本數(shù)目h。若對任意數(shù)目的樣本都有函數(shù)能將它們打散,則函數(shù)集的VC維是無窮大。VC維VC維反映了函數(shù)集的學(xué)習(xí)能力。一
5、般而言,VC維越大則學(xué)習(xí)機器越復(fù)雜,學(xué)習(xí)容量越大。一般地,對于n維空間Rn中,最多只能有n個點是線性獨立的,因此Rn空間超平面的VC維是n+1。Rn空間中的超平面共有n+1個獨立的參數(shù),恰好等于VC維數(shù)。在非線性情況下學(xué)習(xí)機器的VC維通常是無法計算的,通過變通的辦法巧妙地避開直接求VC維的問題。泛化誤差的邊界統(tǒng)計學(xué)習(xí)理論從VC維的概念出發(fā),推導(dǎo)出了關(guān)于經(jīng)驗風(fēng)險和實際風(fēng)險之間關(guān)系的重要結(jié)論,稱作泛化誤差的邊界。Remp(a)表示經(jīng)驗風(fēng)險;Ψ(h/l)稱為置信風(fēng)險;(置信范圍,VC信任)l是樣本個數(shù);參數(shù)h稱為一個函數(shù)集合的VC維。當(dāng)h/l較大時,置信風(fēng)險較大,此時
6、用經(jīng)驗風(fēng)險近似期望風(fēng)險就會出現(xiàn)較大的誤差。如果樣本數(shù)較多,使得h/l較小,則置信風(fēng)險就會較小,經(jīng)驗風(fēng)險最小化的最優(yōu)解就會接近真正的最優(yōu)解。對于一個特定的學(xué)習(xí)問題,當(dāng)樣本數(shù)固定時,如果學(xué)習(xí)機器的VC維越高(復(fù)雜度越高),則置信風(fēng)險越大,導(dǎo)致真實風(fēng)險與經(jīng)驗風(fēng)險之間可能的差就越大,因此設(shè)計在設(shè)計分類器時,不但要使經(jīng)驗風(fēng)險盡可能小,而且要控制其VC維也盡可能小,從而縮小置信風(fēng)險,使期望風(fēng)險最小。-SRM結(jié)構(gòu)風(fēng)險最小化原則SRM“結(jié)構(gòu)風(fēng)險最小化原理”的基本想法:如果我們要求風(fēng)險最小,就需要使得不等式中兩項相互權(quán)衡,共同趨于極小;另外,在獲得的學(xué)習(xí)模型經(jīng)驗風(fēng)險最小的同時,希
7、望學(xué)習(xí)模型的泛化能力盡可能大,這樣就需要h值盡可能小,即置信風(fēng)險最小。如果固定訓(xùn)練樣本數(shù)目l的大小,則控制風(fēng)險R(a)的參量有兩個:Remp(a)和h。(1)經(jīng)驗風(fēng)險Remp(a)依賴于學(xué)習(xí)機器所選定的函數(shù)f(a,x),這樣,我們可以通過控制a來控制經(jīng)驗風(fēng)險。(2)VC維h依賴于學(xué)習(xí)機器所工作的函數(shù)集合。為了獲得對h的控制,可以將函數(shù)集合結(jié)構(gòu)化,建立h與各函數(shù)子結(jié)構(gòu)之間的關(guān)系,通過控制對函數(shù)結(jié)構(gòu)的選擇來達到控制VC維h的目的。支持向量機通過最大化分類邊界以最小化VC維,也即在保證經(jīng)驗風(fēng)險最小的基礎(chǔ)上最小化置信風(fēng)險,從而達到最小化結(jié)構(gòu)風(fēng)險的目的,因此支持向量機方法
8、實際上就是結(jié)構(gòu)風(fēng)險最小化