資源描述:
《統(tǒng)計(jì)機(jī)器學(xué)習(xí).ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、統(tǒng)計(jì)機(jī)器學(xué)習(xí)王玨第11屆中國(guó)機(jī)器學(xué)習(xí)會(huì)議大連,2008,8中國(guó)科學(xué)院自動(dòng)化研究所機(jī)器學(xué)習(xí)與人工智能機(jī)器學(xué)習(xí)來(lái)源于人工智能。著作:機(jī)器學(xué)習(xí)(MachineLearning)TomMichell描述:如果一個(gè)系統(tǒng)能夠通過(guò)執(zhí)行某種過(guò)程而改進(jìn)它的性能,這就是學(xué)習(xí)。HerbertSimon中國(guó)科學(xué)院自動(dòng)化研究所機(jī)器學(xué)習(xí)Vapnik在“機(jī)器學(xué)習(xí)”術(shù)語(yǔ)之前加了“統(tǒng)計(jì)”二字,變?yōu)椤敖y(tǒng)計(jì)機(jī)器學(xué)習(xí)”。由此從Rosenblatt的感知機(jī)到人工神經(jīng)網(wǎng)絡(luò)劃入了這個(gè)領(lǐng)域。Duda&Hart的模式分類(統(tǒng)計(jì)模式識(shí)別)劃入這個(gè)領(lǐng)域。統(tǒng)計(jì)學(xué)的算法文化劃入了這個(gè)領(lǐng)域。Quilan的決策樹(shù)方法和Valiant的PAC劃入
2、這個(gè)領(lǐng)域?!敖y(tǒng)計(jì)”中國(guó)科學(xué)院自動(dòng)化研究所人工智能與統(tǒng)計(jì)機(jī)器學(xué)習(xí)早期,不喜歡。M.Minsky的批評(píng),感知機(jī)停滯。Duda&Hart的統(tǒng)計(jì)模式識(shí)別,統(tǒng)計(jì)機(jī)器學(xué)習(xí)與其一致。人工神經(jīng)網(wǎng)絡(luò)反對(duì)AI。統(tǒng)計(jì)機(jī)器學(xué)習(xí)使用的AI成果:Valiant的PAC:這是當(dāng)前統(tǒng)計(jì)機(jī)器學(xué)習(xí)的基礎(chǔ)之一。Quilan的決策樹(shù):這是統(tǒng)計(jì)機(jī)器學(xué)習(xí)最重要的算法之一。統(tǒng)計(jì)機(jī)器學(xué)習(xí)已成為人工智能最主要的研究課題。Vapnik在“泛化”旗幟下,批判了這種排他性。中國(guó)科學(xué)院自動(dòng)化研究所統(tǒng)計(jì)機(jī)器學(xué)習(xí)統(tǒng)計(jì)機(jī)器學(xué)習(xí)的理論框架有限樣本理論統(tǒng)計(jì)建模的兩種文化近期的研究課題中國(guó)科學(xué)院自動(dòng)化研究所Duda&Hart1973年,他們出版了至今有
3、重要影響“Patternclassificationandsceneanalysis”,2001年,在此基礎(chǔ)上,刪除了情境分析的內(nèi)容,大量增加了統(tǒng)計(jì)建模的內(nèi)容。盡管2001年版的內(nèi)容大大豐富了,無(wú)論在理論研究結(jié)果,方法的羅列,還是參考文獻(xiàn)的收集,都可以稱為一本研究者必備的手冊(cè),但是,其理論框架的識(shí)別也比1973版困難。中國(guó)科學(xué)院自動(dòng)化研究所統(tǒng)計(jì)機(jī)器學(xué)習(xí)的統(tǒng)計(jì)框架Duda&Hart的模式分類理論框架=統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論框架Bayes決策論后驗(yàn)概率:P(?j?x)=P(?i)p(xj??i)。樣本數(shù)趨于無(wú)窮大。判決規(guī)則:對(duì)所有?j,最大P(?j?x)就是x的類別。目標(biāo):風(fēng)險(xiǎn)R(?i?x)=
4、??(?i??j)P(?i?x)最小。?是損失函數(shù)。函數(shù)g(x)=w0+?wtx,如果?wtx>-w0,x屬于?1。問(wèn)題變?yōu)樵诖_定的損失函數(shù)(準(zhǔn)則函數(shù)或目標(biāo)函數(shù))意義的優(yōu)化問(wèn)題。線性感知機(jī)就是如此。損失函數(shù)是平方損失。令gj(x)=P(?j?x),g(x)=gj(x)-gi(x)。判別為計(jì)算g(x)的參數(shù)。中國(guó)科學(xué)院自動(dòng)化研究所發(fā)展的線索樣本數(shù)量:趨于無(wú)窮大。有限樣本理論,泛化誤差1-?概率成立。線性判別,感知機(jī):線性不可分,M.Minsky的批評(píng)。非線性算法BP,孤立事件,問(wèn)題沒(méi)有解決。線性空間。損失函數(shù):根據(jù)問(wèn)題定義損失函數(shù)。精心設(shè)計(jì)實(shí)驗(yàn)獲得數(shù)據(jù)(手寫(xiě)字符識(shí)別)的理論:高維涌現(xiàn)的
5、數(shù)據(jù)(網(wǎng)絡(luò)、生物、金融)。包含多個(gè)有意義解答。從數(shù)據(jù)建立模型:經(jīng)驗(yàn)知識(shí)和經(jīng)驗(yàn)?zāi)P偷目紤]。中國(guó)科學(xué)院自動(dòng)化研究所統(tǒng)計(jì)機(jī)器學(xué)習(xí)統(tǒng)計(jì)機(jī)器學(xué)習(xí)的理論框架有限樣本理論統(tǒng)計(jì)建模的兩種文化近期的研究課題中國(guó)科學(xué)院自動(dòng)化研究所Valiant&Vapnik1984年,Valiant建議,算法多項(xiàng)式復(fù)雜性是統(tǒng)計(jì)建模的條件,為此,不惜犧牲精度,PAC(ProbableApproximatlyCorrect)。傳統(tǒng)統(tǒng)計(jì)學(xué)家難以接受。假設(shè)自然模型y=F(x),S={x,y}n是對(duì)y=F(x)的n次觀察的樣本集合,通過(guò)復(fù)雜性為多項(xiàng)式的算法A,獲得模型y=f(x)??紤]所有從y=F(x)可能觀測(cè)的樣本(iid),
6、對(duì)任意正整數(shù)?>0,0??<1,?F(x)-f(x)???成立的概率大于1-?。Vapnik基于PAC,首先在iid條件下,推出了有限樣本建模的泛化界,從此,開(kāi)創(chuàng)了至今還有重要意義的以margin界為基礎(chǔ)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)的研究。中國(guó)科學(xué)院自動(dòng)化研究所Vapnik的貢獻(xiàn)(1)---有限樣本理論Vapnik有限樣本理論:考慮兩個(gè)因素,其一,有限樣本,其二,算法的計(jì)算復(fù)雜性是多項(xiàng)式。由此,接受PAC并推出泛化界。結(jié)構(gòu)風(fēng)險(xiǎn)等。中國(guó)科學(xué)院自動(dòng)化研究所Vapnik的貢獻(xiàn)(2)---線性算法BP算法:非線性形式y(tǒng)=f1(?1f2(?2x)),算法漂亮,科學(xué)上:孤立事件。在科學(xué)哲學(xué)上:“對(duì)某個(gè)問(wèn)題已經(jīng)
7、認(rèn)識(shí),是找到一個(gè)空間,這個(gè)問(wèn)題可以在這個(gè)空間上線性表述”,這個(gè)在二十世紀(jì)三十年代VonNeurmman在研究量子力學(xué)數(shù)學(xué)基礎(chǔ)時(shí)暗示的思想。其數(shù)學(xué)方法,就是Hilbert空間。Vapnik提出核映射,將樣本集合映射到線性內(nèi)積的Hilbert空間,樣本集合成為線性可分,直接使用感知機(jī)。沒(méi)有免費(fèi)的午餐!如果將空間的各維度定義在實(shí)數(shù)域上,可以線性劃分這個(gè)問(wèn)題的維數(shù)減低,最小的維數(shù)是什么?如果事先確定維數(shù),代價(jià)可能就是精度。n-XOR問(wèn)題:將問(wèn)題映射到多項(xiàng)式基張成的