資源描述:
《機(jī)器學(xué)習(xí)研究(王玨)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、機(jī)器學(xué)習(xí)研究王玨中國(guó)科學(xué)院自動(dòng)化研究所2003年3月,北京,自動(dòng)化所反思網(wǎng)絡(luò)經(jīng)濟(jì)的泡沫破滅之后,哪些是值得我們?cè)谘芯糠较蛏戏此嫉膯栴}呢?我們的研究應(yīng)注意哪些課題呢?需求---NII計(jì)劃不分地域地、有效地獲得與傳輸信息。不分地域地、有效地共享硬軟資源。有效地利用信息,以提高生產(chǎn)率。保證信息安全。在過(guò)去的十年中,做了什么?以瀏覽器為核心技術(shù)的“有效獲得信息”的研究取得了預(yù)期效果。人們已可以從不同地域有效地獲得信息。但是,,,硬軟資源的使用在網(wǎng)絡(luò)上的硬軟資源的利用率只有3-5%。大量計(jì)算資源沒有由于網(wǎng)絡(luò)設(shè)施的支持而被充分利用。
2、硬軟件的快速更新,導(dǎo)致對(duì)環(huán)境的污染。信息的有效使用由于技術(shù)發(fā)展的滯后,在網(wǎng)絡(luò)上獲得的信息和與提高生產(chǎn)率有關(guān)的信息的有效使用率甚至低于1%。占用大量硬軟資源的信息正在大量地被浪費(fèi)。信息安全信息的安全還沒有保證。提高信息使用率以機(jī)器學(xué)習(xí)為理論基礎(chǔ)的各種方法,是提高信息使用率的有效途徑之一。機(jī)器學(xué)習(xí)復(fù)雜數(shù)據(jù)分析(符號(hào)機(jī)器學(xué)習(xí))機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)的一般說(shuō)明統(tǒng)計(jì)機(jī)器學(xué)習(xí)集成機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)的研究動(dòng)力領(lǐng)域應(yīng)用驅(qū)動(dòng)。算法驅(qū)動(dòng)。領(lǐng)域應(yīng)用驅(qū)動(dòng)自然語(yǔ)言數(shù)據(jù)分析。DNA數(shù)據(jù)分析。網(wǎng)絡(luò)與電信數(shù)據(jù)分析。圖像數(shù)據(jù)分析。金融與經(jīng)濟(jì)數(shù)據(jù)分析。零售業(yè)數(shù)據(jù)分
3、析。情報(bào)分析。沒有一種算法可以解決復(fù)雜的實(shí)際問題。需要各種算法集成。算法驅(qū)動(dòng)海量數(shù)據(jù)(108-10)。算法的泛化能力,或算法可解釋。不同類型數(shù)據(jù)的學(xué)習(xí)方法。機(jī)器學(xué)習(xí)研究熱點(diǎn)的變遷1989年(Carbonell),1997年(Dietterich)符號(hào)機(jī)器學(xué)習(xí)。符號(hào)機(jī)器學(xué)習(xí)。連接機(jī)器學(xué)習(xí)。集成機(jī)器學(xué)習(xí)。遺傳機(jī)器學(xué)習(xí)。統(tǒng)計(jì)機(jī)器學(xué)習(xí)。分析機(jī)器學(xué)習(xí)。增強(qiáng)機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)計(jì)算的說(shuō)明令W是這個(gè)給定世界的有限或無(wú)限所有對(duì)象的集合,由于我們觀察能力的限制,我們只能獲得這個(gè)世界的一個(gè)有限的子集Q?W。機(jī)器學(xué)習(xí)的任務(wù)就是根據(jù)這個(gè)世界的對(duì)象
4、子集Q,計(jì)算這個(gè)世界的統(tǒng)計(jì)分布。這樣,在統(tǒng)計(jì)意義下,這個(gè)分布對(duì)這個(gè)世界的絕大多數(shù)對(duì)象是正確的。這就是這個(gè)世界的一個(gè)模型。三個(gè)要求一致性假設(shè):機(jī)器學(xué)習(xí)任務(wù)的本質(zhì)。對(duì)樣本空間的劃分:決定對(duì)樣本的有效性。泛化能力:決定對(duì)世界的有效性。一致性假設(shè)假設(shè)世界W與被觀察的對(duì)象集合Q具有某種相同的性質(zhì)。稱為一致性假設(shè)?;诮y(tǒng)計(jì)的假設(shè)原則上說(shuō),存在各種各樣的一致性假設(shè)。在統(tǒng)計(jì)意義下,一般假設(shè):W與Q具有同分布?;?,給定世界W的所有對(duì)象獨(dú)立同分布。劃分將被觀測(cè)的對(duì)象集合放到一個(gè)n維歐氏空間,尋找一個(gè)超平面,使得問題決定的不同對(duì)象分在不相交的
5、區(qū)域。機(jī)器學(xué)習(xí)主要研究的是這部分內(nèi)容,即,尋找劃分對(duì)象集合的超平面(等價(jià)關(guān)系)。超平面類型光滑且連續(xù)的超平面。有限不光滑點(diǎn),甚至有限不連續(xù)點(diǎn)的超平面。光滑連續(xù)超平面作為研究基礎(chǔ)Perceptron,人工神經(jīng)網(wǎng)絡(luò)是典型例子。困難:對(duì)線性不可分的對(duì)象集合,如果限制算法是P的,則存在本質(zhì)性困難。泛化機(jī)器學(xué)習(xí)的首要任務(wù)是劃分。只有找到一個(gè)等價(jià)關(guān)系(模型),將不同類的樣本劃分為不同的類,才能考慮其他問題。泛化是一個(gè)確定的劃分對(duì)世界的分類能力。由于可能存在不同的劃分樣本集合方法,其泛化能力不同,泛化能力最強(qiáng)的劃分就是我們希望的分類器
6、。Duda的泛化能力描述以樣本個(gè)數(shù)趨近無(wú)窮大來(lái)描述模型的泛化能力。泛化能力需要使用世界W來(lái)刻畫,是無(wú)法構(gòu)造的判據(jù)。均方差可作為目標(biāo)函數(shù)。評(píng)述由于人們沒有找到基于樣本集合Q的描述泛化能力的數(shù)學(xué)工具。另外,線性不可分問題是一個(gè)困難。在感知機(jī)時(shí)代,基于Duda泛化理論無(wú)法指導(dǎo)機(jī)器學(xué)習(xí)算法的設(shè)計(jì),這樣,評(píng)價(jià)機(jī)器學(xué)習(xí)算法只能以劃分能力作為指標(biāo)。Vapnik對(duì)這個(gè)問題做出重要貢獻(xiàn)。這樣,注重從劃分變?yōu)榉夯?。以劃分能力為目?biāo)的研究這類研究的指導(dǎo)思想,一直延續(xù)到上個(gè)世紀(jì)的九十年代。直到今天,還有大量的學(xué)者以此作為機(jī)器學(xué)習(xí)的指導(dǎo)思想。以B
7、P算法為核心的神經(jīng)網(wǎng)絡(luò)研究是典型例子。劃分是機(jī)器學(xué)習(xí)的一個(gè)目標(biāo),但是,不是預(yù)測(cè)任務(wù)的主要研究目標(biāo)。神經(jīng)網(wǎng)絡(luò)---BP算法使用了一種非線性的基函數(shù)。這項(xiàng)研究的意義是為研究者回歸感知機(jī)做好了輿論的準(zhǔn)備。其在科學(xué)上的意義,遠(yuǎn)不如提示人們?cè)俅巫⒁飧兄獧C(jī)的作用更大。統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論與SVM對(duì)機(jī)器學(xué)習(xí)的研究者來(lái)說(shuō),統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論所派生的算法SVM似乎更有吸引力。但是,如果研究者忘記SVM所基于的統(tǒng)計(jì)基礎(chǔ),就與Vapnik的本意相悖了。事實(shí)上,Vapnik的統(tǒng)計(jì)理論才是其精華,而基于這個(gè)理論的算法只是從這個(gè)統(tǒng)計(jì)理論派生的自然結(jié)果。機(jī)
8、器學(xué)習(xí)的統(tǒng)計(jì)假設(shè)機(jī)器學(xué)習(xí)的統(tǒng)計(jì)基礎(chǔ)是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小假設(shè),以此,對(duì)機(jī)器學(xué)習(xí)算法所建模型的泛化能力估計(jì)(經(jīng)驗(yàn)風(fēng)險(xiǎn))。Vapnik的統(tǒng)計(jì)觀點(diǎn)Vapnik希望改變Duda的統(tǒng)計(jì)觀點(diǎn)。泛化描述“從樣本數(shù)趨于無(wú)窮大”變?yōu)椤霸诮o定樣本集”基礎(chǔ)上判定。由此,建立基于樣本集合結(jié)構(gòu)的VC維來(lái)描述的理論。這樣,機(jī)器學(xué)習(xí)的目標(biāo)函數(shù)就可以建