資源描述:
《機器學習研究(王玨)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、機器學習研究王玨中國科學院自動化研究所2003年3月,北京,自動化所反思網(wǎng)絡經(jīng)濟的泡沫破滅之后,哪些是值得我們在研究方向上反思的問題呢?我們的研究應注意哪些課題呢?需求---NII計劃不分地域地、有效地獲得與傳輸信息。不分地域地、有效地共享硬軟資源。有效地利用信息,以提高生產(chǎn)率。保證信息安全。在過去的十年中,做了什么?以瀏覽器為核心技術(shù)的“有效獲得信息”的研究取得了預期效果。人們已可以從不同地域有效地獲得信息。但是,,,硬軟資源的使用在網(wǎng)絡上的硬軟資源的利用率只有3-5%。大量計算資源沒有由于網(wǎng)絡設施的支持而被充分利用。
2、硬軟件的快速更新,導致對環(huán)境的污染。信息的有效使用由于技術(shù)發(fā)展的滯后,在網(wǎng)絡上獲得的信息和與提高生產(chǎn)率有關(guān)的信息的有效使用率甚至低于1%。占用大量硬軟資源的信息正在大量地被浪費。信息安全信息的安全還沒有保證。提高信息使用率以機器學習為理論基礎的各種方法,是提高信息使用率的有效途徑之一。機器學習復雜數(shù)據(jù)分析(符號機器學習)機器學習機器學習的一般說明統(tǒng)計機器學習集成機器學習機器學習的研究動力領域應用驅(qū)動。算法驅(qū)動。領域應用驅(qū)動自然語言數(shù)據(jù)分析。DNA數(shù)據(jù)分析。網(wǎng)絡與電信數(shù)據(jù)分析。圖像數(shù)據(jù)分析。金融與經(jīng)濟數(shù)據(jù)分析。零售業(yè)數(shù)據(jù)分
3、析。情報分析。沒有一種算法可以解決復雜的實際問題。需要各種算法集成。算法驅(qū)動海量數(shù)據(jù)(108-10)。算法的泛化能力,或算法可解釋。不同類型數(shù)據(jù)的學習方法。機器學習研究熱點的變遷1989年(Carbonell),1997年(Dietterich)符號機器學習。符號機器學習。連接機器學習。集成機器學習。遺傳機器學習。統(tǒng)計機器學習。分析機器學習。增強機器學習。機器學習計算的說明令W是這個給定世界的有限或無限所有對象的集合,由于我們觀察能力的限制,我們只能獲得這個世界的一個有限的子集Q?W。機器學習的任務就是根據(jù)這個世界的對象
4、子集Q,計算這個世界的統(tǒng)計分布。這樣,在統(tǒng)計意義下,這個分布對這個世界的絕大多數(shù)對象是正確的。這就是這個世界的一個模型。三個要求一致性假設:機器學習任務的本質(zhì)。對樣本空間的劃分:決定對樣本的有效性。泛化能力:決定對世界的有效性。一致性假設假設世界W與被觀察的對象集合Q具有某種相同的性質(zhì)。稱為一致性假設。基于統(tǒng)計的假設原則上說,存在各種各樣的一致性假設。在統(tǒng)計意義下,一般假設:W與Q具有同分布?;?,給定世界W的所有對象獨立同分布。劃分將被觀測的對象集合放到一個n維歐氏空間,尋找一個超平面,使得問題決定的不同對象分在不相交的
5、區(qū)域。機器學習主要研究的是這部分內(nèi)容,即,尋找劃分對象集合的超平面(等價關(guān)系)。超平面類型光滑且連續(xù)的超平面。有限不光滑點,甚至有限不連續(xù)點的超平面。光滑連續(xù)超平面作為研究基礎Perceptron,人工神經(jīng)網(wǎng)絡是典型例子。困難:對線性不可分的對象集合,如果限制算法是P的,則存在本質(zhì)性困難。泛化機器學習的首要任務是劃分。只有找到一個等價關(guān)系(模型),將不同類的樣本劃分為不同的類,才能考慮其他問題。泛化是一個確定的劃分對世界的分類能力。由于可能存在不同的劃分樣本集合方法,其泛化能力不同,泛化能力最強的劃分就是我們希望的分類器
6、。Duda的泛化能力描述以樣本個數(shù)趨近無窮大來描述模型的泛化能力。泛化能力需要使用世界W來刻畫,是無法構(gòu)造的判據(jù)。均方差可作為目標函數(shù)。評述由于人們沒有找到基于樣本集合Q的描述泛化能力的數(shù)學工具。另外,線性不可分問題是一個困難。在感知機時代,基于Duda泛化理論無法指導機器學習算法的設計,這樣,評價機器學習算法只能以劃分能力作為指標。Vapnik對這個問題做出重要貢獻。這樣,注重從劃分變?yōu)榉夯?。以劃分能力為目標的研究這類研究的指導思想,一直延續(xù)到上個世紀的九十年代。直到今天,還有大量的學者以此作為機器學習的指導思想。以B
7、P算法為核心的神經(jīng)網(wǎng)絡研究是典型例子。劃分是機器學習的一個目標,但是,不是預測任務的主要研究目標。神經(jīng)網(wǎng)絡---BP算法使用了一種非線性的基函數(shù)。這項研究的意義是為研究者回歸感知機做好了輿論的準備。其在科學上的意義,遠不如提示人們再次注意感知機的作用更大。統(tǒng)計機器學習理論與SVM對機器學習的研究者來說,統(tǒng)計機器學習理論所派生的算法SVM似乎更有吸引力。但是,如果研究者忘記SVM所基于的統(tǒng)計基礎,就與Vapnik的本意相悖了。事實上,Vapnik的統(tǒng)計理論才是其精華,而基于這個理論的算法只是從這個統(tǒng)計理論派生的自然結(jié)果。機
8、器學習的統(tǒng)計假設機器學習的統(tǒng)計基礎是基于經(jīng)驗風險最小假設,以此,對機器學習算法所建模型的泛化能力估計(經(jīng)驗風險)。Vapnik的統(tǒng)計觀點Vapnik希望改變Duda的統(tǒng)計觀點。泛化描述“從樣本數(shù)趨于無窮大”變?yōu)椤霸诮o定樣本集”基礎上判定。由此,建立基于樣本集合結(jié)構(gòu)的VC維來描述的理論。這樣,機器學習的目標函數(shù)就可以建