資源描述:
《中科普開大數(shù)據(jù)建立:無監(jiān)督學(xué)習(xí)指引》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中科普開大數(shù)據(jù)建立:無監(jiān)督學(xué)習(xí)指引無監(jiān)督學(xué)習(xí)町謂是深度學(xué)習(xí)的圣杯,其目標(biāo)是建立可兼容小數(shù)據(jù)集進(jìn)行訓(xùn)練的通用系統(tǒng),即便是很少的數(shù)據(jù)。如今深度學(xué)習(xí)模型往往在大型監(jiān)督型數(shù)據(jù)集上訓(xùn)練。所謂監(jiān)督型數(shù)據(jù)集,即每條數(shù)據(jù)都有一個對應(yīng)的標(biāo)簽。比如流行的ImageNet數(shù)據(jù)集,有一百力張人為標(biāo)記的圖像。一共1000個類,每個類有1000張圖像。創(chuàng)建這樣的數(shù)據(jù)集需?;ㄙM(fèi)人量的粘力,同時也需耍很多的時間?,F(xiàn)在想彖創(chuàng)建一個有1M個類的數(shù)據(jù)集。試想一下,對有100H數(shù)據(jù)幀的視頻數(shù)據(jù)集的每一幀進(jìn)行分類。該任務(wù)量簡直不可估量?,F(xiàn)在,冋想一下你在小時候是如何進(jìn)行學(xué)習(xí)的。是的,那時候會有人指導(dǎo)你,你的父母
2、會告訴你這是一個“貓”,但是他們不會在你余生的每一分每一秒都告訴你這是一只“貓”!如今的監(jiān)秤學(xué)習(xí)也是這樣:我一次一次地告訴你,什么是“貓”,也許髙達(dá)100萬次。然后你的深度學(xué)習(xí)模型就學(xué)會了。理想情況下,我們希望有一個模型,它的表現(xiàn)與我們的大腦非常相似。只需少量的標(biāo)簽便可理解這個多類的世界。這里所說的類,主耍是指對彖類、動作類、環(huán)境類、對彖組成類等等。某本概念無監(jiān)轉(zhuǎn)學(xué)習(xí)研究的主要口標(biāo)是預(yù)訓(xùn)練一個模型(稱作“識別”或“編碼”)網(wǎng)絡(luò),供其他任務(wù)使用。編碼特征通常能夠用到分類任務(wù)?。豪缭贗mageNet±訓(xùn)練會表現(xiàn)出很好的結(jié)杲,這與監(jiān)巒模型非常接近。迄今為止,監(jiān)粋模型總是比無
3、監(jiān)粋的預(yù)訓(xùn)練模型表現(xiàn)的要好。其主要原因是監(jiān)怦模型對數(shù)據(jù)集的特性編碼的更好。但如果模型運(yùn)川到其他任務(wù),監(jiān)督工作是可以減少的。在這方面,希望達(dá)到的H標(biāo)是無監(jiān)怦訓(xùn)練可以捉供更一般的特征,用于學(xué)習(xí)并實(shí)現(xiàn)其它任務(wù)。自動編碼器(auto-encoders)該理論主要源T*1996年BrunoOlshausenandDavidField發(fā)表的文章。此文表明,編碼理論可應(yīng)用于視覺皮層感受野。他們發(fā)現(xiàn),我們?nèi)四X的主耍視覺皮層(VI)使用稀疏原理來創(chuàng)建可以用來朿建輸入圖像的最小基函數(shù)子集。在接下來的文章屮,你將看到一個很好的例子來解釋類似VI的稀疏濾波器是如何學(xué)習(xí)的。棧式自動編碼器也會被用
4、到,以貪焚式的方式逐層重復(fù)訓(xùn)練。白動編碼器方法也被稱為“直接映射”方法。堆疊無監(jiān)怦層(stackedunsupervisedlayers)?種結(jié)合k-均值聚類方法去學(xué)習(xí)多層中過濾器的技術(shù)。我們團(tuán)隊(duì)把這種方法稱為:聚類學(xué)習(xí)(ClusteringLearning)聚類連接(ClusteringConnections)和卷積聚類(ConvolutionalClustering),最近在流行的STL-1O無監(jiān)秤數(shù)據(jù)集上収得很好的效來。我們在該方向的工作是對AdamCoates和AndrewNg工作的獨(dú)立開發(fā)。受限玻爾茲曼機(jī)(RBMs)、深度玻爾茲曼機(jī)(DBMs)、深度信念網(wǎng)絡(luò)(
5、DBNs)因很難解決它們配分函數(shù)的數(shù)值而成為眾所周知的難題。因此它們并沒有被廣泛地川來解決實(shí)際問題。生成模型(generativemodels)牛?成模型,嘗試在同一時間創(chuàng)建一個分類(識別器或編碼器)網(wǎng)絡(luò)和一個生成圖像(生成模型)模型。這種方法起源于IanGoodfellowfllYoshuaBengio的開創(chuàng)性工作。AlecRadford>LukeMetz和SoumithChintala的DCGAN是一種生成對抗模型,實(shí)例化這種模型,能夠得到很好的結(jié)果。模型的具體解釋請點(diǎn)擊這里。卞面是系統(tǒng)椎架圖:DCGAN識別器的H的是識別輸入圖像是否真實(shí),或來自數(shù)據(jù)集,或是牛成器牛
6、成的偽圖。該生成器需要一個隨機(jī)噪聲向量(用1024個數(shù)值表示)作為輸入,并產(chǎn)生一個圖像。在DCGAN中,牛成器網(wǎng)絡(luò)如下:3A->k6Stride2□8Stride2Stride23ProjectandreshapeCONV1CONV2COMV3CONV41024Stride264識別器是一個標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)。關(guān)鍵是以并行的方式訓(xùn)練兩個網(wǎng)絡(luò)而不是完全地過度擬介,從而復(fù)制數(shù)據(jù)集。學(xué)習(xí)特征需要推廣到未知的實(shí)例,因此用丁?學(xué)習(xí)的數(shù)據(jù)集將不能再用。Torch7提供了DCGAN的訓(xùn)練代碼,可用于實(shí)驗(yàn)Z中。在生成器和識別器網(wǎng)絡(luò)訓(xùn)練好Z后,兩者便可使用了。主要目標(biāo)是為其它任務(wù)訓(xùn)練一個很好
7、的識別器網(wǎng)絡(luò),例如對其它數(shù)據(jù)集進(jìn)行分類。生成器則可用于生成隨機(jī)向量的圖像。這些圖像有著非常有趣的特性。首先,他們提供了輸入空間的平滑轉(zhuǎn)換??聪旅孢@個例子,它展示了在9個隨機(jī)輸入向量之間進(jìn)行移動產(chǎn)出的圖像:輸入向量空間還提供數(shù)學(xué)特性,表明學(xué)習(xí)特征是根據(jù)和似性進(jìn)行組織的:由生成器學(xué)到的光滑空間表明識別器也具有類似的性質(zhì),使它成為圖像編碼出色的特征提取器。這在不連續(xù)圖像數(shù)據(jù)集訓(xùn)練CNN網(wǎng)絡(luò)的經(jīng)典問題上很有幫助,在這些數(shù)據(jù)集,對抗性噪聲往往致使其走向失敗。從數(shù)據(jù)模型屮學(xué)習(xí)以解決拼圖游戲來可視化表示無監(jiān)秤學(xué)習(xí)是個精巧的做法。作者將圖像分成一個拼圖,