資源描述:
《深度強化學習在圖像輔助控制及圖像分類中的應用研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、碩士學位論文深度強化學習在圖像輔助控制及圖像分類中的應用研究作者姓名陽趙陽學科專業(yè)電路與系統(tǒng)指導教師周偉英副教授金連文教授所在學院電子與信息學院論文提交日期2018年4月ResearchonApplyingDeepReinforcementLearninginImageBasedControlandImageClassificationTasksADissertationSubmittedfortheDegreeofMasterCandidate:ZhaoyangYangSupervisor:A/Prof.WeiyingZhouProf.LianwenJinSou
2、thChinaUniversityofTechnologyGuangzhou,China分類號:TP391.4學校代號:10561學號:201520108287華南理工大學碩士學位論文深度強化學習在圖像輔助控制及圖像分類中的應用研究作者姓名:陽趙陽指導教師姓名、職稱:周偉英副教授;金連文教授申請學位級別:工學碩士學科專業(yè)名稱:電路與系統(tǒng)研究方向:機器學習與智能系統(tǒng)論文提交日期:2018年4月10日論文答辯日期:2018年5月30日學位授予單位:華南理工大學學位授予日期:年月日答辯委員會成員:主席:鄭偉詩教授委員:梁添才教授級高工;孫季豐教授;金連文教授;張鑫副教授
3、摘要近幾年,深度學習和強化學習中一些先進方法的出現(xiàn)使得兩者的結合成為可能,其產物就是深度強化學習。深度強化學習既有繼承于深度學習的強泛化和自特征提取能力,又可以像強化學習方法一樣,使智能系統(tǒng)通過自我的試錯在給定環(huán)境中學習解決特定任務的策略。深度強化學習的誕生在人工智能領域影響重大,相關工作隨之涌現(xiàn),一些成功的深度強化學習算法甚至能夠在游戲和機器控制中超過人類的表現(xiàn)。然而,現(xiàn)有的深度強化學習算法仍然存在一些不足和空白。在應用深度方面,現(xiàn)有算法無法在連續(xù)動作空間中進行多任務學習,并且大部分算法只能學習簡單的任務。在應用廣度方面,算法在計算機視覺領域中,特別是圖像分類問
4、題中的應用還非常少。本文介紹的就是從這兩個方面出發(fā),闡述對深度強化學習在圖像輔助控制和圖像分類問題中的應用研究。本文共提出三個算法,即multi-DDPG算法、h-DDPG算法和自強化網(wǎng)絡算法,前兩個用于實現(xiàn)連續(xù)動作空間中圖像輔助下的多任務學習和層次性學習,后一個則針對圖像分類問題。在multi-DDPG算法中有一個值網(wǎng)絡和多個策略網(wǎng)絡,其中每一個策略網(wǎng)絡負責學習一個任務,而值網(wǎng)絡則負責訓練策略網(wǎng)絡。在h-DDPG算法中,這個結構被擴展為一個具有兩個值網(wǎng)絡和多個策略網(wǎng)絡的結構,增加的一個值網(wǎng)絡可以通過組合策略網(wǎng)絡的方式來進行復雜任務的學習。最后,自強化網(wǎng)絡算法嘗試
5、將深度強化學習應用于圖像分類問題中,算法中有一個特征決策智能系統(tǒng),它控制著各個輸入圖像的分類時刻,對于還不能分類的圖像,它會選擇一種圖像變換,并將變換后的圖像返回給圖像分類網(wǎng)絡進行再次分類。實驗結果顯示,本文中提出的三個算法都在各自的任務中有著不錯的性能。其中,multi-DDPG算法能夠在多任務學習中學習到與單任務學習算法性能相當?shù)娜蝿战鉀Q策略,其性能也不會因為任務數(shù)量或條件的增加而受到影響。而h-DDPG算法則可以非常高效地同時學習簡單的動作技能以及復雜任務的解決策略,其解決復雜任務的能力甚至超過了一些針對離散動作空間的算法。最后的自強化網(wǎng)絡算法則能夠通過特征
6、決策智能系統(tǒng)的決策將圖像分類網(wǎng)絡原本的錯誤率降低18.82%。關鍵詞:深度學習;強化學習;深度強化學習IAbstractInrecentyears,newadvancesindeeplearningandreinforcementlearninghaveaddressedseveralchallengesincombiningthesetwotechniquesandbroughtdeepreinforcementlearninggreatsuccess.Deepreinforcementlearningalgorithmshavebothstronggenera
7、lizationandfeatureextractionabilitiesandtheabilitytobootstraptask-solvingpolicies.Recentworkshowsthatdeepreinforcementlearningagentscanevenoutperformhumansinseveralcontroltasks.However,limitationsstillexist.Intermsofthedepthperspective,existingalgorithmsgenerallyfailinlearningmultiple
8、tasks