基于A3C模型的帶預(yù)判游戲智能體研究.pdf

ID：35007621

大小：2.63 MB

頁數(shù)：65頁

時間：2019-03-16

資源描述：

《基于A3C模型的帶預(yù)判游戲智能體研究.pdf》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、碩士學(xué)位論文基于A3C模型的帶預(yù)判游戲智能體研究RESEARCHONA3CBASEDGAMEAGENTWITHANTICIPATOR王耶利哈爾濱工業(yè)大學(xué)2018年6月國內(nèi)圖書分類號：TP391.4學(xué)校代碼：10213國際圖書分類號：004.8密級：公開工學(xué)碩士學(xué)位論文基于A3C模型的帶預(yù)判游戲智能體研究碩士研究生：王耶利導(dǎo)師：姜峰教授申請學(xué)位：工程碩士學(xué)科：計(jì)算機(jī)技術(shù)所在單位：計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期：2018年6月授予學(xué)位單位：哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP391.4U.D.C:004.8Dissertationforthe

2、MasterDegreeinEngineeringRESEARCHONA3CBASEDGAMEAGENTWITHANTICIPATORCandidate：WangYeliSupervisor：Prof.JiangFengAcademicDegreeAppliedfor：MasterofEngineeringSpeciality：ComputerTechnologyAffiliation：SchoolofComputerScienceandTechnologyDateofDefence：June,2018Degree-Conferring-Instit

3、ution：HarbinInstituteofTechnology摘要摘要目前，常見的游戲內(nèi)置機(jī)器人在進(jìn)行對抗時都是根據(jù)事先編寫好的腳本進(jìn)行決策，采取行動，而且可以獲取利用一些不平等信息，并不是像人類玩家一樣只根據(jù)游戲畫面（或者再結(jié)合聲音）進(jìn)行分析決策，靈活多變。本課題主要研究深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在游戲智能體領(lǐng)域的應(yīng)用，以及相關(guān)算法的改進(jìn)，使游戲智能體的決策過程更像人類，并使其擺脫對不公平信息的依賴。首先，本文采用VizDoom作為游戲智能體的研究平臺，該游戲是一款第一人稱視角的射擊游戲。根據(jù)A3C算法設(shè)計(jì)實(shí)現(xiàn)了一個游戲智能體（即卷積神經(jīng)網(wǎng)絡(luò)），該智能

4、體以原始的實(shí)時游戲畫面作為網(wǎng)絡(luò)輸入，輸出為對應(yīng)的離散動作（即決策）。智能體會和VizDoom進(jìn)行交互，讀取實(shí)時游戲畫面，然后進(jìn)行決策，控制游戲中的角色行動。其次，本文對A3C算法做了一個改進(jìn)，在其原有的基礎(chǔ)上加入了一個預(yù)判網(wǎng)絡(luò)，預(yù)判網(wǎng)絡(luò)的目的是使智能體可以像人類玩家一樣，在進(jìn)行決策前做出一個預(yù)判，然后將實(shí)時游戲畫面和預(yù)判畫面一起作為A3C算法的網(wǎng)絡(luò)輸入，進(jìn)行決策，輸出對應(yīng)的離散動作。由于這個改動僅僅改變了A3C算法的網(wǎng)絡(luò)輸入的數(shù)據(jù)結(jié)構(gòu)，因此是一個模型無關(guān)的方法，易于移植到其他算法上。最后，本文分析比較了A3C算法和改進(jìn)后的A3C算法在VizDoom上

5、的表現(xiàn)差異，并且搜集了目前在該游戲平臺上的相同游戲場景下的最新論文中的實(shí)驗(yàn)數(shù)據(jù)作為對照。實(shí)驗(yàn)結(jié)果表明，加入預(yù)判的A3C算法的表現(xiàn)要優(yōu)于改進(jìn)前的A3C算法。關(guān)鍵詞：深度學(xué)習(xí)；強(qiáng)化學(xué)習(xí)；DQN；A3C；預(yù)判網(wǎng)絡(luò)；VizDoom-I-AbstractAbstractAtthepresentday,thosecommonbuilt-inbotsingamesactaccordingtoscriptswritteninadvance.Theywillmakedecisions,takeactionsliketheyhavebeentold,andtheycan

6、acquireandtakeadvantageofsomeunfairinformation,insteadofactingflexiblylikehumanplayers,whomakedecisionsonlybasedongamescreens(orcombinedwithsounds).ThesubjectofthispapermainlyfocusesonstudyingtheapplicationofDeepLearningandReinforcementLearninginthefieldofthegameagentandtheimpr

7、ovementofrelatedalgorithm.Thegoalistomakegameagentmakesdecisionsinhuman’swayandgetsridofrelyingonunfairinformation.Firstofall,thispaperusesVizDoomastheplatformforstudyinggameagent.ItisaFirst-Person-Perspectiveshootinggame.Agameagent(ConvolutionalNeuralNetwork)hasbeenimplemented

8、accordingtoA3Calgorithm.Thisagenttakesoriginalrealtime

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 65



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于A3C模型的帶預(yù)判游戲智能體研究.pdf

基于A3C模型的帶預(yù)判游戲智能體研究.pdf

相關(guān)文章

相關(guān)標(biāo)簽