資源描述:
《基于A3C模型的帶預(yù)判游戲智能體研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士學(xué)位論文基于A3C模型的帶預(yù)判游戲智能體研究RESEARCHONA3CBASEDGAMEAGENTWITHANTICIPATOR王耶利哈爾濱工業(yè)大學(xué)2018年6月國內(nèi)圖書分類號(hào):TP391.4學(xué)校代碼:10213國際圖書分類號(hào):004.8密級(jí):公開工學(xué)碩士學(xué)位論文基于A3C模型的帶預(yù)判游戲智能體研究碩士研究生:王耶利導(dǎo)師:姜峰教授申請(qǐng)學(xué)位:工程碩士學(xué)科:計(jì)算機(jī)技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2018年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP391.4U.D.C:004.8Dissertationforthe
2、MasterDegreeinEngineeringRESEARCHONA3CBASEDGAMEAGENTWITHANTICIPATORCandidate:WangYeliSupervisor:Prof.JiangFengAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Instit
3、ution:HarbinInstituteofTechnology摘要摘要目前,常見的游戲內(nèi)置機(jī)器人在進(jìn)行對(duì)抗時(shí)都是根據(jù)事先編寫好的腳本進(jìn)行決策,采取行動(dòng),而且可以獲取利用一些不平等信息,并不是像人類玩家一樣只根據(jù)游戲畫面(或者再結(jié)合聲音)進(jìn)行分析決策,靈活多變。本課題主要研究深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在游戲智能體領(lǐng)域的應(yīng)用,以及相關(guān)算法的改進(jìn),使游戲智能體的決策過程更像人類,并使其擺脫對(duì)不公平信息的依賴。首先,本文采用VizDoom作為游戲智能體的研究平臺(tái),該游戲是一款第一人稱視角的射擊游戲。根據(jù)A3C算法設(shè)計(jì)實(shí)現(xiàn)了一個(gè)游戲智能體(即卷積神經(jīng)網(wǎng)絡(luò)),該智能
4、體以原始的實(shí)時(shí)游戲畫面作為網(wǎng)絡(luò)輸入,輸出為對(duì)應(yīng)的離散動(dòng)作(即決策)。智能體會(huì)和VizDoom進(jìn)行交互,讀取實(shí)時(shí)游戲畫面,然后進(jìn)行決策,控制游戲中的角色行動(dòng)。其次,本文對(duì)A3C算法做了一個(gè)改進(jìn),在其原有的基礎(chǔ)上加入了一個(gè)預(yù)判網(wǎng)絡(luò),預(yù)判網(wǎng)絡(luò)的目的是使智能體可以像人類玩家一樣,在進(jìn)行決策前做出一個(gè)預(yù)判,然后將實(shí)時(shí)游戲畫面和預(yù)判畫面一起作為A3C算法的網(wǎng)絡(luò)輸入,進(jìn)行決策,輸出對(duì)應(yīng)的離散動(dòng)作。由于這個(gè)改動(dòng)僅僅改變了A3C算法的網(wǎng)絡(luò)輸入的數(shù)據(jù)結(jié)構(gòu),因此是一個(gè)模型無關(guān)的方法,易于移植到其他算法上。最后,本文分析比較了A3C算法和改進(jìn)后的A3C算法在VizDoom上
5、的表現(xiàn)差異,并且搜集了目前在該游戲平臺(tái)上的相同游戲場景下的最新論文中的實(shí)驗(yàn)數(shù)據(jù)作為對(duì)照。實(shí)驗(yàn)結(jié)果表明,加入預(yù)判的A3C算法的表現(xiàn)要優(yōu)于改進(jìn)前的A3C算法。關(guān)鍵詞:深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);DQN;A3C;預(yù)判網(wǎng)絡(luò);VizDoom-I-AbstractAbstractAtthepresentday,thosecommonbuilt-inbotsingamesactaccordingtoscriptswritteninadvance.Theywillmakedecisions,takeactionsliketheyhavebeentold,andtheycan
6、acquireandtakeadvantageofsomeunfairinformation,insteadofactingflexiblylikehumanplayers,whomakedecisionsonlybasedongamescreens(orcombinedwithsounds).ThesubjectofthispapermainlyfocusesonstudyingtheapplicationofDeepLearningandReinforcementLearninginthefieldofthegameagentandtheimpr
7、ovementofrelatedalgorithm.Thegoalistomakegameagentmakesdecisionsinhuman’swayandgetsridofrelyingonunfairinformation.Firstofall,thispaperusesVizDoomastheplatformforstudyinggameagent.ItisaFirst-Person-Perspectiveshootinggame.Agameagent(ConvolutionalNeuralNetwork)hasbeenimplemented
8、accordingtoA3Calgorithm.Thisagenttakesoriginalrealtime