基于A3C模型的帶預(yù)判游戲智能體研究.pdf

基于A3C模型的帶預(yù)判游戲智能體研究.pdf

ID:35007621

大?。?.63 MB

頁數(shù):65頁

時(shí)間:2019-03-16

基于A3C模型的帶預(yù)判游戲智能體研究.pdf_第1頁
基于A3C模型的帶預(yù)判游戲智能體研究.pdf_第2頁
基于A3C模型的帶預(yù)判游戲智能體研究.pdf_第3頁
基于A3C模型的帶預(yù)判游戲智能體研究.pdf_第4頁
基于A3C模型的帶預(yù)判游戲智能體研究.pdf_第5頁
資源描述:

《基于A3C模型的帶預(yù)判游戲智能體研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、碩士學(xué)位論文基于A3C模型的帶預(yù)判游戲智能體研究RESEARCHONA3CBASEDGAMEAGENTWITHANTICIPATOR王耶利哈爾濱工業(yè)大學(xué)2018年6月國內(nèi)圖書分類號(hào):TP391.4學(xué)校代碼:10213國際圖書分類號(hào):004.8密級(jí):公開工學(xué)碩士學(xué)位論文基于A3C模型的帶預(yù)判游戲智能體研究碩士研究生:王耶利導(dǎo)師:姜峰教授申請(qǐng)學(xué)位:工程碩士學(xué)科:計(jì)算機(jī)技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2018年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP391.4U.D.C:004.8Dissertationforthe

2、MasterDegreeinEngineeringRESEARCHONA3CBASEDGAMEAGENTWITHANTICIPATORCandidate:WangYeliSupervisor:Prof.JiangFengAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Instit

3、ution:HarbinInstituteofTechnology摘要摘要目前,常見的游戲內(nèi)置機(jī)器人在進(jìn)行對(duì)抗時(shí)都是根據(jù)事先編寫好的腳本進(jìn)行決策,采取行動(dòng),而且可以獲取利用一些不平等信息,并不是像人類玩家一樣只根據(jù)游戲畫面(或者再結(jié)合聲音)進(jìn)行分析決策,靈活多變。本課題主要研究深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在游戲智能體領(lǐng)域的應(yīng)用,以及相關(guān)算法的改進(jìn),使游戲智能體的決策過程更像人類,并使其擺脫對(duì)不公平信息的依賴。首先,本文采用VizDoom作為游戲智能體的研究平臺(tái),該游戲是一款第一人稱視角的射擊游戲。根據(jù)A3C算法設(shè)計(jì)實(shí)現(xiàn)了一個(gè)游戲智能體(即卷積神經(jīng)網(wǎng)絡(luò)),該智能

4、體以原始的實(shí)時(shí)游戲畫面作為網(wǎng)絡(luò)輸入,輸出為對(duì)應(yīng)的離散動(dòng)作(即決策)。智能體會(huì)和VizDoom進(jìn)行交互,讀取實(shí)時(shí)游戲畫面,然后進(jìn)行決策,控制游戲中的角色行動(dòng)。其次,本文對(duì)A3C算法做了一個(gè)改進(jìn),在其原有的基礎(chǔ)上加入了一個(gè)預(yù)判網(wǎng)絡(luò),預(yù)判網(wǎng)絡(luò)的目的是使智能體可以像人類玩家一樣,在進(jìn)行決策前做出一個(gè)預(yù)判,然后將實(shí)時(shí)游戲畫面和預(yù)判畫面一起作為A3C算法的網(wǎng)絡(luò)輸入,進(jìn)行決策,輸出對(duì)應(yīng)的離散動(dòng)作。由于這個(gè)改動(dòng)僅僅改變了A3C算法的網(wǎng)絡(luò)輸入的數(shù)據(jù)結(jié)構(gòu),因此是一個(gè)模型無關(guān)的方法,易于移植到其他算法上。最后,本文分析比較了A3C算法和改進(jìn)后的A3C算法在VizDoom上

5、的表現(xiàn)差異,并且搜集了目前在該游戲平臺(tái)上的相同游戲場景下的最新論文中的實(shí)驗(yàn)數(shù)據(jù)作為對(duì)照。實(shí)驗(yàn)結(jié)果表明,加入預(yù)判的A3C算法的表現(xiàn)要優(yōu)于改進(jìn)前的A3C算法。關(guān)鍵詞:深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);DQN;A3C;預(yù)判網(wǎng)絡(luò);VizDoom-I-AbstractAbstractAtthepresentday,thosecommonbuilt-inbotsingamesactaccordingtoscriptswritteninadvance.Theywillmakedecisions,takeactionsliketheyhavebeentold,andtheycan

6、acquireandtakeadvantageofsomeunfairinformation,insteadofactingflexiblylikehumanplayers,whomakedecisionsonlybasedongamescreens(orcombinedwithsounds).ThesubjectofthispapermainlyfocusesonstudyingtheapplicationofDeepLearningandReinforcementLearninginthefieldofthegameagentandtheimpr

7、ovementofrelatedalgorithm.Thegoalistomakegameagentmakesdecisionsinhuman’swayandgetsridofrelyingonunfairinformation.Firstofall,thispaperusesVizDoomastheplatformforstudyinggameagent.ItisaFirst-Person-Perspectiveshootinggame.Agameagent(ConvolutionalNeuralNetwork)hasbeenimplemented

8、accordingtoA3Calgorithm.Thisagenttakesoriginalrealtime

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。