資源描述:
《多智能體q學(xué)習(xí)在多auv協(xié)調(diào)中的應(yīng)用與仿真》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、分類號(hào):——UDC:——密級(jí):編號(hào):工學(xué)碩士學(xué)位論文多智能體Q學(xué)習(xí)在多AUV協(xié)調(diào)中的應(yīng)用與仿真碩士研究生:指導(dǎo)教師:學(xué)位級(jí)別:學(xué)科、專業(yè):所在單位:論文提交日期:論文答辯日期:學(xué)位授予單位;李鋒嚴(yán)浙平教授工學(xué)碩士交通信息工程及控制自動(dòng)化學(xué)院2008年1月2008年3月哈爾濱工程大學(xué)多智能體Q學(xué)習(xí)在多AUV協(xié)調(diào)中的應(yīng)用與仿真摘要AUV(AutonomousUnderwaterVehicle,簡(jiǎn)稱AUV)作為一種高技術(shù)手段,在海洋環(huán)境監(jiān)測(cè)、海底資源調(diào)查、科學(xué)考察、危險(xiǎn)環(huán)境作業(yè)和打撈救生等方面起到了至關(guān)重要的作用。隨著執(zhí)行任務(wù)的復(fù)雜性日益增加,單AUV在大范圍內(nèi)作業(yè)的時(shí)效性、魯棒性和柔性等方面就
2、表現(xiàn)出明顯不足。需要多個(gè)AUV構(gòu)成系統(tǒng)來(lái)共同完成任務(wù),而多AUV的協(xié)調(diào)控制成為關(guān)鍵問(wèn)題,本論文主要討論了一種新的多AUV協(xié)調(diào)控制方法、系統(tǒng)設(shè)計(jì)及仿真。本文首先介紹了多AUV技術(shù)的發(fā)展動(dòng)態(tài)以及課題研究的意義,然后根據(jù)多AUV協(xié)調(diào)控制系統(tǒng)的需要建立AUV運(yùn)動(dòng)模型、多智能體Q學(xué)習(xí)模型,在此基礎(chǔ)上建立了面向任務(wù)的多AUV系統(tǒng)結(jié)構(gòu)。對(duì)比分析了近幾年的幾種重要的多智能體強(qiáng)化算法,然后提出了一種新的多智能體Q學(xué)習(xí)算法,這種算法結(jié)構(gòu)簡(jiǎn)單,能夠大大簡(jiǎn)化狀態(tài)空間,加快收斂速度。試驗(yàn)表明,本文提出的多智能體Q學(xué)習(xí)方法是有效的。然后對(duì)多智能體Q學(xué)習(xí)算法實(shí)現(xiàn)多AUV協(xié)調(diào)的系統(tǒng)進(jìn)行了設(shè)計(jì),用多個(gè)仿真實(shí)例說(shuō)明了多智能體
3、Q學(xué)習(xí)算法在多AUV系統(tǒng)中的應(yīng)用,試驗(yàn)證明,此本文提出的多智能體Q學(xué)習(xí)協(xié)調(diào)算法在滿足Nash均衡的同時(shí),避免了研究多個(gè)均衡點(diǎn)同時(shí)存在的問(wèn)題,收斂速度快并且非常有效。關(guān)鍵詞:多智能體;Q學(xué)習(xí);hash均衡;多AUV;仿真哈爾濱T群人學(xué)碩十學(xué)何論文ABSTRACTAutonomousUnderwaterVehicle(AUV)playsanimportantroleinmarineenvironmentmonitoting,seabedresourcesinvestigating,sciencerespecting,dangerousenvironmentexploring,rescueand
4、salvageandSOon.Alongwiththemissionbecomemorecomplicatedly,thesingleAUVobviouslyshowsinsufficientateffectiveness,robustnessandflexibilityinalarge。scaleoperatingmission-ItISnecessarytocoordinatewiththehelpofMulti—AUVsoperatingtogether,alldcooperationisthekeytechniquesofMulti-AUVs.Inthispaperacoopera
5、tivestrategy,aMulti.AUVscooperativesystem’sdesignandit’Ssimulationarediscussed.Firstly,thetrendofmultipleAUVsdevelopmentandtheresearchmeaningarepresented.ThenaAUVdynamicmodel,multiagentQ·learningmodelisdesignedbasedontheneedofmultipleAUVssystem,andanewarchitecture0tAUVbasedonmissionisproposed.Then
6、,severalsingleagentandmultiagentreinforcementlearningalgorithmsproposedinrecentyearsareinvestigated,comparedandanalyzeddeeplyinthispaper.AndamuliagentQ‘learningalgorithmisproposed.Thisalgorithminvolvessimpleproceduresandeasycomputations,andcanguaranteegoodlearningconvergence·Experimentresultsofmul
7、ti.AUV,scoordinationandcontrolshowthatthisalgorithmiseffective·Then.a(chǎn)Multi.AUVscooperativesystembasedonmuliagentQ。learningalgorithmisdesinged.SeveralsimulationexperimentshowtheapplicationofmuliagentQ.1earningalgo