資源描述:
《基于自適應(yīng)動態(tài)規(guī)劃的無人機編隊最優(yōu)協(xié)同控制研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中圖分類號:TP273論文編號:102870318-SX124學(xué)科分類號:081101碩士學(xué)位論文基于自適應(yīng)動態(tài)規(guī)劃的無人機編隊最優(yōu)協(xié)同控制研究研究生姓名魏阿龍學(xué)科、專業(yè)控制理論與控制工程研究方向故障檢測與容錯控制指導(dǎo)教師劉春生教授南京航空航天大學(xué)研究生院自動化學(xué)院二О一八年一月NanjingUniversityofAeronauticsandAstronauticsTheGraduateSchoolCollegeofAutomationEngineeringResearchonAdaptiveDynamicProgramming
2、-BasedOptimalCooperativeControlofUAVFormationAThesisinControlTheoryandControlEngineeringbyWeiAlongAdvisedbyProf.LiuChunshengSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringJanuary,2018承諾書本人聲明所呈交的碩士學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。除了文中特別加以標(biāo)注和
3、致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得南京航空航天大學(xué)或其他教育機構(gòu)的學(xué)位或證書而使用過的材料。本人授權(quán)南京航空航天大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后適用本承諾書)作者簽名:日期:南京航空航天大學(xué)碩士學(xué)位論文摘要本論文基于自適應(yīng)動態(tài)規(guī)劃(AdaptiveDynamicProgramming,ADP)方法,結(jié)合一致性理論,對無人機編隊的最優(yōu)協(xié)同控制進行研究。首先建立一致性誤差動態(tài)模型,基于此模型,
4、主要從三個方面深入分析和研究相應(yīng)的協(xié)同控制技術(shù):討論無人機系統(tǒng)輸入受限情形下的一致性問題,討論無人機系統(tǒng)模型部分未知和模型完全未知情形下的一致性問題。主要內(nèi)容有:(1)針對編隊中的無人機系統(tǒng)存在輸入飽和受限情形,提出了分布式自適應(yīng)最優(yōu)控制方案求解其非零和微分博弈問題。為解決輸入受限造成的不連續(xù)問題,選用一個合適的非二次型泛函將問題轉(zhuǎn)化為可求解的優(yōu)化問題。為每架無人機設(shè)計單網(wǎng)絡(luò)結(jié)構(gòu)來近似耦合哈密頓-雅克比(Hamilton-Jacobi,HJ)方程的解,進而求得分布式最優(yōu)協(xié)同控制律。對于無人機的編隊系統(tǒng),使用單網(wǎng)絡(luò)而不是自適應(yīng)動態(tài)規(guī)
5、劃典型的雙網(wǎng)結(jié)構(gòu)優(yōu)勢更加突出,因為這樣不但可以減少對無人機的內(nèi)存需求還可以減少計算負(fù)擔(dān)。此外所有無人機的神經(jīng)網(wǎng)絡(luò)(NeuralNetwork,NN)權(quán)值更新都是同時且連續(xù)的,這也使得所得控制律是平滑的。(2)針對模型部分未知的無人機編隊系統(tǒng)的最優(yōu)協(xié)同控制問題,提出了基于辨識-評價結(jié)構(gòu)的在線自適應(yīng)最優(yōu)控制方案。一般地,非線性非零和微分博弈最優(yōu)協(xié)同控制的關(guān)鍵是耦合HJ方程的求解。由于存在不確定性,針對每一架無人機,分別使用一個辨識NN用于估計無人機系統(tǒng)的未知動態(tài)和一個評價NN用于近似耦合HJ方程的解(最優(yōu)值函數(shù)),繼而導(dǎo)出最優(yōu)協(xié)同控制
6、律。基于辨識-評價結(jié)構(gòu),辨識NN和評價NN可以同步調(diào)整權(quán)值。(3)針對模型完全未知且存在干擾的情形,提出了一種新的數(shù)據(jù)驅(qū)動ADP算法。首先提出了基于模型的策略迭代算法,然后證明了值函數(shù)和控制策略的迭代序列收斂于最優(yōu)函數(shù)。為了放松算法對系統(tǒng)模型準(zhǔn)確信息的依賴,結(jié)合前面基于模型的算法和積分強化學(xué)習(xí)(IntegralReinforcementLearning,IRL)技術(shù),推導(dǎo)出了無模型(modelfree)迭代方程。進一步提出一種數(shù)據(jù)驅(qū)動的迭代ADP方法,利用生成的系統(tǒng)數(shù)據(jù)來求解無模型迭代方程。并且從理論上證明了這種無模型迭代方程等價
7、于基于模型的迭代方程。這意味著數(shù)據(jù)驅(qū)動算法可以近似最優(yōu)值函數(shù)和控制策略。關(guān)鍵詞:自適應(yīng)動態(tài)規(guī)劃(ADP),分布式控制,最優(yōu)協(xié)同控制,非零和微分博弈,輸入受限,數(shù)據(jù)驅(qū)動I基于自適應(yīng)動態(tài)規(guī)劃的無人機編隊最優(yōu)協(xié)同控制研究ABSTRACTThisthesisstudiestheoptimalcooperativecontrolofUAVformationbasedontheadaptivedynamicprogrammingmethodandtheconsensustheory.Firstly,theconsensuserrordynam
8、icmodelisestablished.Basedonthismodel,thecorrespondingcooperativecontroltechniquesareformulatedanddevelopedfromthreeaspects: