資源描述:
《基于云計算的海量數(shù)據(jù)挖掘》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、高陽教授,博導多智能體強化學習中的博弈和近似均衡南京大學計算機軟件新技術(shù)國家重點實驗室合作者:胡裕靖(南京大學/阿里研究院),安波(南洋理工大學)2018年8月24日關(guān)于我1997-2000,南京大學攻讀博士學位博士論文題目:多agent強化學習研究目前任:中國人工智能學會理事中國機器學習專委會副主任中國粒計算與知識發(fā)現(xiàn)專委會副主任中國計算機學會人工智能與模式識別專委會常委江蘇省人工智能學會副理事長近似博弈的均衡遷移報告提綱大數(shù)據(jù)背景下的多智能體決策非共享支付矩陣的多智能體博弈延遲反饋下的強化學習稀疏交互下的知識遷移和博弈約簡多智能體學習
2、中的博弈和近似均衡大數(shù)據(jù)背景下的多智能體決策152016年度最大的科技新聞之一AlphaGoVS李世石AlphaGoVS柯杰深度學習、強化學習、蒙特卡羅樹搜索6大數(shù)據(jù)特點和關(guān)鍵技術(shù)表示技術(shù)學習技術(shù)推理技術(shù)面向大數(shù)據(jù)的高效知識表示面向大數(shù)據(jù)的在線學習技術(shù)面向大數(shù)據(jù)的動態(tài)推理技術(shù)關(guān)鍵技術(shù)存在問題大數(shù)據(jù)的4V特征海量(Volume)、快速多變(Velocity)、多樣性(Variety)、不精準性(Veracity)適應大數(shù)據(jù)特征的人工智能技術(shù)博弈推理技術(shù)7大數(shù)據(jù)環(huán)境下面向多個行為實體復雜決策的博弈推理技術(shù)從2015年上證指數(shù)周K線中看各方博弈
3、空方:要跌政府、多方:跌夠了空方:還沒夠多方:再漲政府:該跌一跌政府:搗亂的統(tǒng)統(tǒng)抓起來!政府:人民幣國際化、中小企業(yè)發(fā)展、經(jīng)濟轉(zhuǎn)型、亞投行,漲88博弈推理技術(shù)已有推理技術(shù)基于邏輯的演繹推理方法適用于小規(guī)模問題結(jié)合統(tǒng)計的歸納推理方法適用于大數(shù)據(jù)場景面向大數(shù)據(jù)復雜決策的動態(tài)推理技術(shù)多行為智能體的交互[Battista,SMC011]貝葉斯博弈、Stackelberg博弈[Bruckner,KDD2011]垃圾郵件發(fā)送者郵件過濾系統(tǒng)發(fā)送郵件修改郵件特征過濾未過濾繼續(xù)發(fā)送重新識別…………99大規(guī)模博弈推理存在問題和研究思路大規(guī)模博弈結(jié)構(gòu)的歸納推理
4、大規(guī)模博弈的均衡計算博弈模型約簡蒙特卡羅采樣和博弈模型學習博弈均衡遷移先驗知識利用結(jié)構(gòu)均衡多智能體學習中的博弈和近似均衡延遲反饋下的強化學習211網(wǎng)絡廣告中的延遲反饋排序∝點擊率*競價…?延時獲得Reward(真實點擊率)投放廣告的商家12在線學習范型LH即時獲得正確的類標/獎賞τ時刻后,獲得正確的類標/獎賞延遲反饋學習器從X集合中得到輸入樣本x;學習器輸出樣本的預測標記;τ時刻后,獲得樣本的正確標記。如果反饋不是標記呢?13強化學習問題延遲反饋(環(huán)境)交互順序決策EnvironmentactionstaterewardRLAgent具體
5、事例抽象模型強化學習的本質(zhì):獎懲和試錯(TrialandError)馬爾科夫決策過程(MarkovDecisionProcess)狀態(tài)集合:動作集合:獎賞函數(shù):以及狀態(tài)轉(zhuǎn)移函數(shù):14強化學習范型延遲反饋(環(huán)境)交互順序決策EnvironmentactionstaterewardRLAgents0s1s2s3aaa15交互學習VS概念學習概念學習給定正例/反例,學習目標概念交互學習通過交互學習一個目標系統(tǒng)(或外部環(huán)境)存在若干個”狀態(tài)”學習算法/動作會影響”狀態(tài)”的分布潛在的Exploration和Exploitation折衷16交互學習的
6、挑戰(zhàn)不確定性環(huán)境、動作、反饋、模型學習的目標概念決策最大化長期獎賞MarkovDecisionProcess環(huán)境動作狀態(tài)獎賞學習系統(tǒng)17交互學習的要素18強化學習算法算法構(gòu)造思路根據(jù)先驗得到初始認知(值函數(shù))根據(jù)認知選擇動作(伴隨一定的隨機性)獲得經(jīng)驗根據(jù)反饋,修改認知根據(jù)延遲的反饋,回退修改歷史認知19多智能體學習范型多智能體博弈延遲反饋環(huán)境交互順序決策MichaelWooldridgeUniversityofLiverpoolNickJenningsUniversityofSouthampton20One-ShotGame2017年1
7、月31日,CMUAILibratus在匹茲堡的Rivers賭場,戰(zhàn)勝四位德州撲克頂尖選手21Nash均衡經(jīng)典的博弈均衡解概念:納什均衡囚徒困境博弈Nash均衡Pareto優(yōu)個體理性與集體理性相矛盾的本質(zhì)22馬爾科夫博弈馬爾科夫博弈(MarkovGame)Agent集合:狀態(tài)集合:聯(lián)合動作集合:獎賞函數(shù):狀態(tài)轉(zhuǎn)移函數(shù):學習方法和思路單Agent學習(假設其他agent不存在)多Agent聯(lián)合學習(集中式思想)對抗學習基于博弈均衡的學習S1S2S323[Lucian,TSMC-C2008]LucianBu?oniu,RobertBabu?ka
8、,BartDeSchutter,AComprehensiveSurveyofMulti-AgentReinforcementLearning,IEEETransactionsonSystem,