基于云計(jì)算的海量數(shù)據(jù)挖掘

基于云計(jì)算的海量數(shù)據(jù)挖掘

ID:20884722

大?。?.84 MB

頁數(shù):61頁

時(shí)間:2018-10-16

基于云計(jì)算的海量數(shù)據(jù)挖掘_第1頁
基于云計(jì)算的海量數(shù)據(jù)挖掘_第2頁
基于云計(jì)算的海量數(shù)據(jù)挖掘_第3頁
基于云計(jì)算的海量數(shù)據(jù)挖掘_第4頁
基于云計(jì)算的海量數(shù)據(jù)挖掘_第5頁
資源描述:

《基于云計(jì)算的海量數(shù)據(jù)挖掘》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、高陽教授,博導(dǎo)多智能體強(qiáng)化學(xué)習(xí)中的博弈和近似均衡南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室合作者:胡裕靖(南京大學(xué)/阿里研究院),安波(南洋理工大學(xué))2018年8月24日關(guān)于我1997-2000,南京大學(xué)攻讀博士學(xué)位博士論文題目:多agent強(qiáng)化學(xué)習(xí)研究目前任:中國人工智能學(xué)會理事中國機(jī)器學(xué)習(xí)專委會副主任中國粒計(jì)算與知識發(fā)現(xiàn)專委會副主任中國計(jì)算機(jī)學(xué)會人工智能與模式識別專委會常委江蘇省人工智能學(xué)會副理事長近似博弈的均衡遷移報(bào)告提綱大數(shù)據(jù)背景下的多智能體決策非共享支付矩陣的多智能體博弈延遲反饋下的強(qiáng)化學(xué)習(xí)稀疏交互下的知識遷移和博弈約簡多智能體學(xué)習(xí)

2、中的博弈和近似均衡大數(shù)據(jù)背景下的多智能體決策152016年度最大的科技新聞之一AlphaGoVS李世石AlphaGoVS柯杰深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、蒙特卡羅樹搜索6大數(shù)據(jù)特點(diǎn)和關(guān)鍵技術(shù)表示技術(shù)學(xué)習(xí)技術(shù)推理技術(shù)面向大數(shù)據(jù)的高效知識表示面向大數(shù)據(jù)的在線學(xué)習(xí)技術(shù)面向大數(shù)據(jù)的動(dòng)態(tài)推理技術(shù)關(guān)鍵技術(shù)存在問題大數(shù)據(jù)的4V特征海量(Volume)、快速多變(Velocity)、多樣性(Variety)、不精準(zhǔn)性(Veracity)適應(yīng)大數(shù)據(jù)特征的人工智能技術(shù)博弈推理技術(shù)7大數(shù)據(jù)環(huán)境下面向多個(gè)行為實(shí)體復(fù)雜決策的博弈推理技術(shù)從2015年上證指數(shù)周K線中看各方博弈

3、空方:要跌政府、多方:跌夠了空方:還沒夠多方:再漲政府:該跌一跌政府:搗亂的統(tǒng)統(tǒng)抓起來!政府:人民幣國際化、中小企業(yè)發(fā)展、經(jīng)濟(jì)轉(zhuǎn)型、亞投行,漲88博弈推理技術(shù)已有推理技術(shù)基于邏輯的演繹推理方法適用于小規(guī)模問題結(jié)合統(tǒng)計(jì)的歸納推理方法適用于大數(shù)據(jù)場景面向大數(shù)據(jù)復(fù)雜決策的動(dòng)態(tài)推理技術(shù)多行為智能體的交互[Battista,SMC011]貝葉斯博弈、Stackelberg博弈[Bruckner,KDD2011]垃圾郵件發(fā)送者郵件過濾系統(tǒng)發(fā)送郵件修改郵件特征過濾未過濾繼續(xù)發(fā)送重新識別…………99大規(guī)模博弈推理存在問題和研究思路大規(guī)模博弈結(jié)構(gòu)的歸納推理

4、大規(guī)模博弈的均衡計(jì)算博弈模型約簡蒙特卡羅采樣和博弈模型學(xué)習(xí)博弈均衡遷移先驗(yàn)知識利用結(jié)構(gòu)均衡多智能體學(xué)習(xí)中的博弈和近似均衡延遲反饋下的強(qiáng)化學(xué)習(xí)211網(wǎng)絡(luò)廣告中的延遲反饋排序∝點(diǎn)擊率*競價(jià)…?延時(shí)獲得Reward(真實(shí)點(diǎn)擊率)投放廣告的商家12在線學(xué)習(xí)范型LH即時(shí)獲得正確的類標(biāo)/獎(jiǎng)賞τ時(shí)刻后,獲得正確的類標(biāo)/獎(jiǎng)賞延遲反饋學(xué)習(xí)器從X集合中得到輸入樣本x;學(xué)習(xí)器輸出樣本的預(yù)測標(biāo)記;τ時(shí)刻后,獲得樣本的正確標(biāo)記。如果反饋不是標(biāo)記呢?13強(qiáng)化學(xué)習(xí)問題延遲反饋(環(huán)境)交互順序決策EnvironmentactionstaterewardRLAgent具體

5、事例抽象模型強(qiáng)化學(xué)習(xí)的本質(zhì):獎(jiǎng)懲和試錯(cuò)(TrialandError)馬爾科夫決策過程(MarkovDecisionProcess)狀態(tài)集合:動(dòng)作集合:獎(jiǎng)賞函數(shù):以及狀態(tài)轉(zhuǎn)移函數(shù):14強(qiáng)化學(xué)習(xí)范型延遲反饋(環(huán)境)交互順序決策EnvironmentactionstaterewardRLAgents0s1s2s3aaa15交互學(xué)習(xí)VS概念學(xué)習(xí)概念學(xué)習(xí)給定正例/反例,學(xué)習(xí)目標(biāo)概念交互學(xué)習(xí)通過交互學(xué)習(xí)一個(gè)目標(biāo)系統(tǒng)(或外部環(huán)境)存在若干個(gè)”狀態(tài)”學(xué)習(xí)算法/動(dòng)作會影響”狀態(tài)”的分布潛在的Exploration和Exploitation折衷16交互學(xué)習(xí)的

6、挑戰(zhàn)不確定性環(huán)境、動(dòng)作、反饋、模型學(xué)習(xí)的目標(biāo)概念決策最大化長期獎(jiǎng)賞MarkovDecisionProcess環(huán)境動(dòng)作狀態(tài)獎(jiǎng)賞學(xué)習(xí)系統(tǒng)17交互學(xué)習(xí)的要素18強(qiáng)化學(xué)習(xí)算法算法構(gòu)造思路根據(jù)先驗(yàn)得到初始認(rèn)知(值函數(shù))根據(jù)認(rèn)知選擇動(dòng)作(伴隨一定的隨機(jī)性)獲得經(jīng)驗(yàn)根據(jù)反饋,修改認(rèn)知根據(jù)延遲的反饋,回退修改歷史認(rèn)知19多智能體學(xué)習(xí)范型多智能體博弈延遲反饋環(huán)境交互順序決策M(jìn)ichaelWooldridgeUniversityofLiverpoolNickJenningsUniversityofSouthampton20One-ShotGame2017年1

7、月31日,CMUAILibratus在匹茲堡的Rivers賭場,戰(zhàn)勝四位德州撲克頂尖選手21Nash均衡經(jīng)典的博弈均衡解概念:納什均衡囚徒困境博弈Nash均衡Pareto優(yōu)個(gè)體理性與集體理性相矛盾的本質(zhì)22馬爾科夫博弈馬爾科夫博弈(MarkovGame)Agent集合:狀態(tài)集合:聯(lián)合動(dòng)作集合:獎(jiǎng)賞函數(shù):狀態(tài)轉(zhuǎn)移函數(shù):學(xué)習(xí)方法和思路單Agent學(xué)習(xí)(假設(shè)其他agent不存在)多Agent聯(lián)合學(xué)習(xí)(集中式思想)對抗學(xué)習(xí)基于博弈均衡的學(xué)習(xí)S1S2S323[Lucian,TSMC-C2008]LucianBu?oniu,RobertBabu?ka

8、,BartDeSchutter,AComprehensiveSurveyofMulti-AgentReinforcementLearning,IEEETransactionsonSystem,

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。