悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于分層強(qiáng)化學(xué)習(xí)的多智能體博弈策略生成方法

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘 要:典型基于深度強(qiáng)化學(xué)習(xí)的多智能體對(duì)抗策略生成方法采用“分總” 框架,各智能體基于部分可觀測(cè)信息生成策略并進(jìn)行決策,缺乏從整體角度生成對(duì)抗策略的能力,大大限制了決策能力。為了解決該問題,基于分層強(qiáng)化學(xué)習(xí)提出改進(jìn)的多智能體博弈策略生成方法。基于分層強(qiáng)化學(xué)習(xí)構(gòu)建觀測(cè)信息到整體價(jià)值的決策映射,以最大化整體價(jià)值作為目標(biāo)構(gòu)建優(yōu)化問題,并推導(dǎo)了策略優(yōu)化過程,為后續(xù)框架結(jié)構(gòu)和方法實(shí)現(xiàn)的設(shè)計(jì)提供了理論依據(jù);基于決策映射與優(yōu)化問題構(gòu)建,采用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了模型框架,詳細(xì)闡述了頂層策略控制模型和個(gè)體策略執(zhí)行模型;基于策略優(yōu)化方法,給出詳細(xì)訓(xùn)練流程和算法流程;采用星際爭(zhēng)霸多智能體對(duì)抗(StarCraft Multi-Agent Challenge,SMAC)環(huán)境,與典型多智能體方法進(jìn)行性能對(duì)比。(剩余10552字)

目錄
monitor