基于分層強(qiáng)化學(xué)習(xí)的多智能體博弈策略生成方法

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：典型基于深度強(qiáng)化學(xué)習(xí)的多智能體對(duì)抗策略生成方法采用“分總” 框架，各智能體基于部分可觀測(cè)信息生成策略并進(jìn)行決策，缺乏從整體角度生成對(duì)抗策略的能力，大大限制了決策能力。為了解決該問題，基于分層強(qiáng)化學(xué)習(xí)提出改進(jìn)的多智能體博弈策略生成方法。基于分層強(qiáng)化學(xué)習(xí)構(gòu)建觀測(cè)信息到整體價(jià)值的決策映射，以最大化整體價(jià)值作為目標(biāo)構(gòu)建優(yōu)化問題，并推導(dǎo)了策略優(yōu)化過程，為后續(xù)框架結(jié)構(gòu)和方法實(shí)現(xiàn)的設(shè)計(jì)提供了理論依據(jù)；基于決策映射與優(yōu)化問題構(gòu)建，采用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了模型框架，詳細(xì)闡述了頂層策略控制模型和個(gè)體策略執(zhí)行模型；基于策略優(yōu)化方法，給出詳細(xì)訓(xùn)練流程和算法流程；采用星際爭(zhēng)霸多智能體對(duì)抗（ＳｔａｒＣｒａｆｔＭｕｌｔｉ-ＡｇｅｎｔＣｈａｌｌｅｎｇｅ，ＳＭＡＣ）環(huán)境，與典型多智能體方法進(jìn)行性能對(duì)比。（剩余10552字）

試讀結(jié)束

購買全文6.00元下一篇 LEO衛(wèi)星網(wǎng)絡(luò)切換判決方法研究綜述

無線電工程

2024年06期

￥12.00/本

悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于分層強(qiáng)化學(xué)習(xí)的多智能體博弈策略生成方法