注冊(cè)帳號(hào)丨忘記密碼?
1.點(diǎn)擊網(wǎng)站首頁右上角的“充值”按鈕可以為您的帳號(hào)充值
2.可選擇不同檔位的充值金額,充值后按篇按本計(jì)費(fèi)
3.充值成功后即可購買網(wǎng)站上的任意文章或雜志的電子版
4.購買后文章、雜志可在個(gè)人中心的訂閱/零買找到
5.登陸后可閱讀免費(fèi)專區(qū)的精彩內(nèi)容
打開文本圖片集
摘 要:典型基于深度強(qiáng)化學(xué)習(xí)的多智能體對(duì)抗策略生成方法采用“分總” 框架,各智能體基于部分可觀測(cè)信息生成策略并進(jìn)行決策,缺乏從整體角度生成對(duì)抗策略的能力,大大限制了決策能力。為了解決該問題,基于分層強(qiáng)化學(xué)習(xí)提出改進(jìn)的多智能體博弈策略生成方法。基于分層強(qiáng)化學(xué)習(xí)構(gòu)建觀測(cè)信息到整體價(jià)值的決策映射,以最大化整體價(jià)值作為目標(biāo)構(gòu)建優(yōu)化問題,并推導(dǎo)了策略優(yōu)化過程,為后續(xù)框架結(jié)構(gòu)和方法實(shí)現(xiàn)的設(shè)計(jì)提供了理論依據(jù);基于決策映射與優(yōu)化問題構(gòu)建,采用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了模型框架,詳細(xì)闡述了頂層策略控制模型和個(gè)體策略執(zhí)行模型;基于策略優(yōu)化方法,給出詳細(xì)訓(xùn)練流程和算法流程;采用星際爭(zhēng)霸多智能體對(duì)抗(StarCraft Multi-Agent Challenge,SMAC)環(huán)境,與典型多智能體方法進(jìn)行性能對(duì)比。(剩余10552字)
登錄龍?jiān)雌诳W(wǎng)
購買文章
基于分層強(qiáng)化學(xué)習(xí)的多智能體博弈策略生成方法
文章價(jià)格:6.00元
當(dāng)前余額:100.00
閱讀
您目前是文章會(huì)員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報(bào)電話:400-106-1235
舉報(bào)郵箱:[email protected]