悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

融合先驗知識的異構(gòu)多智能體強化學(xué)習(xí)算法研究

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘 要:近年來,基于深度強化學(xué)習(xí)的機器學(xué)習(xí)技術(shù)突破性進(jìn)展為智能博弈對抗提供了新的技術(shù)發(fā)展方向。針對智能對抗中異構(gòu)多智能體強化學(xué)習(xí)算法訓(xùn)練收斂速度慢,訓(xùn)練效果差異大等問題,提出了一種先驗知識驅(qū)動的多智能體強化學(xué)習(xí)博弈對抗算法PK-MADDPG,構(gòu)建了雙重Critic框架下的MADDPG模型。該模型使用了經(jīng)驗優(yōu)先回放技術(shù)來優(yōu)化先驗知識提取,在博弈對抗訓(xùn)練中取得顯著的效果。(剩余15496字)

monitor