悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于相關(guān)熵誘導(dǎo)度量的近端策略優(yōu)化算法

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘要: 在深度強(qiáng)化學(xué)習(xí)算法中, 近端策略優(yōu)化算法PPO(Proximal Policy Optimization)在許多實(shí)驗(yàn)任務(wù)中表現(xiàn)優(yōu)異, 但具有自適應(yīng)KL(Kullback-Leibler)散度的KL-PPO 由于其不對稱性而影響了KL-PPO 策略更新效率,為此, 提出了一種基于相關(guān)熵誘導(dǎo)度量的近端策略優(yōu)化算法CIM-PPO (Correntropy Induced Metric-PPO)。(剩余6395字)

monitor