悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于值函數(shù)估計的參數(shù)探索策略梯度算法

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘 要:策略梯度估計方差大是策略梯度算法存在的普遍問題,基于參數(shù)探索的策略梯度算法(PGPE)通過使用確定性策略有效緩解了這一問題。然而,PGPE算法基于蒙特卡羅方法進行策略梯度的估計,需要大量學習樣本才能保證梯度估計相對穩(wěn)定,因此,梯度估計方差大阻礙了其在現(xiàn)實問題中的實際應(yīng)用。為進一步減小PGPE算法策略梯度估計的方差,提出了基于值函數(shù)估計的參數(shù)探索策略梯度算法(PGPE-FA),該算法在PGPE算法中引入Actor-Critic框架。(剩余11861字)

目錄
monitor