基于值函數(shù)估計的參數(shù)探索策略梯度算法

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：策略梯度估計方差大是策略梯度算法存在的普遍問題，基于參數(shù)探索的策略梯度算法（PGPE）通過使用確定性策略有效緩解了這一問題。然而，PGPE算法基于蒙特卡羅方法進行策略梯度的估計，需要大量學習樣本才能保證梯度估計相對穩(wěn)定，因此，梯度估計方差大阻礙了其在現(xiàn)實問題中的實際應(yīng)用。為進一步減小PGPE算法策略梯度估計的方差，提出了基于值函數(shù)估計的參數(shù)探索策略梯度算法（PGPE-FA），該算法在PGPE算法中引入Actor-Critic框架。（剩余11861字）

試讀結(jié)束

購買全文6.00元下一篇一種針對安全可達動態(tài)系統(tǒng)的形式化學習方法

計算機應(yīng)用研究

2023年08期

￥12.00/本

悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于值函數(shù)估計的參數(shù)探索策略梯度算法