注冊帳號丨忘記密碼?
1.點擊網(wǎng)站首頁右上角的“充值”按鈕可以為您的帳號充值
2.可選擇不同檔位的充值金額,充值后按篇按本計費
3.充值成功后即可購買網(wǎng)站上的任意文章或雜志的電子版
4.購買后文章、雜志可在個人中心的訂閱/零買找到
5.登陸后可閱讀免費專區(qū)的精彩內(nèi)容
打開文本圖片集
摘 要:策略梯度估計方差大是策略梯度算法存在的普遍問題,基于參數(shù)探索的策略梯度算法(PGPE)通過使用確定性策略有效緩解了這一問題。然而,PGPE算法基于蒙特卡羅方法進行策略梯度的估計,需要大量學習樣本才能保證梯度估計相對穩(wěn)定,因此,梯度估計方差大阻礙了其在現(xiàn)實問題中的實際應(yīng)用。為進一步減小PGPE算法策略梯度估計的方差,提出了基于值函數(shù)估計的參數(shù)探索策略梯度算法(PGPE-FA),該算法在PGPE算法中引入Actor-Critic框架。(剩余11861字)
登錄龍源期刊網(wǎng)
購買文章
基于值函數(shù)估計的參數(shù)探索策略梯度算法
文章價格:6.00元
當前余額:100.00
閱讀
您目前是文章會員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報電話:400-106-1235
舉報郵箱:[email protected]