基于內(nèi)在好奇心與自模仿學(xué)習(xí)的探索算法

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：針對深度強化學(xué)習(xí)算法在部分可觀測環(huán)境中面臨的稀疏獎勵、信息缺失等問題，提出一種結(jié)合好奇心模塊與自模仿學(xué)習(xí)的近端策略優(yōu)化算法。該算法利用隨機網(wǎng)絡(luò)來生成探索過程中的經(jīng)驗樣本數(shù)據(jù)，然后利用優(yōu)先經(jīng)驗回放技術(shù)選取高質(zhì)量樣本，通過自模仿學(xué)習(xí)對優(yōu)秀的序列軌跡進行模仿，并更新一個新的策略網(wǎng)絡(luò)用于指導(dǎo)探索行為。（剩余14457字）

試讀結(jié)束

購買全文6.00元下一篇基于注意力機制的跨境斷面水質(zhì)預(yù)測模型研究

現(xiàn)代電子技術(shù)

2024年16期

￥12.00/本

悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于內(nèi)在好奇心與自模仿學(xué)習(xí)的探索算法