悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于內(nèi)在好奇心與自模仿學(xué)習(xí)的探索算法

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘  要: 針對深度強化學(xué)習(xí)算法在部分可觀測環(huán)境中面臨的稀疏獎勵、信息缺失等問題,提出一種結(jié)合好奇心模塊與自模仿學(xué)習(xí)的近端策略優(yōu)化算法。該算法利用隨機網(wǎng)絡(luò)來生成探索過程中的經(jīng)驗樣本數(shù)據(jù),然后利用優(yōu)先經(jīng)驗回放技術(shù)選取高質(zhì)量樣本,通過自模仿學(xué)習(xí)對優(yōu)秀的序列軌跡進行模仿,并更新一個新的策略網(wǎng)絡(luò)用于指導(dǎo)探索行為。(剩余14457字)

monitor