注冊帳號丨忘記密碼?
1.點擊網(wǎng)站首頁右上角的“充值”按鈕可以為您的帳號充值
2.可選擇不同檔位的充值金額,充值后按篇按本計費
3.充值成功后即可購買網(wǎng)站上的任意文章或雜志的電子版
4.購買后文章、雜志可在個人中心的訂閱/零買找到
5.登陸后可閱讀免費專區(qū)的精彩內(nèi)容
打開文本圖片集
摘 要: 針對深度強化學(xué)習(xí)算法在部分可觀測環(huán)境中面臨的稀疏獎勵、信息缺失等問題,提出一種結(jié)合好奇心模塊與自模仿學(xué)習(xí)的近端策略優(yōu)化算法。該算法利用隨機網(wǎng)絡(luò)來生成探索過程中的經(jīng)驗樣本數(shù)據(jù),然后利用優(yōu)先經(jīng)驗回放技術(shù)選取高質(zhì)量樣本,通過自模仿學(xué)習(xí)對優(yōu)秀的序列軌跡進行模仿,并更新一個新的策略網(wǎng)絡(luò)用于指導(dǎo)探索行為。(剩余14457字)
登錄龍源期刊網(wǎng)
購買文章
基于內(nèi)在好奇心與自模仿學(xué)習(xí)的探索算法
文章價格:6.00元
當前余額:100.00
閱讀
您目前是文章會員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報電話:400-106-1235
舉報郵箱:[email protected]