注冊帳號丨忘記密碼?
1.點擊網(wǎng)站首頁右上角的“充值”按鈕可以為您的帳號充值
2.可選擇不同檔位的充值金額,充值后按篇按本計費(fèi)
3.充值成功后即可購買網(wǎng)站上的任意文章或雜志的電子版
4.購買后文章、雜志可在個人中心的訂閱/零買找到
5.登陸后可閱讀免費(fèi)專區(qū)的精彩內(nèi)容
打開文本圖片集
摘 要: 現(xiàn)有分層強(qiáng)化學(xué)習(xí)方法不僅在學(xué)習(xí)過程中存在樣本效率低、獎勵稀疏以及學(xué)習(xí)時間過長等問題,而且大多基于仿真環(huán)境,導(dǎo)致學(xué)習(xí)策略在機(jī)器人真實操作環(huán)境中部署困難。針對上述問題,提出一種基于逆強(qiáng)化學(xué)習(xí)與行為樹的機(jī)械臂復(fù)雜操作技能學(xué)習(xí)方法。在對復(fù)雜操作任務(wù)進(jìn)行分割的基礎(chǔ)上,首先,根據(jù)專家演示軌跡確定分割后每個子任務(wù)的強(qiáng)化學(xué)習(xí)參數(shù)及其對應(yīng)的專家策略;其次,根據(jù)子任務(wù)專家策略并使用生成對抗模仿學(xué)習(xí)算法進(jìn)行預(yù)訓(xùn)練,得到每個子任務(wù)的獎勵函數(shù);再次,運(yùn)用每個子任務(wù)的獎勵函數(shù)并基于SAC算法做進(jìn)一步訓(xùn)練,獲取到每個子任務(wù)的最優(yōu)策略;最后,將子任務(wù)最優(yōu)策略從仿真環(huán)境部署到真實環(huán)境,并將部署后的每個子任務(wù)作為葉節(jié)點構(gòu)建行為樹,實現(xiàn)機(jī)械臂復(fù)雜任務(wù)規(guī)劃。(剩余11916字)
登錄龍源期刊網(wǎng)
購買文章
基于逆強(qiáng)化學(xué)習(xí)與行為樹的機(jī)械臂復(fù)雜操作技能學(xué)習(xí)方法
文章價格:6.00元
當(dāng)前余額:100.00
閱讀
您目前是文章會員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報電話:400-106-1235
舉報郵箱:[email protected]