悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于內(nèi)在獎(jiǎng)勵(lì)的技能獲取和組合方法

  • 打印
  • 收藏
收藏成功


打開(kāi)文本圖片集

收稿日期:2022-04-04;修回日期:2022-06-01  基金項(xiàng)目:貴州省科學(xué)技術(shù)基金資助項(xiàng)目(黔科合基礎(chǔ)[2020]1Y275);貴州省科技計(jì)劃項(xiàng)目(黔科合基礎(chǔ)[2019]1130號(hào))

作者簡(jiǎn)介:趙英(1995-),女,貴州遵義人,碩士,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)([email protected]);秦進(jìn)(1978-),男,貴州黔西人,副教授,博士,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、智能計(jì)算.

摘 要:現(xiàn)有的內(nèi)在獎(jiǎng)勵(lì)隨著agent不斷探索環(huán)境而逐漸消失,導(dǎo)致了agent無(wú)法利用內(nèi)在獎(jiǎng)勵(lì)信號(hào)去指引agent尋找最優(yōu)策略。(剩余16392字)

目錄
monitor