悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

深度強(qiáng)化學(xué)習(xí)的通用插件研究綜述

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘要:深度強(qiáng)化學(xué)習(xí)的通用插件是一種可附加于大部分原生算法之上,并與其他種類插件兼容的算法類型。根據(jù)環(huán)境的不同,原生算法加入合適的插件后形成了不同的變體,并在訓(xùn)練速度、穩(wěn)定性等方面取得了更好的效果。根據(jù)各類變體包含的通用插件在訓(xùn)練流程中的共性,將它們分為了6類,包括通用網(wǎng)絡(luò)模型、內(nèi)在獎(jiǎng)勵(lì)、經(jīng)驗(yàn)回放、自我博弈、模仿學(xué)習(xí)和課程學(xué)習(xí)。(剩余21973字)

monitor