悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

特別提示

1.點(diǎn)擊網(wǎng)站首頁右上角的“充值”按鈕可以為您的帳號充值

2.可選擇不同檔位的充值金額，充值后按篇按本計(jì)費(fèi)

3.充值成功后即可購買網(wǎng)站上的任意文章或雜志的電子版

4.購買后文章、雜志可在個(gè)人中心的訂閱/零買找到

5.登陸后可閱讀免費(fèi)專區(qū)的精彩內(nèi)容

基于相關(guān)熵誘導(dǎo)度量的近端策略優(yōu)化算法

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：在深度強(qiáng)化學(xué)習(xí)算法中，近端策略優(yōu)化算法PPO（Proximal Policy Optimization）在許多實(shí)驗(yàn)任務(wù)中表現(xiàn)優(yōu)異，但具有自適應(yīng)KL（Kullback-Leibler）散度的KL-PPO 由于其不對稱性而影響了KL-PPO 策略更新效率，為此，提出了一種基于相關(guān)熵誘導(dǎo)度量的近端策略優(yōu)化算法CIM-PPO （Correntropy Induced Metric-PPO）。（剩余6395字）

試讀結(jié)束

購買全文5.00元下一篇有線混合網(wǎng)絡(luò)數(shù)據(jù)傳輸擁塞優(yōu)化控制方法

吉林大學(xué)學(xué)報(bào)(信息科學(xué)版)

2023年03期

￥4.00/本

目錄

關(guān)于龍?jiān)?/strong> 關(guān)于我們聯(lián)系我們龍?jiān)创笫掠?/a> 誠聘英才用戶守則 購刊指南 電子刊購買流程會員介紹常見問題 客服中心 聯(lián)系客服開具發(fā)票 商務(wù)合作 商務(wù)合作 網(wǎng)絡(luò)信息舉報(bào)
違法和不良信息舉報(bào)電話：400-106-1235

舉報(bào)郵箱：[email protected]
網(wǎng)上有害信息舉報(bào)專區(qū) 支付方式 支付寶在線支付公司轉(zhuǎn)賬郵局匯款 特色服務(wù) 刊社入口友情鏈接

關(guān)注微信公眾號
獲取更多資訊

北京龍?jiān)淳W(wǎng)通電子商務(wù)有限公司

（署）網(wǎng)出證（京）字第188號丨京公網(wǎng)安備 11011302003690號丨京ICP備18053758號-2

monitor

感谢您访问我们的网站，您可能还对以下资源感兴趣：
悦月直播