基于end-to-end深度強(qiáng)化學(xué)習(xí)的多車場車輛路徑優(yōu)化

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：為提高多車場車輛路徑問題（multi-depot vehicle routing problem，MDVRP）的求解效率，提出了端到端的深度強(qiáng)化學(xué)習(xí)框架。首先，將MDVRP建模為馬爾可夫決策過程（Markov decision process，MDP），包括對其狀態(tài)、動作、收益的定義；同時，提出了改進(jìn)圖注意力網(wǎng)絡(luò)（graph attention network，GAT）作為編碼器對MDVRP的圖表示進(jìn)行特征嵌入編碼，設(shè)計了基于Transformer的解碼器；采用改進(jìn)REINFORCE算法來訓(xùn)練該模型，該模型不受圖的大小約束，即其一旦完成訓(xùn)練，就可用于求解任意車場和客戶數(shù)量的算例問題。（剩余21785字）

試讀結(jié)束

購買全文6.00元下一篇基于改進(jìn)HBA算法的生鮮閉環(huán)供應(yīng)鏈網(wǎng)絡(luò)魯棒優(yōu)化設(shè)計

計算機(jī)應(yīng)用研究

2022年10期

￥12.00/本

悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于end-to-end深度強(qiáng)化學(xué)習(xí)的多車場車輛路徑優(yōu)化