悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于Transformer的圖像分類網(wǎng)絡MultiFormer

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘要:為解決目前ViT模型無法改變輸入補丁大小且輸入補丁都是單一尺度信息的缺點,提出了一種基于Transformer的圖像分類網(wǎng)絡MultiFormer。MultiFormer通過AWS(attention with scale)模塊,將每階段不同尺度輸入小補丁嵌入為具有豐富語義信息的大補?。煌ㄟ^GLA-P(global-local attention with patch)模塊交替捕獲局部和全局注意力,在嵌入的同時保留了細粒度和粗粒度特征。(剩余17559字)

目錄
monitor