悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

圖像情景文本融合的多模態(tài)模型性能策略研究

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘  要:針對多模態(tài)模型中基于視覺區(qū)域特征提取方法表征能力有限的問題,文章提出了一種基于圖像情景文本融合的多模態(tài)特征提取方法,并構(gòu)建了圖像情景文本融合的視覺語言多模態(tài)網(wǎng)絡(luò)模型,簡稱OCR-ViLT,通過引入預(yù)訓(xùn)練加微調(diào)的遷移學(xué)習(xí)方案,降低模型訓(xùn)練成本。并經(jīng)過大量實驗探究模型的輸入策略,文章建議,在跨模態(tài)檢索任務(wù)中,采取圖文比例2:3能夠獲得最優(yōu)的召回率。(剩余6656字)

目錄
monitor