圖像情景文本融合的多模態(tài)模型性能策略研究

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：針對多模態(tài)模型中基于視覺區(qū)域特征提取方法表征能力有限的問題，文章提出了一種基于圖像情景文本融合的多模態(tài)特征提取方法，并構(gòu)建了圖像情景文本融合的視覺語言多模態(tài)網(wǎng)絡(luò)模型，簡稱OCR-ViLT，通過引入預(yù)訓(xùn)練加微調(diào)的遷移學(xué)習(xí)方案，降低模型訓(xùn)練成本。并經(jīng)過大量實驗探究模型的輸入策略，文章建議，在跨模態(tài)檢索任務(wù)中，采取圖文比例2：3能夠獲得最優(yōu)的召回率。（剩余6656字）

試讀結(jié)束

購買全文5.00元下一篇基于改進(jìn)FCM算法的乳腺腫瘤圖像分割研究

現(xiàn)代信息科技

2023年09期

￥18.00/本

悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

圖像情景文本融合的多模態(tài)模型性能策略研究