基于CLIP的視頻時(shí)刻檢索預(yù)訓(xùn)練模型

打印
收藏

收藏成功

微博 QQ空間微信

打開(kāi)文本圖片集

摘要：視頻時(shí)刻檢索作為下游任務(wù)，依賴預(yù)訓(xùn)練模型提取特征的能力。近年的研究表明，以CLIP為代表的圖像-語(yǔ)言預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)集下能學(xué)習(xí)到有效且通用的語(yǔ)義知識(shí)，從而在圖像分類等任務(wù)上表現(xiàn)出強(qiáng)大的遷移能力和零樣本能力。然而其遷移到視頻時(shí)刻檢索任務(wù)仍效果不佳。為解決上述難題，提出了視頻時(shí)刻檢索網(wǎng)絡(luò)VMRNet，該網(wǎng)絡(luò)以CLIP預(yù)訓(xùn)練模型為骨干，并設(shè)計(jì)了用于增強(qiáng)CLIP模型時(shí)序建模能力和跨模態(tài)交互能力的視頻時(shí)序增強(qiáng)模塊VTEMo。（剩余20417字）

試讀結(jié)束

購(gòu)買(mǎi)全文6.00元下一篇基于多尺度視覺(jué)信息和非局部目標(biāo)挖掘的腫瘤分割

計(jì)算機(jī)應(yīng)用研究

2024年12期

￥12.00/本

悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于CLIP的視頻時(shí)刻檢索預(yù)訓(xùn)練模型