悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于CLIP的視頻時(shí)刻檢索預(yù)訓(xùn)練模型

  • 打印
  • 收藏
收藏成功


打開(kāi)文本圖片集

摘 要:視頻時(shí)刻檢索作為下游任務(wù),依賴預(yù)訓(xùn)練模型提取特征的能力。近年的研究表明,以CLIP為代表的圖像-語(yǔ)言預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)集下能學(xué)習(xí)到有效且通用的語(yǔ)義知識(shí),從而在圖像分類等任務(wù)上表現(xiàn)出強(qiáng)大的遷移能力和零樣本能力。然而其遷移到視頻時(shí)刻檢索任務(wù)仍效果不佳。為解決上述難題,提出了視頻時(shí)刻檢索網(wǎng)絡(luò)VMRNet,該網(wǎng)絡(luò)以CLIP預(yù)訓(xùn)練模型為骨干,并設(shè)計(jì)了用于增強(qiáng)CLIP模型時(shí)序建模能力和跨模態(tài)交互能力的視頻時(shí)序增強(qiáng)模塊VTEMo。(剩余20417字)

目錄
monitor