悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

一種基于動態(tài)時序劃分的視頻理解方法

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘要:近年來,隨著語言-視覺模型的快速發(fā)展,結(jié)合視覺編碼器和大語言模型進行視頻理解的方法極大超越了傳統(tǒng)的視頻行為分類模型。由于大語言模型可以很好地進行信息的歸納和推理,因此可以將視頻幀的特征輸入大語言模型,從而得到每一幀的場景描述,最終整理成一個視頻的詳細信息。盡管上述方法可以得到一個視頻非常詳盡的描述,但是卻忽略了視頻中不同場景的重要性,從而無法準確理解視頻中的關(guān)鍵信息。(剩余6318字)

目錄
monitor