一種基于動態(tài)時序劃分的視頻理解方法

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：近年來，隨著語言-視覺模型的快速發(fā)展，結(jié)合視覺編碼器和大語言模型進行視頻理解的方法極大超越了傳統(tǒng)的視頻行為分類模型。由于大語言模型可以很好地進行信息的歸納和推理，因此可以將視頻幀的特征輸入大語言模型，從而得到每一幀的場景描述，最終整理成一個視頻的詳細信息。盡管上述方法可以得到一個視頻非常詳盡的描述，但是卻忽略了視頻中不同場景的重要性，從而無法準確理解視頻中的關(guān)鍵信息。（剩余6318字）

試讀結(jié)束

購買全文5.00元下一篇基于UBCF算法在圖書館個性化資源推薦中的應(yīng)用研究

電腦知識與技術(shù)

2023年36期

￥21.00/本

悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

一種基于動態(tài)時序劃分的視頻理解方法