注冊帳號丨忘記密碼?
1.點擊網(wǎng)站首頁右上角的“充值”按鈕可以為您的帳號充值
2.可選擇不同檔位的充值金額,充值后按篇按本計費
3.充值成功后即可購買網(wǎng)站上的任意文章或雜志的電子版
4.購買后文章、雜志可在個人中心的訂閱/零買找到
5.登陸后可閱讀免費專區(qū)的精彩內(nèi)容
打開文本圖片集
摘要:近年來,隨著語言-視覺模型的快速發(fā)展,結(jié)合視覺編碼器和大語言模型進行視頻理解的方法極大超越了傳統(tǒng)的視頻行為分類模型。由于大語言模型可以很好地進行信息的歸納和推理,因此可以將視頻幀的特征輸入大語言模型,從而得到每一幀的場景描述,最終整理成一個視頻的詳細信息。盡管上述方法可以得到一個視頻非常詳盡的描述,但是卻忽略了視頻中不同場景的重要性,從而無法準確理解視頻中的關(guān)鍵信息。(剩余6318字)
登錄龍源期刊網(wǎng)
購買文章
一種基于動態(tài)時序劃分的視頻理解方法
文章價格:5.00元
當前余額:100.00
閱讀
您目前是文章會員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報電話:400-106-1235
舉報郵箱:[email protected]