基于知識蒸餾的視頻描述輕量化模型及性能優(yōu)化
打開文本圖片集
關(guān)鍵詞:視頻描述生成;模型壓縮;輕量化;知識蒸餾;預(yù)訓(xùn)練模型
中圖分類號:TP391. 1 文獻標志碼:A 開放科學(資源服務(wù))標識碼(OSID):
文章編號:1003-3106(2024)11-2547-11
0引言
視頻描述生成是計算機視覺和自然語言處理中一項具有挑戰(zhàn)性的任務(wù),旨在生成給定視頻內(nèi)容的文本描述[1-3],能為視覺受損或聽力受損的人士提供無障礙服務(wù)、自動化內(nèi)容審查系統(tǒng)識別不當或違規(guī)內(nèi)容、為非母語觀眾自動生成字幕描述等[4]。(剩余9428字)