悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于多模態(tài)數(shù)據(jù)融合的短視頻分類研究

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘要:文章通過對短視頻領(lǐng)域真實(shí)場景多模態(tài)的數(shù)據(jù)進(jìn)行分析研究,對短視頻中的標(biāo)題、音頻轉(zhuǎn)文本識別結(jié)果以及視頻OCR識別結(jié)果采用多種不同的拼接方式并展開消融實(shí)驗(yàn)。同時,對基線模型進(jìn)行改進(jìn),將文本特征和視頻特征分別在權(quán)重共享的Embedding和非權(quán)重共享的Embedding上將合并的文本模態(tài)特征和視頻模態(tài)特征一起傳入BERT網(wǎng)絡(luò)實(shí)現(xiàn)Early-Fusion。(剩余5189字)

目錄
monitor