悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于CLIP 的多模態(tài)視頻文本檢索系統(tǒng)

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘 要:計算機視覺(Computer Vision,CV)與自然語言處理(Natural Language Processing,NLP)技術(shù)已逐漸趨于成熟,結(jié)合視覺和語言的多模態(tài)領(lǐng)域技術(shù)將成為學界和業(yè)界的研究熱點。文章使用CLIP 預訓練模型,結(jié)合圖像與語言兩種模態(tài)信息,進一步將圖像拓展至視頻,利用 Fmpeg 處理視頻,并對視頻與文本信息進行嵌入(embedding)和余弦相似度匹配,從而實現(xiàn)利用純文本檢索視頻中符合該文本語義的片段。(剩余3260字)

目錄
monitor