融合全局語(yǔ)義的CLIP-GPT圖像描述模型

打印
收藏

收藏成功

微博 QQ空間微信

打開(kāi)文本圖片集

摘要：圖像描述是指為圖像自動(dòng)生成與其內(nèi)容相符的語(yǔ)言描述。橋接計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)領(lǐng)域的預(yù)訓(xùn)練模型構(gòu)建圖像描述模型時(shí)，跨模態(tài)語(yǔ)義一致性是共享子空間嵌入的核心問(wèn)題。本文將圖像拆分成若干片作為視覺(jué)語(yǔ)義單元與語(yǔ)言特征進(jìn)行自由的跨模態(tài)關(guān)聯(lián)，突破了有限視覺(jué)特征分類(lèi)的限制；聯(lián)合運(yùn)用掩碼學(xué)習(xí)和圖文特征匹配兩個(gè)損失函數(shù)，挑選高難度負(fù)樣本訓(xùn)練跨模態(tài)跳接網(wǎng)絡(luò)提取一致性全局語(yǔ)義，提高了子空間鄰域內(nèi)高相似度圖文特征點(diǎn)匹配的準(zhǔn)確度。（剩余17488字）

試讀結(jié)束

購(gòu)買(mǎi)全文6.00元下一篇基于特征與數(shù)據(jù)增強(qiáng)的城市街景實(shí)例分割算法

哈爾濱理工大學(xué)學(xué)報(bào)

2024年02期

￥9.00/本

悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

融合全局語(yǔ)義的CLIP-GPT圖像描述模型