悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于綜合幾何關(guān)系稀疏自注意力機制的圖像標注方法研究

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘要:針對基于Transformer框架的圖像標注任務(wù)中提取視覺特征容易引入噪聲問題且為了進一步提高視覺的上下文信息,提出了一種基于綜合幾何關(guān)系稀疏自注意力機制的圖像標注方法。首先通過結(jié)合圖像區(qū)域的絕對位置、相對位置和空間包含關(guān)系提取詳細全面的視覺表示,獲取圖像中潛在的上下文信息;其次提出了注意力層權(quán)重矩陣的稀疏化方法,該方法解決了Transformer忽略圖像區(qū)域的局部性并引入噪聲信息的問題;最后,采用了強化學(xué)習(xí)方法作為指導(dǎo)策略,實現(xiàn)模型在句子級別優(yōu)化目標序列。(剩余14206字)

目錄
monitor