基于圖神經(jīng)網(wǎng)絡(luò)多模態(tài)融合的語音情感識別模型

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：目前，基于多模態(tài)融合的語音情感識別模型普遍存在無法充分利用多模態(tài)特征之間的共性和互補性、無法借助樣本特征間的拓撲結(jié)構(gòu)特性對樣本特征進行有效地優(yōu)化和聚合，以及模型復(fù)雜度過高的問題。為此，引入圖神經(jīng)網(wǎng)絡(luò)，一方面在特征優(yōu)化階段，將經(jīng)過圖神經(jīng)網(wǎng)絡(luò)優(yōu)化后的文本特征作為共享表示重構(gòu)基于聲學(xué)特征的鄰接矩陣，使得在聲學(xué)特征的拓撲結(jié)構(gòu)特性中包含文本信息，達到多模態(tài)特征的融合效果；另一方面在標簽預(yù)測階段，借助圖神經(jīng)網(wǎng)絡(luò)充分聚合當(dāng)前節(jié)點的鄰接節(jié)點所包含的相似性信息對當(dāng)前節(jié)點特征進行全局優(yōu)化，以提升情感識別準確率。（剩余13857字）

試讀結(jié)束

購買全文6.00元下一篇基于文本序列錯誤概率和中文拼寫錯誤概率融合的漢語糾錯算法

計算機應(yīng)用研究

2023年08期

￥12.00/本

悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于圖神經(jīng)網(wǎng)絡(luò)多模態(tài)融合的語音情感識別模型