基于圖神經(jīng)網(wǎng)絡(luò)多模態(tài)融合的語音情感識別模型
打開文本圖片集
摘 要:目前,基于多模態(tài)融合的語音情感識別模型普遍存在無法充分利用多模態(tài)特征之間的共性和互補性、無法借助樣本特征間的拓撲結(jié)構(gòu)特性對樣本特征進行有效地優(yōu)化和聚合,以及模型復(fù)雜度過高的問題。為此,引入圖神經(jīng)網(wǎng)絡(luò),一方面在特征優(yōu)化階段,將經(jīng)過圖神經(jīng)網(wǎng)絡(luò)優(yōu)化后的文本特征作為共享表示重構(gòu)基于聲學(xué)特征的鄰接矩陣,使得在聲學(xué)特征的拓撲結(jié)構(gòu)特性中包含文本信息,達到多模態(tài)特征的融合效果;另一方面在標簽預(yù)測階段,借助圖神經(jīng)網(wǎng)絡(luò)充分聚合當(dāng)前節(jié)點的鄰接節(jié)點所包含的相似性信息對當(dāng)前節(jié)點特征進行全局優(yōu)化,以提升情感識別準確率。(剩余13857字)