用于信息融合的门控多模态单元

了解如何使用 GMU 块训练神经网络以使用来自多种不同模态的输入。

来源:Another Datum

架构¶

给定两种不同模态的表示,$x_v$ 和 $x_t$(例如视觉和文本模态),GMU 块执行一种自我注意形式:

描述 GMU 的方程相对简单:

(1)   $h_v = tanh(W_v \cdot x_v)$

(2)   $h_t = tanh(W_t \cdot x_t)$

(3)   $z = \sigma(W_z \cdot [x_v, x_t])$

(4)   $h = z \cdot h_v + (1 - z) \cdot h_t$

(1) + (2) 将表示转换为不同的表示,然后根据 (3) 中计算出的 $z$ 在 (4) 中关注这些表示。由于 $z$ 是 $x_v$ 和 $x_t$ 的函数,这意味着我们正在处理自注意机制。

GMU 背后的直觉是它使用表示本身来理解哪些模态应该影响预测。考虑预测照片中人物的性别的任务,并附带他的声音录音。如果给定示例的录音太嘈杂,模型应该学习仅使用该示例中的图像。