详细内容或原文请订阅后点击阅览
用于信息融合的门控多模态单元
了解如何使用 GMU 块训练神经网络以使用来自多种不同模态的输入。
来源:Another Datum架构¶
¶给定两种不同模态的表示,$x_v$ 和 $x_t$(例如视觉和文本模态),GMU 块执行一种自我注意形式:
描述 GMU 的方程相对简单:
(1) $h_v = tanh(W_v \cdot x_v)$
(2) $h_t = tanh(W_t \cdot x_t)$
(3) $z = \sigma(W_z \cdot [x_v, x_t])$
(4) $h = z \cdot h_v + (1 - z) \cdot h_t$
(1) + (2) 将表示转换为不同的表示,然后根据 (3) 中计算出的 $z$ 在 (4) 中关注这些表示。由于 $z$ 是 $x_v$ 和 $x_t$ 的函数,这意味着我们正在处理自注意机制。
GMU 背后的直觉是它使用表示本身来理解哪些模态应该影响预测。考虑预测照片中人物的性别的任务,并附带他的声音录音。如果给定示例的录音太嘈杂,模型应该学习仅使用该示例中的图像。