详细内容或原文请订阅后点击阅览

用于信息融合的门控多模态单元

2023年10月8日 09:33 33 Comments

了解如何使用 GMU 块训练神经网络以使用来自多种不同模态的输入。

来源:Another Datum

架构¶

给定两种不同模态的表示，$x_v$ 和 $x_t$（例如视觉和文本模态），GMU 块执行一种自我注意形式：

描述 GMU 的方程相对简单：

(1) $h_v = tanh(W_v \cdot x_v)$

(2) $h_t = tanh(W_t \cdot x_t)$

(3) $z = \sigma(W_z \cdot [x_v, x_t])$

(4) $h = z \cdot h_v + (1 - z) \cdot h_t$

(1) + (2) 将表示转换为不同的表示，然后根据 (3) 中计算出的 $z$ 在 (4) 中关注这些表示。由于 $z$ 是 $x_v$ 和 $x_t$ 的函数，这意味着我们正在处理自注意机制。

GMU 背后的直觉是它使用表示本身来理解哪些模态应该影响预测。考虑预测照片中人物的性别的任务，并附带他的声音录音。如果给定示例的录音太嘈杂，模型应该学习仅使用该示例中的图像。

cdot 使用处理注意录音预测 sigma 示例 GMU 应该 tanh 不同的给定模态表示