详细内容或原文请订阅后点击阅览
循环神经网络:在 Pytorch 中构建 GRU 单元 VS LSTM 单元
RNN 相对于 transformer 有哪些优势?何时使用 GRU 而不是 LSTM?GRU 的方程式到底是什么意思?如何在 Pytorch 中构建 GRU 单元?
来源:AI夏令营在上一篇文章中,我们全面介绍并检查了 LSTM 单元的各个方面。有人可能会认为 RNN 方法已经过时,研究它们毫无意义。确实,一种较新的方法类别 Transformers [5] 已经完全确定了自然语言处理领域。然而,深度学习从未停止让我感到惊讶,包括 RNN。也许有一天我们会看到巨大的回归。请记住,在以下情况下,与 Transformers 相比,RNN 仍然是最佳选择:
帖子- 序列长度太长。任务需要实时控制(机器人技术)或下一个时间步骤无法先验获得。没有庞大的数据集来利用 Transformers 的迁移学习能力。计算机视觉问题是弱监督的(动作识别)。是的。RNN 和联结主义时间分类 (CTC) 损失 [6] 仍然效果很好。
序列长度太长。
该任务需要实时控制(机器人)或下一个时间步无法先验获得。
没有庞大的数据集来利用 transformer 的迁移学习能力。
计算机视觉问题是弱监督的(动作识别)。 是的。 RNN 和连接主义时间分类 (CTC) 损失 [6] 仍然效果很好。
需要进一步了解 RNN 的其他原因包括混合模型。例如,我最近遇到了一个模型 [4],它结合了循环神经网络和 GAN,可以生成逼真的实值多维医疗数据系列。所以你永远不知道它们在哪里会派上用场。
GAN 基础知识需要掌握