手动深入研究 LSTM 和 xLSTM ✍️

深入研究 LSTM 和 xLSTM ✍️探索 LSTM 的智慧,从而引领 xLSTM — 可能与当今的 LLM 竞争作者图片(我 4 岁的孩子创造的古代巫师)“在 Serentia 的魔法王国中,古老的森林低语着早已被遗忘的咒语秘密,那里居住着 Enigmastrider — 一位受人尊敬的巫师,永恒智慧的守护者。在 Serentia 面临可怕危险的一个关键日子,Enigmastrider 使用精华石编织了一个神秘的仪式,充满了过去、现在和未来的精华。借助古老的魔法,他召唤出了 LSTM,这是一种知识管道,能够保存 Serentia 的历史并预见其命运。就像一条充满无限智慧的河流,LSTM 流淌着,超越了现在,揭示了地平线之外的事物。从他僻静的住所,Enigmastrider 观察到 Serentia 重生,上升到新的高度。他知道他的神秘智慧和不懈努力再次保护了这个魔法王国的遗产。”带着这个故事,我们开始深入探索最吸引人的循环神经网络之一——长短期记忆网络,俗称 LSTM。我们为什么要重新审视这个经典?因为随着语言建模中较长的上下文长度变得越来越重要,它们可能再次变得有用。LSTM 能再次超越 LLM 吗?不久前,奥地利的研究人员提出了一项有希望的计划,以重振 L 的失落荣耀

来源:走向数据科学

有了这个故事,我们开始深入研究最吸引人的循环神经网络之一——长短期记忆网络,俗称 LSTM。我们为什么要重温这个经典?因为随着语言建模中较长的上下文长度变得越来越重要,它们可能再次变得有用。

LSTM 能再次超越 LLM 吗?

不久前,奥地利的研究人员提出了一项有希望的举措,以重振 LSTM 失去的荣耀——让位于更先进的扩展长短期记忆,也称为 xLSTM。可以说,在 Transformers 之前,LSTM 曾是无数深度学习成功的王者。现在的问题是,在最大限度地发挥它们的能力并尽量减少缺点的情况下,它们能否与当今的 LLM 竞争?

要找到答案,让我们回顾一下过去,回顾一下 LSTM 是什么,以及是什么让它们如此特别:

长短期记忆网络最早由 Hochreiter 和 Schmidhuber 于 1997 年提出,旨在解决 RNN 面临的长期依赖问题。该论文被引用了大约 106518 次,难怪 LSTM 成为经典。

Hochreiter 和 Schmidhuber

LSTM 的关键思想是能够在任意时间间隔内学习何时记住和何时忘记相关信息。就像我们人类一样。我们不是从头开始每个想法,而是依靠更古老的信息,并且能够非常恰当地将点点滴滴联系起来。当然,在谈论 LSTM 时,就会出现一个问题——RNN 不是做同样的事情吗?

简短的回答是,是的,它们会。但是,两者之间有很大区别。RNN 架构不支持深入研究过去,只能追溯到最近的过去。这没什么帮助。

举个例子,让我们考虑一下约翰·济慈在《秋日》中写的这些诗句:

“雾气弥漫、果实丰硕的季节,

“雾气弥漫、果实丰硕的季节,

成熟太阳的密友;”

LSTM xLSTM Tom Yeh 教授

那么,我们开始吧: