我们没有发明注意力——我们只是重新发现了它

选择性放大如何通过收敛的数学解决方案在进化、化学和人工智能中出现我们没有发明注意力——我们只是重新发现了它,它首先出现在《走向数据科学》上。

来源:走向数据科学
,有人声称他们发明了革命性的人工智能架构。但是,当你看到相同的数学模式——选择性放大+归一化——独立于梯度下降、进化和化学反应而出现时,你就会意识到我们并没有发明变形金刚架构的注意力机制。我们重新发现了控制任何系统在能量约束下如何处理信息的基本优化原则。将注意力理解为放大而不是选择建议了具体的架构改进,并解释了当前方法为何有效。这里的八分钟为您提供了一个心理模型,可以指导未来十年更好的系统设计。

当 Vaswani 和同事在 2017 年发表《Attention Is All You Need》时,他们认为自己提出了一些革命性的建议 [1]。他们的变压器架构完全放弃了循环网络,而是依靠注意力机制来同时处理整个文本序列。数学核心很简单:计算位置之间的兼容性分数,将其转换为权重,并将其用于选择性的信息组合。

但是,只要信息处理系统在复杂性下面临资源限制,这种模式似乎就会独立出现。不是因为存在某种普遍的注意力法则,而是因为某些数学结构似乎代表了基本优化问题的收敛解。

我们可能正在研究一种罕见的案例,其中生物学、化学和人工智能已经聚合到类似的计算策略上——不是通过共享的机制,而是通过共享的数学约束。

五亿年的实验

但也许更有趣的是趋同进化。

这就提出了一个引人注目的问题:我们是否看到了基本计算约束的证据,这些约束控制着复杂系统在资源限制下必须如何处理信息?

线虫 放大 标准化 明显选择