一家初创公司声称它突破了阻碍 LLM 的瓶颈

总部位于迈阿密的人工智能初创公司 Subquadratic 上个月走出了隐秘模式,带来了巨大的收益。它宣布它已经解决了近十年来阻碍大型语言模型的数学瓶颈。细节很薄弱,很多人不相信。但 Subquadratic 已经开始带来收据,分享......

来源:MIT Technology Review _人工智能

SubQ 不会全面取代现有的顶级模型,但它可以以特定任务典型成本的一小部分来大幅提高速度。 Subquadratic 坚称,从长远来看,它的突破可能会改变法学硕士的构建方式。 “我们希望开启一个高效的新时代,”该公司联合创始人兼首席执行官贾斯汀·丹格尔 (Justin Dangel) 表示。 “我们认为几年内没有人会在 Transformer 上进行开发。”

注意!

要了解为什么 Subquadratic 的主张很重要,让我们深入研究一下大多数法学硕士的工作方式。 LLM 内部的关键机制是一种称为 Transformer 的神经网络,它运行一个称为密​​集注意力的过程。如今的法学硕士通常将多个变压器链接在一起。 (谷歌研究人员于 2017 年发表的 LLM 时代的基础论文,标题为“Attention Is All You Need”。)

密集注意力的工作原理如下:当 Transformer 处理一段文本时,它首先用数字对每个单词(或单词的一部分,称为标记)进行编码。为了捕获全文的含义,它将每个数字与该文本的其他每个数字相乘。例如,一段 10,000 个单词长的文本将启动近 5000 万次单独的乘法运算。这是大量的计算,也是法学硕士臭名昭著的耗电大户的主要原因。

“如果你想总结《了不起的盖茨比》,你必须一起看第一个词和最后一个词,然后你必须看其他所有组合,”Dangel 说。

随着文本长度的增加,计算量猛增。这是因为每个附加数字都必须乘以所有其他先前的数字。单词数量增加一倍,计算量大约增加四倍,这种增长率称为二次展开。

削减成本