扩散在数据约束设置中击败自动回归

查看我们关于“数据受限设置中扩散击败自回归”的新博客文章。无限互联网数据的时代正在结束。这篇研究论文提出了这样的问题:当数据(而非计算)成为瓶颈时,正确的生成建模目标是什么?

来源:ΑΙhub

作者:米希尔·普拉布德赛

米希尔·帕布德赛

TLDR:

TLDR

如果计算受限,请使用自回归模型;如果数据有限,请使用扩散模型。

动机

过去十年人工智能的进步很大程度上是由扩展计算和数据驱动的。从 GPT-1 到 GPT-5 的秘诀似乎很简单:在更多数据上训练更大的模型,结果是一个功能更强大的系统。

龙猫纸的缩放图
龙猫纸

然而,一个核心问题仍然存在:从 GPT-6 到 GPT-N,这个方法是否会继续有效?

许多分析师和研究人员认为答案是否定的。例如,Ilya Sutskever 在他的 NeurIPS 2024 年测试奖演讲中表示:“计算正在增长——更好的算法、更好的硬件、更大的集群——但数据却没有增长。我们只有一个互联网,即人工智能的化石燃料。”

谈话

这种担忧得到了人工智能预测者的呼应,他们更系统地分析了计算和数据增长,并得出结论:计算正在以更快的速度超过数据。

Epoch AI 的研究推断了互联网数据(数据存量)、数据集使用(数据集大小预测)和计算(以 Chinchilla 最佳代币衡量)的增长率。到 2028 年左右,计算量将超过互联网上可用的训练数据总量,标志着数据受限状态的开始。我通过在他们的论文中叠加图 4 和图 5 来更新该图。
Epoch AI

上图通过叠加 EpochAI 分析的预测来说明这种紧张局势。他们的研究推断了计算、数据集使用和互联网规模数据可用性的历史趋势。预测表明,到 2028 年左右,我们将进入数据受限的状态:可用的计算量将远远多于可供使用的训练代币。

分析

本文通过以下问题解决了这一挑战:我们如何以更多的计算换取更少的数据?我们的中心思想是重新审视现代生成模型的基础,并比较扩展人工智能的两种主要范式。

GPT-2 DDPM D3PM 部分 数据