摘要 — 我们分析了自然语言处理和计算机视觉机器学习中使用的数据集大小的增长,并使用两种方法进行推断;使用历史增长率和估算未来预测计算预算的计算最佳数据集大小。我们通过估算未来几十年互联网上可用的未标记数据的总存量来研究数据使用量的增长。我们的分析表明,高质量语言数据将很快耗尽;可能在 2026 年之前。相比之下,低质量语言数据和图像数据的存量要晚得多才会耗尽;2030 年至 2050 年之间(低质量语言)和 2030 年至 2060 年之间(图像)。我们的研究表明,如果数据效率没有大幅提高或没有新的数据源可用,依赖海量数据集的 ML 模型不断增长的当前趋势可能会放缓。
主要关键词