GPT-3,深度学习和 NLP 的一大步

仅通过使用大量数据训练足够大的语言模型就能产生智能吗?OpenAI 尝试使用 1750 亿个参数来实现这一点。

来源:Another Datum

几天前,OpenAI 宣布了其语言模型 (LM) 的新继任者 - GPT-3。这是迄今为止训练的最大的模型,具有 1750 亿个参数。虽然训练这个大型模型有其优点,但阅读 72 页的大部分内容可能会令人厌烦。在这篇博文中,我将重点介绍我认为对熟悉 LM 的人来说有趣的部分,他们只是希望了解这项工作的(大部分)要点。

GPT-3

语言模型中有什么?

“模型在零样本设置中能够执行的任务的多样性表明,经过训练以最大化足够多样化的文本语料库的可能性的高容量模型开始学习如何在不需要明确监督的情况下执行大量任务”

“模型在零样本设置中能够执行的任务的多样性表明,经过训练以最大化足够多样化的文本语料库的可能性的高容量模型开始学习如何在不需要明确监督的情况下执行大量任务”

这是 GPT-2 随附论文的摘录。GPT-3 正在朝着这个方向迈出另一步。

GPT-2 随附论文

更具体地说,作者指出了使用特定于任务的数据集进行微调的缺点。

    获取这些数据集很困难。微调允许模型利用虚假相关性,这会导致糟糕的分布外性能。自然语言中的简短指令通常足以让人类理解给定的任务。这种适应性是 NLP 系统所需的属性。
  • 获取这些数据集很困难。
  • 获取这些数据集很困难。

  • 微调允许模型利用虚假相关性,这会导致糟糕的分布外性能。
  • 微调允许模型利用虚假相关性,这会导致糟糕的分布外性能。

  • 自然语言中的简短指令通常足以让人类理解给定的任务。这种适应性是 NLP 系统所需的属性。