综合引导预训练

我们介绍了合成引导预训练(SBP),这是一种语言模型(LM)预训练过程,它首先从预训练数据集中学习文档之间的关系模型,然后利用它来合成一个巨大的新语料库以进行联合训练。虽然标准预训练教会 LM 学习单个文档中标记之间的因果相关性,但它并不是为了有效地建模丰富的、可学习的文档间相关性而设计的,而这种相关性可能会带来更好的性能。我们通过设计计算匹配的预训练设置并预训练 3B 参数来验证 SBP……

来源:Apple机器学习研究

我们介绍了合成引导预训练(SBP),这是一种语言模型(LM)预训练过程,它首先从预训练数据集中学习文档之间的关系模型,然后利用它来合成一个巨大的新语料库以进行联合训练。虽然标准预训练教会 LM 学习单个文档中标记之间的因果相关性,但它并不是为了有效地建模丰富的、可学习的文档间相关性而设计的,而这种相关性可能会带来更好的性能。我们通过设计计算匹配的预训练设置来验证 SBP,并从头开始在最多 1T 代币上预训练 3B 参数和 6B 参数模型。我们发现 SBP 在强重复基线的基础上持续改进,通过访问 20 倍以上的独特数据,Oracle 上限可实现高达 60% 的性能改进。定性分析表明,合成的文档不仅仅是释义——SBP 首先从种子材料中抽象出一个核心概念,然后在其基础上编写一个新的叙述。除了强大的实证性能之外,SBP 还承认自然的贝叶斯解释:合成器隐式地学习抽象相关文档之间共享的潜在概念。

  • † 斯坦福大学
  • ‡ 平等贡献