通过自回归模型适应的扩散语言模型

扩散语言模型(DLM)已成为文本生成建模的有希望的新范式,有可能解决自回归(AR)模型的局限性。但是,与AR同行相比,当前的DLM的规模较小,并且缺乏对语言建模基准测试的公平比较。此外,从头开始的训练扩散模型仍然具有挑战性。鉴于开源AR语言模型的流行率,我们建议适应这些模型来构建文本扩散模型。我们演示了AR和扩散建模目标之间的联系以及…

来源:Apple机器学习研究

扩散语言模型(DLM)已成为文本生成建模的有希望的新范式,有可能解决自回归(AR)模型的局限性。但是,与AR同行相比,当前的DLM的规模较小,并且缺乏对语言建模基准测试的公平比较。此外,从头开始的训练扩散模型仍然具有挑战性。鉴于开源AR语言模型的流行率,我们建议适应这些模型来构建文本扩散模型。我们展示了AR与扩散建模目标之间的联系,并为训练扩散模型引入了一种简单的持续训练方法。通过对语言建模,推理和常识基准的系统评估,我们表明我们可以使用小于200B代币进行训练,将AR模型从12700万参数(GPT2和Llama)转换为扩散模型扩散和Diffullama。我们的实验结果表明,这些模型的表现优于较早的DLM,并且与AR对应物具有竞争力。我们发布了一套DLM(127m-355m-7b)的套件,能够生成流利的文本,执行内部文本学习,中间填充而无需迅速重新排序以及以下说明。

†香港大学‡伊利诺伊大学Urbana-Champaign§腾讯AI实验室

†香港大学 ‡伊利诺伊大学Urbana-Champaign §腾讯AI实验室