详细内容或原文请订阅后点击阅览
动态语言理解:在参数和半参数模型中适应新知识
为了研究半参数 QA 模型及其底层参数语言模型 (LM) 如何适应不断发展的知识,我们构建了一个新的大型数据集 StreamingQA,其中包含在给定日期提出的人工编写和生成的问题,这些问题将从 14 年的带时间戳的新闻文章中得到解答。我们每季度对我们的模型进行评估,因为它们会阅读预训练中未见过的新文章。我们表明,参数模型可以在不进行完全重新训练的情况下进行更新,同时避免灾难性的遗忘。
来源:DeepMind - 新闻与博客语言模型 (LM) 的许多近期成功都是在“静态范式”内实现的,其重点是提高在不考虑数据时间方面的情况下创建的基准上的性能。例如,回答模型在训练期间可以了解的事件问题,或评估从与训练数据相同的时期抽样的文本。然而,我们的语言和知识是动态的,不断发展的。因此,为了更现实地评估问答模型以实现下一次性能飞跃,必须确保它们在遇到新的和看不见的数据时具有灵活性和鲁棒性。
2021 年,我们发布了《注意差距:评估神经语言模型中的时间泛化》以及 WMT 和 arXiv 的动态语言建模基准,以促进考虑时间动态的语言模型评估。在本文中,我们强调了当前最先进的大型 LM 在时间泛化方面面临的问题,并发现知识密集型 token 会受到相当大的性能影响。
注意差距:评估神经语言模型中的时间泛化 动态语言建模基准 StreamingQA:问答模型中随时间适应新知识的基准 StreamingQA StreamingQA 通过少量提示实现开放域问答的互联网增强语言模型