LaCy:小语言模型能够并且应该学习什么不仅仅是损失的问题

本文在 ICLR 基于 LLM 的代理系统内存研讨会上被接受。语言模型不断发展,将更多的世界知识压缩到其参数中,但可以预训练到其中的知识受到其参数大小的上限。特别是小语言模型(SLM)的容量是有限的,导致实际上不正确的生成。这个问题通常可以通过让 SLM 访问外部源来缓解:查询更大模型、文档或数据库的能力。在此背景下,我们研究的根本问题是……

来源:Apple机器学习研究

本文被 ICLR 基于 LLM 的代理系统内存研讨会接受。

语言模型不断发展,将更多的世界知识压缩到其参数中,但可以预训练到其中的知识受到其参数大小的上限。特别是小语言模型(SLM)的容量是有限的,导致实际上不正确的生成。这个问题通常可以通过让 SLM 访问外部源来缓解:查询更大模型、文档或数据库的能力。在此设置下,我们研究了 SLM 在预训练期间可以并且应该学习哪些令牌,以及应该通过 令牌委托哪些令牌的基本问题。我们发现这不仅仅是一个损失问题:虽然损失可以预测预测的标记是否与真实情况不匹配,但某些标记是可以接受的,因为它们是预训练文档的真实替代延续,即使它们的损失很高,也不应该触发。我们发现 spaCy 语法解析器可以帮助增强损失信号,以决定 SLM 应该学习委托哪些标记以防止事实错误,以及即使在高损失下也可以安全地学习和预测哪些标记。我们提出了 LaCy,一种基于这种令牌选择理念的新颖预训练方法。我们的实验表明,LaCy 模型成功地学习了要预测哪些令牌以及在何处委托寻求帮助。当使用更大的模型进行级联生成时,这会产生更高的 FactScore,并且性能优于 Rho 或 LLM 法官训练的 SLM,同时更简单、更便宜。

  • † 剑桥大学
  • ** 在 Apple 期间完成的工作