简介 在讨论大型语言模型 (LLM) 时,一个核心问题是它们记忆训练数据的程度与它们如何推广到新任务和设置。大多数从业者似乎(至少非正式地)认为 LLM 在某种程度上两者都做到了:它们清楚地记住了部分训练数据——例如,它们通常能够逐字重现大量训练数据 [Carlini 等人,2023]——但它们似乎也从这些数据中学习,从而使它们能够推广到新设置。它们做这一件事或另一件事的确切程度对此类模型的实践和法律方面具有重大影响 [Cooper 等人,2023]。LLM 真的会产生新内容吗,还是只是重新混合了训练数据?对受版权保护的数据进行训练的行为应该被视为对数据的不公平使用,还是应该根据模型记忆的某种