少死记硬背:训练数据修剪提高事实记忆

本文在 ICLR 2026 基础模型导航和解决数据问题研讨会上被接受。大型语言模型 (LLM) 可能很难记住其参数中的事实知识,通常会导致幻觉和在知识密集型任务中表现不佳。在本文中,我们从信息论的角度将事实记忆形式化,并研究训练数据分布如何影响事实准确性。我们表明,每当训练数据事实中包含的信息量超过模型时,事实准确性就不是最佳的(低于容量限制)......

来源:Apple机器学习研究

本文已被 ICLR 2026 基础模型导航和解决数据问题研讨会接受。

大型语言模型 (LLM) 可能很难记住其参数中的事实知识,通常会导致幻觉和在知识密集型任务中表现不佳。在本文中,我们从信息论的角度将事实记忆形式化,并研究训练数据分布如何影响事实准确性。我们表明,每当训练数据事实中包含的信息量超过模型容量时,事实准确性就不是最佳的(低于容量限制)。当事实频率分布倾斜时(例如幂律),这种情况会进一步加剧。我们提出仅基于训练损失的数据选择方案,旨在限制训练数据中的事实数量并平坦化它们的频率分布。在包含高熵事实的半合成数据集上,我们的选择方法有效地将事实准确性提高到容量限制。当在带注释的维基百科语料库上从头开始预训练语言模型时,我们的选择方法使 GPT2-Small 模型(110m 参数)能够比标准训练记住多 1.3 倍的实体事实,与在完整数据集上预训练的 10 倍大模型(1.3B 参数)的性能相匹配。