少死记硬背：训练数据修剪提高事实记忆 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

少死记硬背：训练数据修剪提高事实记忆

2026年4月13日 00:00 33 Comments

本文在 ICLR 2026 基础模型导航和解决数据问题研讨会上被接受。大型语言模型 (LLM) 可能很难记住其参数中的事实知识，通常会导致幻觉和在知识密集型任务中表现不佳。在本文中，我们从信息论的角度将事实记忆形式化，并研究训练数据分布如何影响事实准确性。我们表明，每当训练数据事实中包含的信息量超过模型时，事实准确性就不是最佳的（低于容量限制）......

来源:Apple机器学习研究

本文已被 ICLR 2026 基础模型导航和解决数据问题研讨会接受。

大型语言模型 (LLM) 可能很难记住其参数中的事实知识，通常会导致幻觉和在知识密集型任务中表现不佳。在本文中，我们从信息论的角度将事实记忆形式化，并研究训练数据分布如何影响事实准确性。我们表明，每当训练数据事实中包含的信息量超过模型容量时，事实准确性就不是最佳的（低于容量限制）。当事实频率分布倾斜时（例如幂律），这种情况会进一步加剧。我们提出仅基于训练损失的数据选择方案，旨在限制训练数据中的事实数量并平坦化它们的频率分布。在包含高熵事实的半合成数据集上，我们的选择方法有效地将事实准确性提高到容量限制。当在带注释的维基百科语料库上从头开始预训练语言模型时，我们的选择方法使 GPT2-Small 模型（110m 参数）能够比标准训练记住多 1.3 倍的实体事实，与在完整数据集上预训练的 10 倍大模型（1.3B 参数）的性能相匹配。

数据集损失的最佳的训练的信息量注释的标准训练选择提高模型限制语料库 1.3 知识准确性事实训练研讨会容量参数频率分布数据信息论

少死记硬背：训练数据修剪提高事实记忆

其他外部链接

Tags

XiaoMi-AI