Cram Less to Fit More: Training Data Pruning Improves Memorization of Facts
本文在 ICLR 2026 基础模型导航和解决数据问题研讨会上被接受。大型语言模型 (LLM) 可能很难记住其参数中的事实知识,通常会导致幻觉和在知识密集型任务中表现不佳。在本文中,我们从信息论的角度将事实记忆形式化,并研究训练数据分布如何影响事实准确性。我们表明,每当训练数据事实中包含的信息量超过模型时,事实准确性就不是最佳的(低于容量限制)......