详细内容或原文请订阅后点击阅览
通过强大数据处理不平等的数据记忆中的权衡取舍
最近的研究表明,培训大语言模型涉及大量培训数据的记忆。在敏感用户数据上培训培训时,这种记忆可能会导致侵犯隐私,从而激发了对数据记忆在学习中的作用的研究。在这项工作中,我们开发了一种通用方法来证明过度数据记忆的下限,该方法依赖于强烈的数据处理不平等和数据记忆之间的新联系。然后,我们证明了几个简单而自然的二进制分类问题在…
来源:Apple机器学习研究最近的研究表明,训练大型语言模型需要记忆大部分训练数据。在对敏感用户数据进行训练时,这种记忆可能会导致隐私侵犯,从而激发了对数据记忆在学习中的作用的研究。在这项工作中,我们开发了一种证明过量数据记忆下限的通用方法,该方法依赖于强数据处理不等式和数据记忆之间的新联系。然后,我们证明了几个简单且自然的二元分类问题在学习算法可用的样本数量与学习算法需要记住的训练数据信息量之间进行权衡。特别是,当 O(1)O(1)O(1) 个 ddd 维示例可用时,需要记住 Ω(d)\Omega(d)Ω(d) 位有关训练数据的信息,然后随着示例数量以特定于问题的速度增长而衰减。此外,我们的下限通常通过简单的学习算法进行匹配(最多为对数因子)。我们还将下限扩展到更一般的集群混合模型。我们的定义和结果建立在 Brown 等人 (2021) 的工作基础上,并解决了他们工作中下限的一些限制。
Ω(d)\Ω(d)Ω(d) Ω(d)\欧米茄(d)- ** 在 Apple 期间完成的工作† 魏茨曼科学研究所‡ 加州大学伯克利分校
