通过模仿模型权重评估样品实用程序以进行数据选择

基础模型经过大规模网络爬行数据集的培训,这些数据集通常包含噪声,偏见和无关的信息。这激发了数据选择技术的使用,这些技术可以分为无模型的变体 - 依靠启发式规则和下游数据集 - 以及基于模型的模型,例如使用影响功能。前者设计和冒险引入不必要的依赖性可能是昂贵的,而后者通常在计算上是过于刺激的。相反,我们建议使用MIMIC分数(一种利用…

来源:Apple机器学习研究

基础模型经过大规模网络爬行数据集的培训,这些数据集通常包含噪声,偏见和无关的信息。这激发了数据选择技术的使用,这些技术可以分为无模型的变体 - 依靠启发式规则和下游数据集 - 以及基于模型的模型,例如使用影响功能。前者设计和冒险引入不必要的依赖性可能是昂贵的,而后者通常在计算上是过于刺激的。取而代之的是,我们建议使用MIMIC分数(一种新的数据质量指标,它利用参考模型的权重评估单个样本来培训新模型的有用性),提出了一种有效的,基于模型的方法。它依赖于参考模型引起的梯度和目标方向之间的比对。使用派生的模拟分数,我们开发了Grad-Mimic,该框架优先考虑学习,创建有效的过滤器并自动化数据选择。从经验上讲,使用模拟分数指导训练可以提高数据效率,从而在六个图像数据集中获得一致的性能提高,并包括对剪辑模型的增强功能。此外,基于分数的过滤器可以改善现有的过滤方法,例如,削减470万个样品以训练更好的剪辑模型,同时提供准确的培训数据集质量估算。