详细内容或原文请订阅后点击阅览
超越真实数据:正则化视角下的合成数据
当真实数据稀缺时,合成数据可以提高泛化能力,但过度依赖可能会导致分布不匹配,从而降低性能。在本文中,我们提出了一个学习理论框架来量化合成数据和真实数据之间的权衡。我们的方法利用算法稳定性来推导泛化误差范围,描述最佳合成与真实数据比率,以最小化预期测试误差作为真实分布和合成分布之间 Wasserstein 距离的函数。我们在内核脊的设置中激发我们的框架......
来源:Apple机器学习研究当真实数据稀缺时,合成数据可以提高泛化能力,但过度依赖可能会导致分布不匹配,从而降低性能。在本文中,我们提出了一个学习理论框架来量化合成数据和真实数据之间的权衡。我们的方法利用算法稳定性来推导泛化误差范围,描述最佳合成与真实数据比率,以最小化预期测试误差作为真实分布和合成分布之间 Wasserstein 距离的函数。我们在混合数据的核岭回归设置中激发我们的框架,提供可能独立感兴趣的详细分析。我们的理论预测存在最佳比率,导致测试误差相对于合成数据的比例呈 U 形行为。根据经验,我们在 CIFAR-10 和临床脑 MRI 数据集上验证了这一预测。我们的理论扩展到领域适应的重要场景,表明仔细地将合成目标数据与有限的源数据混合可以减轻领域转移并增强泛化。最后,我们提供了将我们的结果应用于域内和域外场景的实用指导。
