超越真实数据：正则化视角下的合成数据 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

超越真实数据：正则化视角下的合成数据

2026年3月30日 00:00 33 Comments

来源:Apple机器学习研究

当真实数据稀缺时，合成数据可以提高泛化能力，但过度依赖可能会导致分布不匹配，从而降低性能。在本文中，我们提出了一个学习理论框架来量化合成数据和真实数据之间的权衡。我们的方法利用算法稳定性来推导泛化误差范围，描述最佳合成与真实数据比率，以最小化预期测试误差作为真实分布和合成分布之间 Wasserstein 距离的函数。我们在混合数据的核岭回归设置中激发我们的框架，提供可能独立感兴趣的详细分析。我们的理论预测存在最佳比率，导致测试误差相对于合成数据的比例呈 U 形行为。根据经验，我们在 CIFAR-10 和临床脑 MRI 数据集上验证了这一预测。我们的理论扩展到领域适应的重要场景，表明仔细地将合成目标数据与有限的源数据混合可以减轻领域转移并增强泛化。最后，我们提供了将我们的结果应用于域内和域外场景的实用指导。

† 牛津大学

‡ 英国大数据研究所

领域比率理论框架提高分布独立测试误差标数据真实理论预测导致混合数据数据最佳数据集详细分析最小化合成误差范围适应的有限的仔细地稳定性激发目标数据场景可能根据低性能研究所泛化数据研究不匹配

超越真实数据：正则化视角下的合成数据

其他外部链接

Tags

XiaoMi-AI