获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
随着综合数据变得更高质量并在互联网上产生了生命,因此越来越多地培训了人类和机器生成数据的培训。尽管有合成数据代表学习的成功故事,但使用合成数据进行代码模型培训仍会创造“自我消耗循环”,这可能会导致训练不稳定甚至崩溃,除非满足某些条件。我们的论文旨在稳定自我消耗的复杂模型培训。我们的理论结果表明,通过引入理想化的控制函数,该功能将数据点映射在真实的数据分布下,可以使自消耗循环变得更加稳定。然后,我们提出依靠专家知识的自我纠正功能(例如模拟器中编程的物理定律),旨在自动和大规模近似理想化的校正器。我们从经验上验证了在具有挑战性的人类运动综合任务上自我纠正自我校正循环的有效性,并观察到它成功避免了模型崩溃,即使合成数据与真实数据的比率高达100%。