您的综合数据通过了所有测试，但仍然破坏了您的模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

您的综合数据通过了所有测试，但仍然破坏了您的模型

2026年4月23日 13:30 33 Comments

合成数据中的无声差距仅在您的模型已经投入生产时才会出现。您的合成数据通过了所有测试，但仍然破坏了您的模型，该帖子首先出现在《走向数据科学》上。

来源:走向数据科学

看起来很扎实。 KL 散度完全在可接受的范围内。在合成训练、真实测试 (TSTR) 测试中，该模型在合成数据训练和真实数据测试时达到了 91% 的准确率，略低于使用实际数据时获得的 93%，差异完全在团队为数据容差设定的范围内。此外，成员资格推断风险相对较低。合成数据集经认证可安全用于机器学习模型训练；真实数据被安全存储；并且模型已经过训练。

然而，三个月后，欺诈检测模型无法检测到之前检测到的交易类别，不仅性能下降，而且完全失败。一整组边缘情况行为已被有效地从模型的现实中删除。

在调查该问题后，团队发现合成数据没有技术错误。团队运行的所有指标都继续通过。

但问题是这些指标都没有真正衡量真正重要的事情。

三个指标框架及其为何会误导从业者

保真-实用-隐私三角已经成为综合数据质量评估的标准词汇，这是有充分理由的。它捕获了您真正想要实现的质量的三个方面：合成数据是否类似于真实数据（保真度）；合成数据训练模型的行为是否与真实数据训练的模型类似（效用）；合成数据是否保护数据来源个人的身份（隐私）？

框架本身是健全的。然而，这个框架的执行却出现了问题。

大多数从业者按顺序评估三个质量指标，将成功完成每个指标视为足以进行部署。由于三个相互关联的原因，这种方法存在缺陷，需要详细解释：

保真度

实用程序

训练模型健全的关联的保真度重要的实用程序数据来源三个按顺序评估的数据从业者个人的模型的检测团队合成真实合成训练运行的指标接受的实际数据使用删除是否质量的框架机器学习相互关联数据集可接受的训练的模型问题质量

您的综合数据通过了所有测试，但仍然破坏了您的模型

三个指标框架及其为何会误导从业者

其他外部链接

Tags

XiaoMi-AI