您的综合数据通过了所有测试,但仍然破坏了您的模型

合成数据中的无声差距仅在您的模型已经投入生产时才会出现。您的合成数据通过了所有测试,但仍然破坏了您的模型,该帖子首先出现在《走向数据科学》上。

来源:走向数据科学

看起来很扎实。 KL 散度完全在可接受的范围内。在合成训练、真实测试 (TSTR) 测试中,该模型在合成数据训练和真实数据测试时达到了 91% 的准确率,略低于使用实际数据时获得的 93%,差异完全在团队为数据容差设定的范围内。此外,成员资格推断风险相对较低。合成数据集经认证可安全用于机器学习模型训练;真实数据被安全存储;并且模型已经过训练。

然而,三个月后,欺诈检测模型无法检测到之前检测到的交易类别,不仅性能下降,而且完全失败。一整组边缘情况行为已被有效地从模型的现实中删除。

在调查该问题后,团队发现合成数据没有技术错误。团队运行的所有指标都继续通过。

但问题是这些指标都没有真正衡量真正重要的事情。

三个指标框架及其为何会误导从业者

保真-实用-隐私三角已经成为综合数据质量评估的标准词汇,这是有充分理由的。它捕获了您真正想要实现的质量的三个方面:合成数据是否类似于真实数据(保真度);合成数据训练模型的行为是否与真实数据训练的模型类似(效用);合成数据是否保护数据来源个人的身份(隐私)?

框架本身是健全的。然而,这个框架的执行却出现了问题。

大多数从业者按顺序评估三个质量指标,将成功完成每个指标视为足以进行部署。由于三个相互关联的原因,这种方法存在缺陷,需要详细解释:

保真度

实用程序