减少数据偏差的原则性方法

比例尺和图表表情符号,由 OpenMoji (CC BY-SA 4.0) 通过 Streamline 提供。你怎么知道你的数据是否公平?如果不是,你能做什么呢?机器学习模型越来越多地用于做出高风险决策,从预测谁获得贷款到估计某人再次犯罪的可能性。但是[...]

来源:ΑΙhub

比例尺和图表表情符号,由 OpenMoji (CC BY-SA 4.0) viaStreamline 提供。

你怎么知道你的数据是否公平?如果不是,你能做什么呢?

机器学习模型越来越多地用于做出高风险决策,从预测谁获得贷款到估计某人再次犯罪的可能性。但这些模型的好坏取决于它们从 [Shahbazi 2023] 中学到的数据。如果训练数据存在偏差,模型的决策也可能存在偏差 [Hort 2024,Pagano 2023]。

然而,以适合手头任务的方式精确测量数据偏差,并通过正式保证纠正它,仍然是一个公开的挑战 [Hort 2024]。在这种情况下,敏感属性是指性别或种族等特征,它定义了我们希望保护免受歧视的人口群体,结果是分配给每个人的决定或标签,例如贷款是否获得批准。

在我们于 AIES 2025 上发表的论文《数据偏差缓解的原则性方法》中,我们介绍了统一偏差 (UB)(一种测量数据偏差的新方法)以及具有数学保证的缓解算法。 UB 之所以脱颖而出,是因为它是可解释的,自然地处理多个敏感属性和非二元结果,并直接支持可解释的缓解策略,使其成为机器学习 (ML) 公平性工具包的宝贵补充。

问题:有偏见的数据导致有偏见的决策

想象一家银行想要建立一个模型来预测某人是否会偿还贷款。按照机器学习的常见做法,银行的数据科学团队决定基于公开可用的数据集(在本例中为成人数据集 [Adult UCI])训练模型。该数据集包含数千人的人口统计信息,包括每个人的年收入是否超过 50,000 美元。银行计划利用这个收入门槛来决定谁可以获得贷款。

但到底有多少偏见呢?以及有哪些方法可以纠正呢?

了解更多

标签: