减少数据偏差的原则性方法 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

减少数据偏差的原则性方法

2026年3月18日 09:26 33 Comments

比例尺和图表表情符号，由 OpenMoji (CC BY-SA 4.0) 通过 Streamline 提供。你怎么知道你的数据是否公平？如果不是，你能做什么呢？机器学习模型越来越多地用于做出高风险决策，从预测谁获得贷款到估计某人再次犯罪的可能性。但是[...]

来源:ΑΙhub

比例尺和图表表情符号，由 OpenMoji (CC BY-SA 4.0) viaStreamline 提供。

你怎么知道你的数据是否公平？如果不是，你能做什么呢？

机器学习模型越来越多地用于做出高风险决策，从预测谁获得贷款到估计某人再次犯罪的可能性。但这些模型的好坏取决于它们从 [Shahbazi 2023] 中学到的数据。如果训练数据存在偏差，模型的决策也可能存在偏差 [Hort 2024，Pagano 2023]。

然而，以适合手头任务的方式精确测量数据偏差，并通过正式保证纠正它，仍然是一个公开的挑战 [Hort 2024]。在这种情况下，敏感属性是指性别或种族等特征，它定义了我们希望保护免受歧视的人口群体，结果是分配给每个人的决定或标签，例如贷款是否获得批准。

在我们于 AIES 2025 上发表的论文《数据偏差缓解的原则性方法》中，我们介绍了统一偏差 (UB)（一种测量数据偏差的新方法）以及具有数学保证的缓解算法。 UB 之所以脱颖而出，是因为它是可解释的，自然地处理多个敏感属性和非二元结果，并直接支持可解释的缓解策略，使其成为机器学习 (ML) 公平性工具包的宝贵补充。

问题：有偏见的数据导致有偏见的决策

想象一家银行想要建立一个模型来预测某人是否会偿还贷款。按照机器学习的常见做法，银行的数据科学团队决定基于公开可用的数据集（在本例中为成人数据集 [Adult UCI]）训练模型。该数据集包含数千人的人口统计信息，包括每个人的年收入是否超过 50,000 美元。银行计划利用这个收入门槛来决定谁可以获得贷款。

但到底有多少偏见呢？以及有哪些方法可以纠正呢？

了解更多

标签：

工具包训练模型公开的属性数据可用的偏见个人的模型的 2023 纠正学习的缓解 UB 偏差 Hort 比例尺决策可能性决定数据偏差是否仍然是机器学习测量数据如果不贷款 2024 数据集保证的新方法银行获得