详细内容或原文请订阅后点击阅览
开始思考 AI 公平性
人工智能公平性指标这一主题对社会来说既重要又令人困惑。造成混乱的原因有很多:术语泛滥、公式丰富,最后同样重要的是,其他人似乎都知道他们在说什么。本文希望从对比两种基本立场的常识性方法出发,消除部分混乱:一方面,假设数据集特征可以被视为反映 ML 从业者感兴趣的基本概念;另一方面,概念和测量之间不可避免地存在差距,这种差距可能更大或更小,具体取决于测量的内容。在对比这些基本观点时,我们汇集了机器学习、法律科学和政治哲学的概念。
来源:RStudio AI博客如果您使用深度学习进行梵语的无监督词性标注,或物理学中的知识发现,那么您可能无需担心模型公平性。但是,如果您是一名数据科学家,在对人做出决策的地方工作,或者是一名研究将用于此类目的的模型的学者,那么您可能已经在考虑这个话题了。——或者觉得您应该考虑。而思考这个问题很难。
人这很难,原因有几个。在本文中,我将仅讨论其中之一。
只有一个只见树木不见森林
如今,很难找到不包含评估公平性的功能的建模框架。 (或者至少计划这么做。)而且这些术语听起来也很熟悉:“校准”、“预测奇偶性”、“相等真假阳性率”……我们似乎只需采用我们所使用的指标(例如召回率或精确度),测试各组之间的平等性,就行了。让我们假设一下,它真的就是这么简单。那么问题仍然是:我们到底选择哪些指标?
不是事实上,事情并不简单。而且情况会变得更糟。出于非常充分的理由,ML 公平性文献与其他学科(例如法律科学)中主要处理的概念有着密切的联系:歧视和不同影响(两者都与另一个统计概念统计均等性相差不远)。统计均等性意味着,如果我们有一个分类器,比如说决定雇用谁,它应该导致来自弱势群体(例如黑人)的申请人与来自优势群体的申请人一样多。但这与平等的真/假阳性率的要求完全不同!
不是 歧视 不同影响 统计均等性因此,尽管有那么多丰富的软件、指南和决策树,但:这不是一个简单的技术决策。事实上,它只是在很小程度上是一个技术决策。
常识,不是数学
“指导”页面 是 \(\hat{Y}\) \(Y\) 做.