减轻偏见以提高使用医疗数据进行预测风险建模的公平性:对长期 COVID 风险的分析

医疗保健预测风险模型中的算法偏差可能会加剧现有的健康不平等。我们的研究探讨了使用领先的偏差缓解方法提高公平性的方法,旨在为研究人员提供如何测试和提高算法公平性的指导。

来源:美国数学政策研究中心信息

背景

医疗保健预测风险模型中的算法偏差会加剧现有的健康不平等,因此,减轻偏差对于负责任的模型开发和实施至关重要。我们的研究使用领先的偏差缓解方法以及绩效和公平性衡量标准,研究了在单变量和多变量受保护属性中提高公平性的方法,旨在为研究人员提供如何测试和提高算法公平性的指导。我们使用长期 COVID 的预测风险模型进行分析,这是一个社会关注的重大领域,作为案例研究,以展示解决预测模型中偏差的有效策略。

数据来源

我们的研究使用了之前开发的长期 COVID 机器学习模型,该模型应用于来自国家 COVID 队列协作组织 (N3C) 的 123 万名参与者样本,这是一个来自美国 80 个站点的纵向 EHR 数据存储库,拥有超过 800 万名 COVID-19 患者。

之前开发的长期 COVID 机器学习模型 国家 COVID 队列协作 (N3C)

方法

我们通过比较应用偏差缓解技术之前和之后的性能和公平性指标,分析了性别、种族和民族等受保护属性的模型公平性。我们的评估重点关注三种领先的算法偏差缓解方法:重新加权、MAAT(通过对抗性训练缓解算法偏差)和 FairMask。分析包括单个和多个受保护属性,使用性能指标(AUROC [受试者工作特征曲线下面积] 和 PRAUC [精确召回曲线下面积])和常见的公平性指标(平等机会、预测平等和不同影响)。

发现

结论