背景:人工智能中的偏见引起了人们的关注,算法表现不平等在整个刑事司法,教育和福利服务领域都被暴露出来。在医疗保健中,跨人群群体的算法不平等的性能可能会扩大健康不平等。 目的:在这里,我们识别和表征心脏病学算法中的偏见,专门研究用于管理心力衰竭的算法。 方法:第1阶段涉及与心脏机器学习(ML)算法有关的PubMed和Web Science的文献搜索。 评估了建立ML模型以预测心脏病的论文,以评估其对模型性能中人口偏见的关注,并保留了开源数据集以进行调查。 确定了两个开源数据集:(1)加利福尼亚大学尔湾分校心力衰竭数据集和(2)加利福尼亚大学欧文分校冠状动脉疾病数据集。 我们复制了已报告这些数据集的现有算法,对它们进行了对算法性能的性偏见进行了测试,并评估了一系列补救技术,以减少不平等的功效。 由于诊断不足和缺失的治疗机会的临床意义,特别注意假阴性率(FNR)。 结果:在第1阶段,我们的文献搜索返回了127篇论文,有60条符合完整审查的标准,只有3篇论文强调了算法性能的性别差异。 在报告性别的论文中,数据集中女性患者的代表性不足。在医疗保健中,跨人群群体的算法不平等的性能可能会扩大健康不平等。目的:在这里,我们识别和表征心脏病学算法中的偏见,专门研究用于管理心力衰竭的算法。方法:第1阶段涉及与心脏机器学习(ML)算法有关的PubMed和Web Science的文献搜索。评估了建立ML模型以预测心脏病的论文,以评估其对模型性能中人口偏见的关注,并保留了开源数据集以进行调查。确定了两个开源数据集:(1)加利福尼亚大学尔湾分校心力衰竭数据集和(2)加利福尼亚大学欧文分校冠状动脉疾病数据集。我们复制了已报告这些数据集的现有算法,对它们进行了对算法性能的性偏见进行了测试,并评估了一系列补救技术,以减少不平等的功效。由于诊断不足和缺失的治疗机会的临床意义,特别注意假阴性率(FNR)。结果:在第1阶段,我们的文献搜索返回了127篇论文,有60条符合完整审查的标准,只有3篇论文强调了算法性能的性别差异。在报告性别的论文中,数据集中女性患者的代表性不足。没有论文调查种族或种族差异。在第2阶段,我们重现了文献中报道的算法,对于数据集为1和85.72%(随机森林模型)的数据集为1和85.72%(SD 1.75%)的平均精度为84.24%(SD 3.51%)。对于数据集1,在16个实验中,女性患者的FNR明显更高,达到了统计显着性的阈值(–17.81%至–3.37%; p <.05)。 在16个实验中,有13例男性患者(–0.48%至 +9.77%; p <.05)中的男性患者的假阳性差异很小。 我们观察到男性患者疾病的过度预测(较高的假阳性率)和女性患者疾病的预测不足(较高的FNR)。 性质重要性的性别差异表明,特征选择需要根据人口统计学量身定制。 结论:我们的研究暴露了心脏ML研究中的显着差距,强调,女性患者的算法不良表现不佳在已发表的文献中被忽略了。 我们的研究量化了算法性能中的性别差异,并探讨了几种偏见来源。 我们发现,在用于训练算法,确定模型错误率中的性别偏见的数据集中,女性患者的人数不足,并证明了一系列补救技术无法解决存在的不平等现象。对于数据集1,在16个实验中,女性患者的FNR明显更高,达到了统计显着性的阈值(–17.81%至–3.37%; p <.05)。在16个实验中,有13例男性患者(–0.48%至 +9.77%; p <.05)中的男性患者的假阳性差异很小。我们观察到男性患者疾病的过度预测(较高的假阳性率)和女性患者疾病的预测不足(较高的FNR)。性质重要性的性别差异表明,特征选择需要根据人口统计学量身定制。结论:我们的研究暴露了心脏ML研究中的显着差距,强调,女性患者的算法不良表现不佳在已发表的文献中被忽略了。我们的研究量化了算法性能中的性别差异,并探讨了几种偏见来源。我们发现,在用于训练算法,确定模型错误率中的性别偏见的数据集中,女性患者的人数不足,并证明了一系列补救技术无法解决存在的不平等现象。