选择性分类可以放大群体之间的差异

选择性分类是一种在错误代价高昂的环境中部署模型的有效方法,即当模型对预测不确定时,允许它们“弃权”。例如,在医学领域,模型错误可能会产生生死攸关的后果,但弃权可以通过退到医生那里,然后由医生做出诊断来轻松处理。在从视觉 123 到 NLP 45 的一系列应用中,即使是简单的选择性分类器,仅依赖于模型逻辑,也会通过弃权而经常显著提高准确性。这使得选择性分类成为 ML 从业者 67 的有力工具。然而,在我们最近的 ICLR 论文中,我们发现,尽管选择性分类可以可靠地提高平均准确率,但它可能无法提高甚至损害某些数据子群体的准确率。作为一个激励人心的例子,考虑通过胸部 X 光片诊断胸腔积液或肺部积液的任务。胸腔积液通常用胸腔引流管治疗,因此许多胸腔积液病例也有胸腔引流管,而大多数没有胸腔积液的病例没有胸腔引流管 8。虽然选择性分类提高了这项任务的平均准确率,但我们发现它并没有明显提高数据中临床最相关的亚组或亚群的准确率:那些有胸腔积液但尚未进行胸腔引流的患者,即那些有胸腔积液但尚未接受治疗的患者。因此,从业者应该

来源:斯坦福人工智能实验室博客

选择性分类,其中允许模型在不确定预测时“弃权”,是在错误成本高昂的设置中部署模型的有用方法。例如,在医学中,模型错误可能会有生命或死亡的后果,但是可以通过备份给医生来轻松处理弃权,然后将其诊断为诊断。在视觉和NLP的一系列应用程序中,即使是简单的选择性分类器,仅依靠模型逻辑,通常会通过弃权来定期且通常会显着提高准确性。这使选择性分类成为ML从业者的引人注目的工具。

但是,在我们最近的ICLR论文中,我们发现,尽管可靠地提高了平均准确性,但选择性分类可能无法提高,甚至损害了数据的某些亚群体的准确性。作为一个激励的例子,请考虑诊断出胸部X射线诊断胸腔积液或肺部液体的任务。胸腔积液通常通过胸腔排水处理,因此许多胸腔积液病例也有胸腔排水,而大多数没有胸腔积液的病例没有胸腔排水。虽然选择性分类提高了此任务的平均准确性,但我们发现它并不能明显提高数据上最相关的亚组或数据亚群的准确性:那些具有胸腔积液但尚未胸部流失的人,即那些胸腔积液的人,但尚未得到治疗。因此,从业者应谨慎对待在野外使用选择性分类的这些潜在的故障模式。

选择性分类可能无法改善,甚至损害了数据
虚假相关设置的示例。该患者的胸腔积液(肺中的液体过多),但尚无胸腔排水。该模型依靠胸腔排水的存在来进行预测,错误地预测了负面。

选择性分类基础

信心 SoftMax响应 保证金