详细内容或原文请订阅后点击阅览
发现机器学习模型的系统性错误
使用跨模态嵌入发现系统性错误在这篇博文中,我们介绍了 Domino,这是一种发现机器学习模型系统性错误的新方法。我们还讨论了定量评估 Domino 等方法的框架。链接:📄 论文(ICLR 2022)🌍 更长的演练💻 GitHub📘 文档📒 Google Colab 实现高总体准确率的机器学习模型通常会在连贯的验证数据切片上犯系统性错误。什么是切片?切片是一组具有共同特征的数据样本。例如,在大型图像数据集中,老式汽车的照片构成一个切片(即切片中的所有图像都有一个共同的主题)。术语切片有许多您可能更熟悉的同义词(例如子组、子群体、地层)。这些术语基本上可以互换,但在本文中我们将坚持使用“切片”。如果某个模型在某个切片上的数据样本表现明显低于其整体表现,那么我们就说该模型在某个切片上表现不佳。寻找表现不佳的切片是模型评估中一个关键但经常被忽视的部分。当从业者意识到他们的模型在哪些切片上表现不佳时,他们可以在模型部署方面做出更明智的决策。这在医学等安全至关重要的环境中尤为重要:在小患者身上表现不佳的诊断模型可能不应该部署在儿科医院。切片意识还可以帮助实践
来源:斯坦福人工智能实验室博客使用跨模式嵌入发现系统错误
在这篇博客文章中,我们介绍了Domino,这是一种发现机器学习模型犯下的系统错误的新方法。我们还讨论了一个定量评估诸如Domino的方法的框架。links:📄纸(ICLR 2022)🌍更长的演练github📘github📘docs📒Googlegoogle colab
在这篇博客文章中,我们介绍了Domino,这是一种发现机器学习模型犯下的系统错误的新方法。我们还讨论了用于定量评估Domino等定量评估方法的框架。
链接:📄纸(ICLR 2022)🌍更长的演练💻github📘文档google colab
纸(ICLR 2022) 更长的演练 github 文档 Google Colab实现高整体精度的机器学习模型通常会在验证数据的连贯切片上系统地错误。
什么是切片?切片是一组具有共同特征的数据样本。例如,在大图像数据集中,老式汽车的照片包括一个切片(即切片中的所有图像共享一个共同的主题)。该术语slice具有许多您可能更熟悉的同义词(例如亚组,子群,阶层)。这些术语在很大程度上是可以互换的,但是我们将在本文中坚持“切片”。我们说,如果在切片中的数据样本上的性能明显差于其整体性能,则模型在切片上的表现不佳。
例如 Sohoni等,2020 Sagawa等,2020部署在关键数据切片上表现不佳的模型可能会带来明显的安全性或公平后果。例如,已证明经过训练以检测胸部X射线崩溃的肺的模型已证明可以根据胸腔排水管的存在进行预测,这是一种通常在治疗期间使用的设备(Oakden-Rayner,2019年)。结果,这些模型通常无法检测到没有胸腔排水管的图像中崩溃的肺部,这是一个关键的数据切片,其中假阴性预测可能会危及生命。
( 奥克登 - 雷纳(Oakden-Rayner),2019年 )