详细内容或原文请订阅后点击阅览
为什么超越过度聚合的机器学习指标至关重要
新研究发现了错误相关性的隐藏证据,并提供了一种提高准确性的方法。
来源:MIT新闻 - 人工智能麻省理工学院的研究人员发现了机器学习模型失败的重要例子,当这些模型应用于训练数据之外的数据时,这就提出了每当模型部署在新环境中时是否需要进行测试的问题。
麻省理工学院电气工程与计算机科学 (EECS) 系副教授、医学工程与科学研究所成员、信息与决策系统实验室首席研究员 Marzyeh Ghassemi 表示,“我们证明,即使你在大量数据上训练模型并选择最佳平均模型,在新的环境中,对于 6-75% 的新数据来说,这个‘最佳模型’也可能是最差的模型。”
在 12 月的神经信息处理系统 (NeurIPS 2025) 会议上发表的一篇论文中,研究人员指出,例如,在一家医院经过训练可以通过胸部 X 光检查有效诊断疾病的模型,平均而言在另一家医院可能被认为是有效的。然而,研究人员的性能评估显示,第一家医院的一些表现最好的模型在第二家医院高达 75% 的患者身上表现最差,尽管当所有患者都聚集在第二家医院时,较高的平均性能掩盖了这种失败。
他们的发现表明,尽管虚假相关性(一个简单的例子是机器学习系统没有“看到”许多在海滩上拍摄的奶牛,仅仅因为背景而将海滩上的奶牛的照片分类为逆戟鲸)被认为可以通过提高模型对观测数据的性能来缓解,但它们实际上仍然会发生,并且在新环境中仍然对模型的可信度构成风险。在许多情况下——包括研究人员检查的领域,如胸部 X 光、癌症组织病理学图像和仇恨言论检测——这种虚假的相关性更难检测。
