详细内容或原文请订阅后点击阅览
如何在部署之前评估通用 AI 模型的可靠性
一种新技术使用户能够比较几个大型模型,并选择最适合其任务的模型。
来源:MIT新闻 - 人工智能基础模型是大规模深度学习模型,已在大量通用、未标记的数据上进行了预训练。它们可以应用于各种任务,例如生成图像或回答客户问题。
但是,这些模型是 ChatGPT 和 DALL-E 等强大人工智能工具的支柱,可能会提供不正确或误导性的信息。在安全至关重要的情况下,例如行人接近自动驾驶汽车,这些错误可能会造成严重后果。
为了帮助防止此类错误,麻省理工学院和麻省理工学院-IBM Watson AI 实验室的研究人员开发了一种技术,可以在将基础模型部署到特定任务之前评估其可靠性。
开发了一种技术他们通过考虑一组彼此略有不同的基础模型来做到这一点。然后,他们使用他们的算法来评估每个模型学习到的关于同一测试数据点的表示的一致性。如果表示一致,则意味着该模型是可靠的。
当他们将自己的技术与最先进的基线方法进行比较时,发现该技术在捕捉各种下游分类任务中基础模型的可靠性方面表现更好。
有人可以使用这种技术来决定是否应在特定环境中应用模型,而无需在真实世界数据集上对其进行测试。当由于隐私问题而无法访问数据集(例如在医疗保健环境中)时,这可能特别有用。此外,该技术可用于根据可靠性分数对模型进行排名,使用户能够选择最适合其任务的模型。
他与主要作者 Young-Jin Park(LIDS 研究生)、麻省理工学院-IBM Watson AI 实验室的研究科学家 Hao Wang 和 Netflix 的高级研究科学家 Shervin Ardeshir 共同撰写了一篇关于这项工作的论文。该论文将在人工智能不确定性会议上发表。
关于这项工作的论文衡量共识