研究表明,视觉模型无法用否定词处理查询

诸如“否”和“不”之类的词可能会导致这种流行的AI类模型在高风险设置(例如医学诊断)中意外失败。

来源:MIT新闻 - 人工智能

想象一个放射科医生检查了新患者的胸部X射线。她注意到患者在组织中肿胀,但心脏不足。希望加快诊断的速度,她可能会使用视觉语言机器学习模型来搜索类似患者的报告。

但是,如果该模型错误地识别出两种情况下的报告,则最可能的诊断可能会大不相同:如果患者组织肿胀和心脏增大,则该病情很可能与心脏相关,但是由于心脏不足,可能会有几种基本原因。

在一项新研究中,麻省理工学院的研究人员发现,视觉语言模型极有可能在现实世界中犯这样的错误,因为他们不了解否定 - 诸如“否”和“不”之类的词表明了什么是错误或缺失的。

“这些否定词可能会产生非常重大的影响,如果我们只是盲目使用这些模型,我们可能会遇到灾难性的后果,”麻省理工学院研究生兼本研究的主要作者Kumail Alhamoud说。

本研究

研究人员测试了视觉模型在图像标题中识别否定的能力。这些模型通常会像随机的猜测一样。在这些发现的基础上,团队创建了一个图像数据集,其中包含描述缺失对象的否定字幕。

他们表明,当要求模型检索不包含某些对象的图像时,使用此数据集的视觉模型可以改善性能。它还可以提高用否定字幕回答的多项选择问题的准确性。

忽略否定

视觉语言模型(VLM)是使用大量图像和相应字幕的培训,他们学会将其编码为数字集,称为向量表示。模型使用这些向量来区分不同的图像。

这在他们测试的每个VLM中都是一致的。

“可解决的问题”