方法教生成式 AI 模型定位个性化对象

经过这种技术的训练后,视觉语言模型可以更好地识别新场景中的独特项目。

来源:MIT新闻 - 人工智能

假设一个人带着他们的法国斗牛犬 Bowser 去狗公园。当鲍泽在其他犬科动物中玩耍时,狗主人在现场很容易识别出鲍泽的身份。

但是,如果有人想使用 GPT-5 这样的生成式 AI 模型来在工作时监控他们的宠物,那么该模型可能无法完成这项基本任务。像 GPT-5 这样的视觉语言模型通常擅长识别一般物体,比如狗,但它们在定位个性化物体(比如法国斗牛犬 Bowser)方面表现不佳。

为了解决这一缺陷,来自 MIT、MIT-IBM Watson AI 实验室、魏茨曼科学研究所和其他地方的研究人员引入了一种新的训练方法,可以教授视觉语言模型来定位场景中的个性化对象。

他们的方法使用精心准备的视频跟踪数据,其中跨多个帧跟踪同一对象。他们设计了数据集,因此模型必须专注于上下文线索来识别个性化对象,而不是依赖于之前记住的知识。

当给定一些显示个性化对象(例如某人的宠物)的示例图像时,重新训练的模型能够更好地识别新图像中同一宠物的位置。

使用他们的方法重新训练的模型在这项任务中的表现优于最先进的系统。重要的是,他们的技术使模型的其余一般能力完好无损。

这种新方法可以帮助未来的人工智能系统跨时间跟踪特定物体,例如儿童的背包,或定位感兴趣的物体,例如生态监测中的某种动物。它还可以帮助开发人工智能驱动的辅助技术,帮助视障用户找到房间中的某些物品。

关于该技术的论文

一个意想不到的缺点

研究人员发现大型语言模型 (LLM) 可以擅长从上下文中学习。如果他们向法学硕士提供一些任务示例,例如加法问题,它就可以根据所提供的上下文学习回答新的加法问题。