详细内容或原文请订阅后点击阅览
了解语言模型的视觉知识
主要接受文本训练的法学硕士可以通过具有自我校正功能的代码生成复杂的视觉概念。研究人员使用这些插图训练无图像计算机视觉系统来识别真实照片。
来源:MIT新闻 - 人工智能你可能听说过一张图片胜过千言万语,但如果大型语言模型 (LLM) 以前从未见过图像,它能理解图片吗?事实证明,纯文本训练的语言模型对视觉世界有着扎实的理解。他们可以编写图像渲染代码来生成具有有趣对象和构图的复杂场景——即使这些知识没有得到正确使用,LLM 也可以改进他们的图像。麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员在提示语言模型针对不同图像自我纠正代码时观察到了这一点,系统通过每次查询改进了简单的剪贴画绘图。
这些语言模型的视觉知识是从互联网上描述形状和颜色等概念的方式获得的,无论是用语言还是代码。当给出“在丛林中画一只鹦鹉”这样的指示时,用户会慢跑 LLM 来考虑它之前在描述中读到的内容。为了评估法学硕士拥有多少视觉知识,CSAIL 团队为法学硕士构建了一个“视觉检查”:使用他们的“视觉能力数据集”,他们测试了模型绘制、识别和自我纠正这些概念的能力。研究人员收集了这些插图的每一份最终草稿,训练了一个计算机视觉系统来识别真实照片的内容。
研究CSAIL 团队认为,这一过程可以作为评估生成式人工智能模型训练计算机视觉系统能力的基准。此外,研究人员还希望扩大他们挑战语言模型的任务。至于他们最近的研究,麻省理工学院的研究小组指出,他们无法访问他们使用的法学硕士的训练集,这使得进一步研究他们的视觉知识的来源变得具有挑战性。未来,他们打算探索通过让法学硕士直接使用它来训练更好的视觉模型。
论文