详细内容或原文请订阅后点击阅览
Chain-of-Sketch:启用全局视觉推理
现代视觉模型在基准测试中取得了显着的成功,其中局部特征提供了有关目标的关键信息。现在,人们越来越有兴趣处理需要更多全局推理的任务,其中局部特征无法提供重要信息。 Minsky 和 Papert 于 1969 年通过连通性研究提出了此类任务,暴露了感知器模型的局限性。在本文中,我们介绍了一组扩展的全局视觉数据集,涉及图形、字符串、迷宫和图像网格。我们表明大型视觉模型仍然难以学习这些任务......
来源:Apple机器学习研究现代视觉模型在基准测试中取得了显着的成功,其中局部特征提供了有关目标的关键信息。现在,人们越来越有兴趣处理需要更多全局推理的任务,其中局部特征无法提供重要信息。 Minsky 和 Papert 于 1969 年通过连通性研究提出了此类任务,暴露了感知器模型的局限性。在本文中,我们介绍了一组扩展的全局视觉数据集,涉及图形、字符串、迷宫和图像网格。我们表明大型视觉模型仍然难以有效地学习这些任务。同样,最先进的多模式法学硕士在这些数据集上表现不佳。我们通过“全球化程度”衡量来解释这种学习效率低下的情况。为了缓解这个问题,我们提出了一种称为草图链(CoS)的方法。与语言模型中使用的思想链和草稿本技术类似,CoS 将原始任务分解为中间视觉步骤,以帮助学习复杂的任务。此外,我们还发现并非所有 CoS 策略的表现都一样好。我们的主要见解是在 CoS 框架上强加马尔可夫结构。这导致了“电感 CoS”的引入,与非电感变体相比,它可以实现更好的分布外泛化,并且即使在较小的模型中也能表现良好。
