Chain-of-Sketch: Enabling Global Visual Reasoning
现代视觉模型在基准测试中取得了显着的成功,其中局部特征提供了有关目标的关键信息。现在,人们越来越有兴趣处理需要更多全局推理的任务,其中局部特征无法提供重要信息。 Minsky 和 Papert 于 1969 年通过连通性研究提出了此类任务,暴露了感知器模型的局限性。在本文中,我们介绍了一组扩展的全局视觉数据集,涉及图形、字符串、迷宫和图像网格。我们表明大型视觉模型仍然难以学习这些任务......
Interview with Alice Xiang: Fair human-centric image dataset for ethical AI benchmarking
本月早些时候,索尼 AI 发布了一个数据集,为计算机视觉模型中的人工智能伦理建立了新的基准。该数据集背后的研究名为公平以人为中心的图像基准(FHIBE),已发表在《自然》杂志上。 FHIBE 是第一个公开可用的、全球多样化的、基于同意的人类图像数据集(包括超过 10,000 张人类图像),用于评估偏见 [...]