SceneScout:朝着AI代理驱动访问盲人用户的街道视图图像

盲目或视力低下的人(BLV)可能会因为对物理景观的不确定性而在陌生的环境中独立旅行。虽然大多数工具专注于原位导航,但探索前旅行援助的人通常仅提供地标和转弯指令,缺乏详细的视觉上下文。街景图像包含丰富的视觉信息,并有可能揭示大量环境细节,但对于BLV人来说仍然无法访问。在这项工作中,我们介绍了Spacecout,这是一种多模式的大语言模型(MLLM)驱动的AI代理,该代理…

来源:Apple机器学习研究

盲目或视力低下的人(BLV)可能会因为对物理景观的不确定性而在陌生的环境中独立旅行。虽然大多数工具专注于原位导航,但探索前旅行援助的人通常仅提供地标和转弯指令,缺乏详细的视觉上下文。街景图像包含丰富的视觉信息,并有可能揭示大量环境细节,但对于BLV人来说仍然无法访问。在这项工作中,我们介绍了SpaceScout,这是一种多式模式大型语言模型(MLLM)驱动的AI代理,可与Street View Imagery进行可访问的交互。 SceneScout支持两种模式:(1)路线预览,使用户能够沿路线熟悉视觉细节,以及(2)虚拟探索,在Street View Imagery中启用自由移动。我们的用户研究(n = 10)表明,ScenesCout可帮助BLV用户通过现有手段无法使用视觉信息。技术评估表明,大多数描述都是准确的(72%),并且即使在较旧的图像中也描述了稳定的视觉元素(95%),尽管偶尔出现的微妙和合理的错误使得它们很难在没有视线的情况下进行验证。我们讨论使用街景图像增强导航体验的未来机会和挑战。

    †在Apple•哥伦比亚大学完成工作
  • †在Apple
  • ‡哥伦比亚大学