视觉语言动作 (VLA) 模型如何工作

人形机器人视觉-语言-动作 (VLA) 模型的数学基础等视觉-语言-动作 (VLA) 模型如何工作的帖子首先出现在走向数据科学上。

来源:走向数据科学

了解葡萄干、青椒和盐瓶之间的区别吗?更重要的是,他们如何知道如何折叠 T 恤?

这就是视觉语言动作 (VLA) 模型的魔力。

本文是对现代视觉语言模型 (VLA) 的简洁总结,它是从对最新“抢先”模型以及相关数学概念的元分析中提炼出来的。

您将学到:

  • 有用的猜想
  • 数学基础
  • 现实世界的神经架构
  • VLA 是如何训练的
  • 预赛

    如果以下任何概念对您来说很陌生,那么值得花一些时间学习它们:它们涵盖了现代数据驱动的多模式机器人控制(尤其是 VLA)的关键组件。

  • Transformers — 当今 VLA 的主要架构模式包含视觉语言模型 (VLM) 主干,它是基于 Transformer 的视觉+语言编码器
  • 表示学习 - VLA 的进步很大程度上来自于优化学习表示或对控制策略的潜在空间的预测
  • 模仿学习——基于人类运动或遥控机器人轨迹生成的演示数据的学习行动策略
  • 策略优化 - 高性能机器人控制策略通常会结合模仿学习和策略优化,创建能够推广到新领域和任务的随机策略。
  • 这些绝不是绝对的法律。在我看来,这些猜想有助于理解(和构建)与世界交互的代理。

    💭潜在表征学习可能是智能的基础

    虽然未经证实,并且过于简单化,但考虑到以下情况,我相信这是正确的:

  • LLM 或其他转换器模型不学习英语或任何语言的语法。他们学习嵌入:将标记或量化观察结果几何投影到 N 维潜在空间中语义相似的表示中的映射。
  • 动作空间

    图片