触觉传感如何提高模型性能 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

触觉传感如何提高模型性能

2026年5月7日 13:00 33 Comments

视觉-语言-动作模型是机器人操作领域的最新技术。他们仍然无法在不压碎薯片的情况下拿起薯片。这是视频触觉动作模型（VTAM）背后的团队今年早些时候发布的结果。在薯片拾取和放置任务中（一项需要高保真力感知的任务，仅靠视觉无法区分挤压性抓握和握持性抓握），VTAM 的性能比 π0.5 基线高出 80%。在更广泛的接触丰富的基准测试套件中，VTAM 的平均成功率为 90%。 1该芯片是一个对抗性示例，这正是它是正确测试的原因。在抓握点，只有接触动态才携带有用的信号。压力、振动和力/扭矩告诉策略正在发生什么，纠正仅视觉模型无法自行检测的视觉估计错误。相机无论分辨率有多高，都无法完成这项工作。

来源:Robotiq

视觉-语言-动作模型是机器人操作领域的最新技术。他们仍然无法在不压碎薯片的情况下拿起它。

这是视频触觉动作模型 (VTAM) 背后的团队今年早些时候发布的结果。在薯片拾取和放置任务中（一项需要高保真力感知的任务，仅靠视觉无法区分挤压性抓握和握持性抓握），VTAM 的性能比 π0.5 基线高出 80%。在更广泛的接触丰富的基准测试套件中，VTAM 的平均成功率为 90%。1 该芯片是一个对抗性示例，这正是它是正确测试的原因。在抓握点，只有接触动态才携带有用的信号。压力、振动和力/扭矩告诉策略正在发生什么，纠正仅视觉模型无法自行检测的视觉估计错误。相机无论分辨率有多高，都无法完成这项工作。

触觉不是即插即用的

触觉传感器本身并不能提高模型性能。如今，大多数学习渠道都是围绕视觉和语言构建的；这两种模式拥有最大的数据集和背后最成熟的架构。当触觉信号未经有意设计而附加到视觉优先的管道时，它们往往会在训练中被削弱、淹没或丢失。 VTAM 之所以有效，是因为该架构迫使模型一起预测视觉和触觉动态，因此触觉信号直接塑造学习策略，而不是被吸收到视觉和语言中。触觉数据只有在智能整合时才能发挥其价值。

该模式现在在所有文献中都是一致的

故障检测二等奖

这对构建者意味着什么

VTAM 对这个案例给出了一个真实的数字，而最近的其他工作也一直指向同一方向。下一代基础模型将建立在捕获接触而不是仅视觉的数据的基础上。

准备好采取下一步了吗？

视觉模型背后的语言提高模型信号真实的 VTAM 测试的意味着有用的优先的抓握一致的纠正接触数据集最大的无法任务估计错误丰富的触觉机器人视觉传感器故障检测发布的分辨率视觉的最近的广泛的成熟的动态薯片下一代