仅视觉操纵遇到了障碍

2016年,我说过一些与当时机器人技术发展方向背道而驰的话:仅靠视觉并不能用于抓取。而不是“它需要改进”。不是“技术还不存在”。这不符合问题。抓是身体上的。接触、力、摩擦力。愿景可以指导方法。它感觉不到接下来会发生什么。当时,我们在实验室里看到了它。触觉振动数据预测抓取失败的准确度为 83%,检测滑动的准确度为 92%。早期结果,但足够清晰。重要的信号不会出现在图像中。十年后,该领域的其他领域也遇到了同样的限制。

来源:Robotiq

2016年,我说过一些与当时机器人技术发展方向背道而驰的话:仅靠视觉并不能用于抓取。

不是“它需要改进”。不是“技术还不存在”。这与问题不相符。

抓握是身体上的。接触、力、摩擦力。愿景可以指导方法。它感觉不到接下来会发生什么。

当时,我们在实验室看到过它。触觉振动数据预测抓取失败的准确度为 83%,检测滑动的准确度为 92%。早期结果,但足够清晰。重要的信号不会出现在图像中。

十年后,该领域的其他领域也遇到了同样的限制。

愿景让您更接近

愿景仍然很重要。它处理检测、定位和规划。它让机器人到达正确的位置,并以正确的方式排列。

它做得很好,但是当抓手到达物体时,操作并没有停止。

这就是事情发生的地方。

接触时发生的情况不可见

在接触之前,机器人正在处理图像。

接触之后,就是对付力量了。

糟糕的把握并不是从视觉变化开始的。它表现为力量的转变。在任何东西移动到足以看到之前,滑动就从指尖开始。在物体变形之前,手腕上会出现太大的压力。

当摄像头发现问题时,问题已经发生了。

愿景看到结果。接触传感测量发生的交互。

有用的数据就在接触的那一刻就存在。

证据已经存在

这不再是一个理论。

在涉及武力的任务上,触觉驱动的政策击败了仅凭视觉的政策。当您将视觉与触觉输入相结合时,ManiSkill-ViTac 等基准测试会显示出更好的性能,尤其是在插入和组装方面。 π0、OpenVLA 和 Octo 等模型依赖于多个传感器的同步输入。去除力或触觉数据,性能就会下降。

没有人能够取代视觉。他们正在添加缺少的内容。

当今最强大的系统将视觉、本体感觉、力量和触觉结合到一个模型中。

这就是提高性能的原因。