详细内容或原文请订阅后点击阅览
仅视觉操纵遇到了障碍
2016年,我说过一些与当时机器人技术发展方向背道而驰的话:仅靠视觉并不能用于抓取。而不是“它需要改进”。不是“技术还不存在”。这不符合问题。抓是身体上的。接触、力、摩擦力。愿景可以指导方法。它感觉不到接下来会发生什么。当时,我们在实验室里看到了它。触觉振动数据预测抓取失败的准确度为 83%,检测滑动的准确度为 92%。早期结果,但足够清晰。重要的信号不会出现在图像中。十年后,该领域的其他领域也遇到了同样的限制。
来源:Robotiq2016年,我说过一些与当时机器人技术发展方向背道而驰的话:仅靠视觉并不能用于抓取。
不是“它需要改进”。不是“技术还不存在”。这与问题不相符。
抓握是身体上的。接触、力、摩擦力。愿景可以指导方法。它感觉不到接下来会发生什么。
当时,我们在实验室看到过它。触觉振动数据预测抓取失败的准确度为 83%,检测滑动的准确度为 92%。早期结果,但足够清晰。重要的信号不会出现在图像中。
十年后,该领域的其他领域也遇到了同样的限制。
愿景让您更接近
愿景仍然很重要。它处理检测、定位和规划。它让机器人到达正确的位置,并以正确的方式排列。
它做得很好,但是当抓手到达物体时,操作并没有停止。
这就是事情发生的地方。
接触时发生的情况不可见
在接触之前,机器人正在处理图像。
接触之后,就是对付力量了。
糟糕的把握并不是从视觉变化开始的。它表现为力量的转变。在任何东西移动到足以看到之前,滑动就从指尖开始。在物体变形之前,手腕上会出现太大的压力。
当摄像头发现问题时,问题已经发生了。
愿景看到结果。接触传感测量发生的交互。
有用的数据就在接触的那一刻就存在。
证据已经存在
这不再是一个理论。
在涉及武力的任务上,触觉驱动的政策击败了仅凭视觉的政策。当您将视觉与触觉输入相结合时,ManiSkill-ViTac 等基准测试会显示出更好的性能,尤其是在插入和组装方面。 π0、OpenVLA 和 Octo 等模型依赖于多个传感器的同步输入。去除力或触觉数据,性能就会下降。
没有人能够取代视觉。他们正在添加缺少的内容。
当今最强大的系统将视觉、本体感觉、力量和触觉结合到一个模型中。
这就是提高性能的原因。
