仅视觉操纵遇到了障碍 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

仅视觉操纵遇到了障碍

2026年4月30日 20:05 33 Comments

2016年，我说过一些与当时机器人技术发展方向背道而驰的话：仅靠视觉并不能用于抓取。而不是“它需要改进”。不是“技术还不存在”。这不符合问题。抓是身体上的。接触、力、摩擦力。愿景可以指导方法。它感觉不到接下来会发生什么。当时，我们在实验室里看到了它。触觉振动数据预测抓取失败的准确度为 83%，检测滑动的准确度为 92%。早期结果，但足够清晰。重要的信号不会出现在图像中。十年后，该领域的其他领域也遇到了同样的限制。

来源:Robotiq

2016年，我说过一些与当时机器人技术发展方向背道而驰的话：仅靠视觉并不能用于抓取。

不是“它需要改进”。不是“技术还不存在”。这与问题不相符。

抓握是身体上的。接触、力、摩擦力。愿景可以指导方法。它感觉不到接下来会发生什么。

当时，我们在实验室看到过它。触觉振动数据预测抓取失败的准确度为 83%，检测滑动的准确度为 92%。早期结果，但足够清晰。重要的信号不会出现在图像中。

十年后，该领域的其他领域也遇到了同样的限制。

愿景让您更接近

愿景仍然很重要。它处理检测、定位和规划。它让机器人到达正确的位置，并以正确的方式排列。

它做得很好，但是当抓手到达物体时，操作并没有停止。

这就是事情发生的地方。

接触时发生的情况不可见

在接触之前，机器人正在处理图像。

接触之后，就是对付力量了。

糟糕的把握并不是从视觉变化开始的。它表现为力量的转变。在任何东西移动到足以看到之前，滑动就从指尖开始。在物体变形之前，手腕上会出现太大的压力。

当摄像头发现问题时，问题已经发生了。

愿景看到结果。接触传感测量发生的交互。

有用的数据就在接触的那一刻就存在。

证据已经存在

这不再是一个理论。

在涉及武力的任务上，触觉驱动的政策击败了仅凭视觉的政策。当您将视觉与触觉输入相结合时，ManiSkill-ViTac 等基准测试会显示出更好的性能，尤其是在插入和组装方面。 π0、OpenVLA 和 Octo 等模型依赖于多个传感器的同步输入。去除力或触觉数据，性能就会下降。

没有人能够取代视觉。他们正在添加缺少的内容。

当今最强大的系统将视觉、本体感觉、力量和触觉结合到一个模型中。

这就是提高性能的原因。

失败的不能用高性能的开始的提高驱动的技术发展输入不可见缺少的问题强大的准确度有用的摩擦力愿景提高性能实验室抓取接触的不存在数据接触重要的触觉视觉发展方向看到传感器力量正确的视觉的同样的高性能物体滑动的发生机器人