详细内容或原文请订阅后点击阅览
触觉传感如何提高模型性能
视觉-语言-动作模型是机器人操作领域的最新技术。他们仍然无法在不压碎薯片的情况下拿起薯片。这是视频触觉动作模型(VTAM)背后的团队今年早些时候发布的结果。在薯片拾取和放置任务中(一项需要高保真力感知的任务,仅靠视觉无法区分挤压性抓握和握持性抓握),VTAM 的性能比 π0.5 基线高出 80%。在更广泛的接触丰富的基准测试套件中,VTAM 的平均成功率为 90%。 1该芯片是一个对抗性示例,这正是它是正确测试的原因。在抓握点,只有接触动态才携带有用的信号。压力、振动和力/扭矩告诉策略正在发生什么,纠正仅视觉模型无法自行检测的视觉估计错误。相机无论分辨率有多高,都无法完成这项工作。
来源:Robotiq视觉-语言-动作模型是机器人操作领域的最新技术。他们仍然无法在不压碎薯片的情况下拿起它。
这是视频触觉动作模型 (VTAM) 背后的团队今年早些时候发布的结果。在薯片拾取和放置任务中(一项需要高保真力感知的任务,仅靠视觉无法区分挤压性抓握和握持性抓握),VTAM 的性能比 π0.5 基线高出 80%。在更广泛的接触丰富的基准测试套件中,VTAM 的平均成功率为 90%。1 该芯片是一个对抗性示例,这正是它是正确测试的原因。在抓握点,只有接触动态才携带有用的信号。压力、振动和力/扭矩告诉策略正在发生什么,纠正仅视觉模型无法自行检测的视觉估计错误。相机无论分辨率有多高,都无法完成这项工作。
触觉不是即插即用的
触觉传感器本身并不能提高模型性能。如今,大多数学习渠道都是围绕视觉和语言构建的;这两种模式拥有最大的数据集和背后最成熟的架构。当触觉信号未经有意设计而附加到视觉优先的管道时,它们往往会在训练中被削弱、淹没或丢失。 VTAM 之所以有效,是因为该架构迫使模型一起预测视觉和触觉动态,因此触觉信号直接塑造学习策略,而不是被吸收到视觉和语言中。触觉数据只有在智能整合时才能发挥其价值。
该模式现在在所有文献中都是一致的
故障检测二等奖
这对构建者意味着什么
VTAM 对这个案例给出了一个真实的数字,而最近的其他工作也一直指向同一方向。下一代基础模型将建立在捕获接触而不是仅视觉的数据的基础上。
