摘要 — 在高维动作空间中控制双手一直是一个长期挑战,但人类天生就能轻松地完成灵巧的任务。在本文中,我们从人类具身认知中汲取灵感,重新将灵巧手视为可学习的系统。具体来说,我们介绍了 MoDex,这是一个采用神经手部模型来捕捉手部运动动态特征的框架。基于该模型,开发了一种双向规划方法,该方法在训练和推理方面都表现出了很高的效率。该方法进一步与大型语言模型相结合,以生成各种手势,例如“剪刀手”和“摇滚乐”。此外,我们表明,将系统动力学分解为预训练手部模型和外部模型可以提高数据效率,理论分析和实证实验都支持这一点。更多可视化结果可在 https://tongwu19.github.io/MoDex 获取。