根据给定序列预测人体运动是计算机视觉和机器学习中一项具有挑战性且至关重要的任务,它使机器能够有效地理解人类行为。精确预测人体姿势和运动轨迹对于各种应用都具有重要意义,包括自动驾驶、机器人技术和虚拟现实。本文提出了一种新方法来解决估计以 3D 姿势或 2D 轨迹表示的人体运动,以及使用 2D 图像和人体姿势/位置序列联合预测未来运动的相互关联的任务。我们提出了一种编码器-解码器架构,该架构利用具有自注意机制的 Transformer 网络,利用视觉上下文特征,结合 LSTM 来建模人体运动运动学。我们的方法在数量和质量上都比现有方法表现出持续显著的改进。在各种公共数据集上进行的大量实验,例如用于 3D 人体姿势估计的 GTA-IM 和 PROX,以及用于 2D 轨迹预测的 ETH 和 UCY 组合数据集,表明与当前最先进的方法相比,我们的方法大大减少了预测误差。
主要关键词