图1:BI3D扩散器演员的概述。顶部:BI3D扩散器Actor是一个条件扩散模型,生成两个端效应器的3D轨迹。类似于[13],在每个扩散步骤I中,我们的模型将机器人未来最终效应器轨迹的噪声估计值,提出RGB-D视图O和本体感受信息c。这些令牌是通过注意,使用3D相对位置信息的上下文对语言进行的,并参与语言令牌l以融合教学信息。Our model predicts the noise of left- and right-hand 3D locations ( ϵ loc θ,l ( o , l, c l , τ i l , i ) and ϵ loc θ,r ( o , l, c r , τ i r , i ) ) and the noise of left- and right-hand 3D rotations ( ϵ rot θ,l ( o , l, c l , τ i l , i ) and ϵ rot θ,r ( o , l, c r , τi,r i)。底部:在推断期间,BI3D扩散器演员迭代地将未来双手轨迹的估计值降低。
主要关键词