在计算机视觉和机器人技术中结合下一个标记预测和视频传播

一种新方法可以训练神经网络对损坏的数据进行分类,同时预测下一步。它可以为机器人制定灵活的计划,生成高质量的视频,并帮助 AI 代理在数字环境中导航。

来源:MIT新闻 - 人工智能

在当前的AI Zeitgeist中,序列模型因其分析数据并预测下一步要做什么的能力而迅速飙升。例如,您可能使用了诸如Chatgpt之类的下一步预测模型,该模型会按顺序预测每个单词(令牌)以形成用户查询的答案。还有一些完整的序列扩散模型,例如Sora,通过依次“降级”整个视频序列,它们将单词转换为令人眼花and乱,现实的视觉效果。

MIT的计算机科学和人工智能实验室(CSAIL)的研究人员提出了对扩散训练计划的简单更改,这使得该序列更加灵活。

当应用于计算机视觉和机器人技术等字段时,下一步和完整的扩散模型具有能力权衡。下一型模型可以吐出长度不同的序列。但是,它们使这些世代在未来的未来不知道理想的状态的同时,例如将其序列产生转向某个目标10代币,因此需要对长期(长期)计划的其他机制。扩散模型可以执行这种未来条件的采样,但缺乏下一步模型生成可变长度序列的能力。

来自Csail的研究人员希望结合两种模型的优势,因此他们创建了一种称为“扩散强迫”的序列模型训练技术。这个名字来自“老师强迫”,这是传统的培训计划,该计划将完整的序列生成分解为较小,更轻松的下一代步骤(就像一个好老师简化了一个复杂的概念)一样。

在几个实验中,扩散强迫在忽略误导数据以执行任务的同时预料未来的动作方面蓬勃发展。

deepmind Lab Simulator