摘要在未来的智能家居中,机器人有望处理日常任务,例如烹饪,取代人类的参与。为机器人自主获得此类技能是高度挑战的。因此,现有方法通过通过监督学习来控制真实的机器人和培训模型来解决此问题。但是,长途任务的数据收集可能非常痛苦。为了解决这一挑战,这项工作着重于从人类视频中生成动作序列的任务,展示了烹饪任务。通过现有方法为此任务而生成的动作序列的质量通常不足。这部分是因为现有方法不会有效地处理每个输入模式。为了解决此问题,我们提出了Avblip,这是一种用于生成机器人动作序列的多模式LLM模型。我们的主要贡献是引入多模式编码器,该编码器允许多种视频,音频,语音和文本作为输入。这使下一个动作的生成可以考虑到人类的语音信息和环境产生的音频信息。结果,在所有标准评估指标中,所提出的方法优于基线方法。