图1:作为桥梁体系结构的我们提出的潜在代码的插图。给出了高级任务描述和观察,一个大语言模型(LLM)生成了动作和令牌的文本描述。令牌的最后一层嵌入的功能是下游策略网络的高级潜在目标。我们的模块化层次结构方法协同LLM的高级推理与预先训练的策略的响应式低级控制,以解决单片LLM的直接低级动作输出的局限性。与使用LLM直接输出代理操作[1]的方法不同,我们的方法可以异步地运行LLM推理和动作策略执行循环,从而在与物理世界互动时立即反映了类似人类的任务执行,并且在考虑长期计划时会谨慎地进行低级反馈。在测试时,操作策略经常根据环境更改和最新的令牌的嵌入更新操作,而LLM更新则较不频繁,从而有效,现实世界中的推断。
主要关键词