从意图到执行:微软如何将大型语言模型转变为面向行动的 AI

大型语言模型 (LLM) 改变了我们处理自然语言处理的方式。它们可以回答问题、编写代码和进行对话。然而,在实际任务方面,它们却力不从心。例如,LLM 可以指导您购买夹克,但不能为您下订单。这种思考与行动之间的差距 […]文章《从意图到执行:微软如何将大型语言模型转变为面向行动的 AI》首次出现在 Unite.AI 上。

来源:Unite.AI

大型语言模型 (LLM) 改变了我们处理自然语言处理的方式。它们可以回答问题、编写代码和进行对话。然而,在实际任务方面,它们却力不从心。例如,LLM 可以指导您购买夹克,但不能为您下订单。思考与行动之间的差距是一个主要限制。人们不仅需要信息;他们想要结果。

已更改

为了弥补这一差距,微软正在将 LLM 转变为以行动为导向的 AI 代理。通过使它们能够计划、分解任务并参与现实世界的交互,它们使 LLM 能够有效地管理实际任务。这种转变有可能重新定义 LLM 的功能,将它们转变为自动化复杂工作流程和简化日常任务的工具。让我们看看实现这一目标需要什么以及微软如何解决这个问题。

转向

LLM 需要采取什么行动

为了让 LLM 在现实世界中执行任务,他们需要超越理解文本。他们必须与数字和物理环境互动,同时适应不断变化的条件。以下是他们需要的一些能力:

    理解用户意图
  • 理解用户意图
  • 理解用户意图

    为了有效行动,LLM 需要理解用户请求。文本或语音命令等输入通常模糊或不完整。系统必须利用其知识和请求的上下文来填补空白。多步骤对话可以帮助完善这些意图,确保 AI 在采取行动之前理解。

      将意图转化为行动
  • 将意图转化为行动
  • 将意图转化为行动

    理解任务后,LLM 必须将其转化为可操作的步骤。这可能涉及单击按钮、调用 API 或控制物理设备。LLM 需要根据具体任务修改其操作,适应环境并解决出现的挑战。

      适应变化
  • 适应变化
  • 适应变化

      专注于特定任务
    UFO 代理