TinyAgent:边缘函数调用

LLM 能够通过普通语言(例如英语)执行命令,这使得代理系统能够通过协调正确的工具集(例如 ToolFormer、Gorilla)来完成用户查询。这与最近的多模式努力(例如 GPT-4o 或 Gemini-1.5 模型)一起扩大了 AI 代理的可能性范围。虽然这非常令人兴奋,但这些模型的模型大小和计算要求通常要求在云端进行推理。这可能会给它们的广泛采用带来一些挑战。首先,将视频、音频或文本文档等数据上传到云端的第三方供应商可能会导致隐私问题。其次,这需要云/Wi-Fi 连接,而这并不总是可行的。例如,部署在现实世界中的机器人可能并不总是有稳定的连接。除此之外,延迟也可能是一个问题,因为将大量数据上传到云端并等待响应可能会减慢响应时间,导致不可接受的解决问题的时间。如果我们在边缘本地部署 LLM 模型,这些挑战就可以解决。但是,当前的 LLM(如 GPT-4o 或 Gemini-1.5)对于本地部署来说太大了。一个因素是,很多模型最终会将有关世界的一般信息记忆到其参数内存中,而这对于专门的下游应用程序来说可能不是必需的。例如,如果你问一个一般的事实问题

来源:BAIR

LLM 能够通过普通语言(例如英语)执行命令,这使得代理系统能够通过协调正确的工具集(例如 ToolFormer、Gorilla)来完成用户查询。这与最近的多模式努力(例如 GPT-4o 或 Gemini-1.5 模型)一起扩大了 AI 代理的可能性范围。虽然这非常令人兴奋,但这些模型的模型大小和计算要求通常要求在云端进行推理。这可能会给它们的广泛采用带来一些挑战。首先,将视频、音频或文本文档等数据上传到云端的第三方供应商可能会导致隐私问题。其次,这需要云/Wi-Fi 连接,而这并不总是可行的。例如,部署在现实世界中的机器人可能并不总是有稳定的连接。除此之外,延迟也可能是一个问题,因为将大量数据上传到云端并等待响应可能会减慢响应时间,导致不可接受的解决问题的时间。如果我们在边缘本地部署 LLM 模型,这些挑战就可以解决。

ToolFormer Gorilla

但是,当前的 LLM(如 GPT-4o 或 Gemini-1.5)对于本地部署来说太大了。 一个促成因素是,很多模型最终将有关世界的一般信息记忆到其参数内存中,而这对于专门的下游应用程序来说可能不是必需的。 例如,如果你从这些模型中提出一个一般的事实问题,比如历史事件或知名人物,它们可以使用它们的参数内存产生结果,即使它们的提示中没有额外的上下文。 然而,这种将训练数据隐性记忆到参数内存中似乎与 LLM 中的“突发”现象有关,例如情境学习和复杂推理,这一直是扩大模型大小的驱动力。

视频

LLMCompiler 电子邮件 联系人 1 4