解决不同领域和模态的复杂 AI 任务是迈向通用人工智能的关键一步。虽然有许多适用于各种领域和模态的 AI 模型,但它们无法自主处理复杂的 AI 任务。考虑到大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出卓越的能力,我们主张 LLM 可以充当控制器来管理现有的 AI 模型以解决复杂的 AI 任务,而语言则充当通用接口来支持这一点。基于这一理念,我们提出了 HuggingGPT,这是一个由 LLM 驱动的代理,它利用 LLM(例如 ChatGPT)连接机器学习社区(例如 Hugging Face)中的各种 AI 模型来解决 AI 任务。具体来说,我们使用 ChatGPT 在收到用户请求时进行任务规划,根据 Hugging Face 中可用的功能描述选择模型,使用选定的 AI 模型执行每个子任务,并根据执行结果总结响应。 HuggingGPT借助ChatGPT强大的语言能力和Hugging Face丰富的AI模型,可以解决跨不同模态和领域的各种复杂AI任务,并在语言、视觉、语音等挑战性任务中取得令人瞩目的成果,为实现通用人工智能开辟了一条新途径。
主要关键词