“一切提示”的消亡:谷歌迈向结构化人工智能

新的交互 API 如何实现深度推理、状态化、代理式工作流程。“一切提示的消亡:谷歌走向结构化人工智能”一文首先出现在《走向数据科学》上。

来源:走向数据科学

一直在为以更结构化的方式构建交互式、有状态的人工智能驱动应用程序奠定基础。这项工作更有趣的成果之一是几周前发布了新的交互 API。

随着大型语言模型 (LLM) 的出现和消失,LLM 提供商开发的 API 通常会有点过时。毕竟,API 设计人员很难预测可能应用于 API 设计服务的任何系统的所有各种更改和调整。在人工智能领域更是如此,其变化的速度与 IT 世界以前所见的不同。

例如,我们之前在 OpenAI 中就见过这种情况。他们模型的初始 API 称为 Completions API。随着模型的进步,他们必须升级并发布一个名为 Responses 的新 API。

Google 对 Interactions API 采取了略有不同的策略。它并不是旧版generateContent API 的完全替代,而是它的扩展。

正如 Google 在其自己的文档中所说......

“Interactions API(Beta)是用于与 Gemini 模型和代理交互的统一接口。它简化了状态管理、工具编排和长时间运行的任务。”

本文的其余部分探讨了 Interactions API 的架构必要性。我们将首先简单地展示 Interactions API 如何执行其前身所能执行的所有操作,然后以它如何实现有状态操作、Google 高延迟深度研究代理功能的显式集成以及长时间运行的任务的处理作为结束。我们将超越“Hello World”示例来构建需要深入思考和异步研究编排的系统。

架构差距:为什么“聊天”是不够的

要理解 Interactions API 存在的原因,我们必须分析标准 LLM 聊天循环为何不足。

深度研究问题

设置开发环境

示例 1:Hello World 等效项

这是我的输出。

几个小时后...