TTFT 与吞吐量:哪个指标对用户影响更大?

将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。

来源:Clarifai博客 | 实际应用中的人工智能

TTFT 与吞吐量:哪个指标对用户影响更大?

简介

现代生成式 AI 体验取决于速度。当用户在聊天机器人中输入问题或触发长格式摘要管道时,两个延迟指标定义了他们的体验:首次令牌时间 (TTFT) 和吞吐量。 TTFT 测量提示后出现第一个生命迹象的速度;吞吐量衡量系统每秒可以处理多少个令牌、每秒请求或其他工作单元。在过去的两年里,这些指标已成为有关模型选择、基础设施选择和用户满意度争论的核心。

在 2021 年左右的早期生成系统中,几秒钟内的任何响应都让人感觉很神奇。如今,随着法学硕士嵌入到 IDE、语音助手和决策支持工具中,用户期望几乎即时的反馈。关于有效吞吐量(满足延迟服务级别目标 (SLO) 的输出率)的新研究表明,原始吞吐量通常隐藏着糟糕的用户体验。与此同时,预填充解码分解等创新已经改变了服务器架构。在本文中,我们将解析 TTFT 和吞吐量的实际测量内容、它们为何重要、如何优化它们,以及何时应优先考虑其中之一。我们还融入了 Clarifai 的平台功能(计算编排、模型推理、本地运行程序和分析),以展示现代工具如何支持这些目标。

快速摘要

  • 定义与演变:TTFT反映响应能力和心理感知,而吞吐量则反映系统容量。 Goodput 通过仅计算符合 SLO 的输出来桥接它们。
  • 上下文驱动的权衡:对于以人为本的界面,低 TTFT 可以建立信任;对于批量或成本敏感的管道,高吞吐量(和有效产出)可以提高效率。
  • 优化框架:感知-容量矩阵、确认-流程-完整模型和延迟-吞吐量调整检查表提供了跨工作负载平衡指标的结构化方法。
  • 为什么存在这些指标?

    TTFT