Amazon SageMaker AI Async Inference 现在支持内联请求负载 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Amazon SageMaker AI Async Inference 现在支持内联请求负载

2026年6月17日 20:56 33 Comments

今天，我们宣布为 Amazon SageMaker AI 异步推理提供内联负载支持。客户现在可以直接在 InvokeEndpointAsync API 的请求正文中发送推理负载，无需在每次调用之前将输入数据上传到 Amazon Simple Storage Service (Amazon S3)。

来源:亚马逊云科技 _机器学习

对于高达 128,000 字节的有效负载，这消除了整个网络往返，简化了客户端代码，并减少了异步推理工作负载的操作表面积。

在这篇文章中，我们解释了此功能背后的动机，介绍了前后的客户体验，并向您展示了如何开始使用内联有效负载。

您可以使用 Amazon SageMaker AI 异步推理对推理请求进行排队并异步处理它们。它非常适合具有大负载、可变流量或容忍秒到分钟延迟的工作负载。它支持自动缩放到零，从而对于突发或批处理式工作负载而言具有成本效益。

到目前为止，工作流程每次调用都需要执行两个步骤：

将输入负载上传到 Amazon S3 存储桶。

调用端点，传递 S3 对象 URI 作为 InputLocation。

终端节点异步处理请求并将输出写入配置的 S3 输出位置，客户端通过 Amazon Simple Notification Service (Amazon SNS) 通知轮询或接收该位置。

这种两步模式非常适合大型负载（图像、音频、多 MB 文档）。但对于输入负载较小（以 KB 为单位）且需要比实时推理允许的处理时间更长的客户来说，强制的 S3 依赖性增加了不必要的复杂性。

随着今天的发布，InvokeEndpointAsync 接受新的 Body 参数。如果存在，有效负载将在 API 请求本身中内联发送，无需 S3 上传。

关键细节：

这种方法需要：

允许的推理发送支持成本效益延迟的背后的调用工作负载依赖性输入强制的输入数据异步内联复杂性 Amazon 端节点客户端请求 S3 需要负载必要的负载的工作的处理时间有效负载