Amazon SageMaker AI Async Inference 现在支持内联请求负载

今天,我们宣布为 Amazon SageMaker AI 异步推理提供内联负载支持。客户现在可以直接在 InvokeEndpointAsync API 的请求正文中发送推理负载,无需在每次调用之前将输入数据上传到 Amazon Simple Storage Service (Amazon S3)。

来源:亚马逊云科技 _机器学习

今天,我们宣布为 Amazon SageMaker AI 异步推理提供内联负载支持。客户现在可以直接在 InvokeEndpointAsync API 的请求正文中发送推理负载,无需在每次调用之前将输入数据上传到 Amazon Simple Storage Service (Amazon S3)。

对于高达 128,000 字节的有效负载,这消除了整个网络往返,简化了客户端代码,并减少了异步推理工作负载的操作表面积。

在这篇文章中,我们解释了此功能背后的动机,介绍了前后的客户体验,并向您展示了如何开始使用内联有效负载。

背景:异步推理之前是如何工作的

您可以使用 Amazon SageMaker AI 异步推理对推理请求进行排队并异步处理它们。它非常适合具有大负载、可变流量或容忍秒到分钟延迟的工作负载。它支持自动缩放到零,从而对于突发或批处理式工作负载而言具有成本效益。

到目前为止,工作流程每次调用都需要执行两个步骤:

  • 将输入负载上传到 Amazon S3 存储桶。
  • 调用端点,传递 S3 对象 URI 作为 InputLocation。
  • 终端节点异步处理请求并将输出写入配置的 S3 输出位置,客户端通过 Amazon Simple Notification Service (Amazon SNS) 通知轮询或接收该位置。

    这种两步模式非常适合大型负载(图像、音频、多 MB 文档)。但对于输入负载较小(以 KB 为单位)且需要比实时推理允许的处理时间更长的客户来说,强制的 S3 依赖性增加了不必要的复杂性。

    新增内容:通过 Body 参数进行内联有效负载

    随着今天的发布,InvokeEndpointAsync 接受新的 Body 参数。如果存在,有效负载将在 API 请求本身中内联发送,无需 S3 上传。

    关键细节:

    之前和之后:客户体验

    之前:先上传到S3,然后调用

    这种方法需要: