增强了 Amazon Bedrock 自定义模型导入的性能 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

增强了 Amazon Bedrock 自定义模型导入的性能

2025年11月26日 16:46 33 Comments

现在，您可以在使用 Amazon Bedrock 自定义模型导入时实现显着的性能改进，通过高级 PyTorch 编译和 CUDA 图形优化减少端到端延迟、加快首次令牌生成时间并提高吞吐量。通过 Amazon Bedrock 自定义模型导入，您可以将自己的基础模型引入 Amazon Bedrock 进行大规模部署和推理。在这篇文章中，我们介绍如何使用 Amazon Bedrock 自定义模型导入中的改进。

来源:亚马逊云科技 _机器学习

现在，您可以在使用 Amazon Bedrock 自定义模型导入时实现显着的性能改进，通过高级 PyTorch 编译和 CUDA 图形优化减少端到端延迟、加快首次令牌生成时间并提高吞吐量。通过 Amazon Bedrock 自定义模型导入，您可以将自己的基础模型引入 Amazon Bedrock 进行大规模部署和推理。这些性能增强通常会带来模型初始化开销，可能会影响容器冷启动时间。 Amazon Bedrock 通过编译工件缓存解决了这个问题。这项创新提供了性能改进，同时保持了客户期望 CMI 提供的现有冷启动性能指标。在部署具有这些优化的模型时，客户将在第一次模型启动期间遇到一次性初始化延迟，但每个后续模型实例都将在没有这种开销的情况下启动，从而在扩展过程中平衡性能与快速启动时间。在这篇文章中，我们介绍如何使用 Amazon Bedrock 自定义模型导入中的改进。优化的工作原理推理引擎会缓存编译工件，消除启动时的重复计算工作。当第一个模型实例启动时，它会生成编译工件，包括优化的计算图和内核配置。这些工件被存储并由以后的实例重用，因此它们跳过编译过程并启动得更快。系统根据模型配置参数（例如批量大小、上下文长度和硬件规格）计算唯一标识符。此标识符确认缓存的工件符合每个模型实例的要求，因此可以安全地重用它们。存储的工件包括完整性验证，以检测传输或存储期间的损坏。如果发生损坏，系统会清除缓存并重新生成工件。在此过程中模型仍然可用。性能改进我们测试了不同差异的性能

时间性能指标冷启动生成编译标识符初始化启动工作原理快速启动实例自定义 Amazon 存储的启动时间根据优化端到端平衡性完整性大规模唯一标识缓存自己的计算吞吐量工件提高 Bedrock 模型性能改进存储期性能增强安全地

增强了 Amazon Bedrock 自定义模型导入的性能

其他外部链接

Tags

XiaoMi-AI