增强了 Amazon Bedrock 自定义模型导入的性能

现在,您可以在使用 Amazon Bedrock 自定义模型导入时实现显着的性能改进,通过高级 PyTorch 编译和 CUDA 图形优化减少端到端延迟、加快首次令牌生成时间并提高吞吐量。通过 Amazon Bedrock 自定义模型导入,您可以将自己的基础模型引入 Amazon Bedrock 进行大规模部署和推理。在这篇文章中,我们介绍如何使用 Amazon Bedrock 自定义模型导入中的改进。

来源:亚马逊云科技 _机器学习
现在,您可以在使用 Amazon Bedrock 自定义模型导入时实现显着的性能改进,通过高级 PyTorch 编译和 CUDA 图形优化减少端到端延迟、加快首次令牌生成时间并提高吞吐量。通过 Amazon Bedrock 自定义模型导入,您可以将自己的基础模型引入 Amazon Bedrock 进行大规模部署和推理。这些性能增强通常会带来模型初始化开销,可能会影响容器冷启动时间。 Amazon Bedrock 通过编译工件缓存解决了这个问题。这项创新提供了性能改进,同时保持了客户期望 CMI 提供的现有冷启动性能指标。在部署具有这些优化的模型时,客户将在第一次模型启动期间遇到一次性初始化延迟,但每个后续模型实例都将在没有这种开销的情况下启动,从而在扩展过程中平衡性能与快速启动时间。在这篇文章中,我们介绍如何使用 Amazon Bedrock 自定义模型导入中的改进。优化的工作原理推理引擎会缓存编译工件,消除启动时的重复计算工作。当第一个模型实例启动时,它会生成编译工件,包括优化的计算图和内核配置。这些工件被存储并由以后的实例重用,因此它们跳过编译过程并启动得更快。系统根据模型配置参数(例如批量大小、上下文长度和硬件规格)计算唯一标识符。此标识符确认缓存的工件符合每个模型实例的要求,因此可以安全地重用它们。存储的工件包括完整性验证,以检测传输或存储期间的损坏。如果发生损坏,系统会清除缓存并重新生成工件。在此过程中模型仍然可用。性能改进我们测试了不同差异的性能