使用 Datadog 增强 AWS Trainium 和 AWS Inferentia 的可观察性

本博文将引导您了解 Datadog 与 AWS Neuron 的新集成,它通过提供对资源利用率、模型执行性能、延迟和实时基础设施运行状况的深度可观察性来帮助您监控 AWS Trainium 和 AWS Inferentia 实例,使您能够优化机器学习 (ML) 工作负载并实现大规模高性能。

来源:亚马逊云科技 _机器学习

本帖由 Datadog 的 Curtis Maher 和 Anjali Thatte 共同撰写。

本帖由 Datadog 的 Curtis Maher 和 Anjali Thatte 共同撰写。

本帖将带您了解 Datadog 与 AWS Neuron 的新集成,它通过提供对资源利用率、模型执行性能、延迟和实时基础设施运行状况的深度可观察性来帮助您监控 AWS Trainium 和 AWS Inferentia 实例,使您能够优化机器学习 (ML) 工作负载并实现大规模高性能。

AWS Neuron AWS Trainium AWS Inferentia

Neuron 是用于在基于 Trainium 和 Inferentia 的实例上运行深度学习工作负载的 SDK。AWS AI 芯片 Trainium 和 Inferentia 使您能够以更高的性能和更低的成本构建和部署生成式 AI 模型。随着大型模型的使用越来越多,需要大量加速计算实例,可观察性在 ML 操作中起着关键作用,使您能够提高性能、诊断和修复故障以及优化资源利用率。

Datadog 是一个可观察性和安全性平台,为云基础设施和 ML 操作提供实时监控。Datadog 很高兴推出其 Neuron 集成,它将 Neuron SDK 的 Neuron Monitor 工具收集的指标拉入 Datadog,使您能够跟踪基于 Trainium 和 Inferentia 的实例的性能。通过提供对模型性能和硬件使用情况的实时可见性,Datadog 可帮助您实现高效的训练和推理、优化资源利用率并防止服务减速。

Neuron 集成 Neuron 监控器

Trainium 和 Inferentia 的全面监控

启用集成

Datadog 的 Neuron 集成能够跟踪关键性能方面,为故障排除和优化提供关键见解:

LLM 可观察性

开始使用 Datadog 和 Inferentia 和 Trainium

AWS Inferentia 和 AWS Trainium 监控 LLM 可观察性 使用 Datadog 监控 Amazon Bedrock