详细内容或原文请订阅后点击阅览
使用 Datadog 增强 AWS Trainium 和 AWS Inferentia 的可观察性
本博文将引导您了解 Datadog 与 AWS Neuron 的新集成,它通过提供对资源利用率、模型执行性能、延迟和实时基础设施运行状况的深度可观察性来帮助您监控 AWS Trainium 和 AWS Inferentia 实例,使您能够优化机器学习 (ML) 工作负载并实现大规模高性能。
来源:亚马逊云科技 _机器学习本帖由 Datadog 的 Curtis Maher 和 Anjali Thatte 共同撰写。
本帖由 Datadog 的 Curtis Maher 和 Anjali Thatte 共同撰写。本帖将带您了解 Datadog 与 AWS Neuron 的新集成,它通过提供对资源利用率、模型执行性能、延迟和实时基础设施运行状况的深度可观察性来帮助您监控 AWS Trainium 和 AWS Inferentia 实例,使您能够优化机器学习 (ML) 工作负载并实现大规模高性能。
AWS Neuron AWS Trainium AWS InferentiaNeuron 是用于在基于 Trainium 和 Inferentia 的实例上运行深度学习工作负载的 SDK。AWS AI 芯片 Trainium 和 Inferentia 使您能够以更高的性能和更低的成本构建和部署生成式 AI 模型。随着大型模型的使用越来越多,需要大量加速计算实例,可观察性在 ML 操作中起着关键作用,使您能够提高性能、诊断和修复故障以及优化资源利用率。
Datadog 是一个可观察性和安全性平台,为云基础设施和 ML 操作提供实时监控。Datadog 很高兴推出其 Neuron 集成,它将 Neuron SDK 的 Neuron Monitor 工具收集的指标拉入 Datadog,使您能够跟踪基于 Trainium 和 Inferentia 的实例的性能。通过提供对模型性能和硬件使用情况的实时可见性,Datadog 可帮助您实现高效的训练和推理、优化资源利用率并防止服务减速。
Neuron 集成 Neuron 监控器Trainium 和 Inferentia 的全面监控
启用集成Datadog 的 Neuron 集成能够跟踪关键性能方面,为故障排除和优化提供关键见解:
LLM 可观察性