使用 Datadog 增强 AWS Trainium 和 AWS Inferentia 的可观察性 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 Datadog 增强 AWS Trainium 和 AWS Inferentia 的可观察性

2024年11月26日 17:53 33 Comments

本博文将引导您了解 Datadog 与 AWS Neuron 的新集成，它通过提供对资源利用率、模型执行性能、延迟和实时基础设施运行状况的深度可观察性来帮助您监控 AWS Trainium 和 AWS Inferentia 实例，使您能够优化机器学习 (ML) 工作负载并实现大规模高性能。

来源:亚马逊云科技 _机器学习

本帖由 Datadog 的 Curtis Maher 和 Anjali Thatte 共同撰写。

本帖由 Datadog 的 Curtis Maher 和 Anjali Thatte 共同撰写。

本帖将带您了解 Datadog 与 AWS Neuron 的新集成，它通过提供对资源利用率、模型执行性能、延迟和实时基础设施运行状况的深度可观察性来帮助您监控 AWS Trainium 和 AWS Inferentia 实例，使您能够优化机器学习 (ML) 工作负载并实现大规模高性能。

AWS Neuron AWS Trainium AWS Inferentia

Neuron 是用于在基于 Trainium 和 Inferentia 的实例上运行深度学习工作负载的 SDK。AWS AI 芯片 Trainium 和 Inferentia 使您能够以更高的性能和更低的成本构建和部署生成式 AI 模型。随着大型模型的使用越来越多，需要大量加速计算实例，可观察性在 ML 操作中起着关键作用，使您能够提高性能、诊断和修复故障以及优化资源利用率。

Datadog 是一个可观察性和安全性平台，为云基础设施和 ML 操作提供实时监控。Datadog 很高兴推出其 Neuron 集成，它将 Neuron SDK 的 Neuron Monitor 工具收集的指标拉入 Datadog，使您能够跟踪基于 Trainium 和 Inferentia 的实例的性能。通过提供对模型性能和硬件使用情况的实时可见性，Datadog 可帮助您实现高效的训练和推理、优化资源利用率并防止服务减速。

Neuron 集成 Neuron 监控器

Trainium 和 Inferentia 的全面监控

启用集成

Datadog 的 Neuron 集成能够跟踪关键性能方面，为故障排除和优化提供关键见解：

LLM 可观察性

开始使用 Datadog 和 Inferentia 和 Trainium

AWS Inferentia 和 AWS Trainium 监控 LLM 可观察性使用 Datadog 监控 Amazon Bedrock

深度故障排除 Datadog AWS 实例本帖高性能 Neuron 大规模机器学习可观察性优化 ML 利用率监控器运行状况 Trainium Inferentia 能够提高性能集成性能实时监控基础设施使用情况可见性资源工作负载安全性提供