关于 AWS Trainium 和 Inferentia 的可编程性

使用自定义运算符加速 AI/ML 模型训练 — 第 4 部分照片由 Agata Bres 在 Unsplash 上拍摄在这篇文章中,我们继续探索通过自定义运算符开发来优化机器学习 (ML) 工作负载运行时的机会。这一次,我们重点介绍 AWS Neuron SDK 提供的工具,用于在 AWS Trainium 和 AWS Inferentia 上开发和运行新内核。随着推动 AI 革命的低级模型组件(例如注意层)的快速发展,用于训练和运行 ML 模型的加速器的可编程性至关重要。专用 AI 芯片必须为广泛使用且影响深远的通用 GPU (GPGPU) 开发框架(例如 CUDA 和 Triton)提供有价值的替代方案。在之前的文章(例如此处和此处)中,我们探讨了使用专用 AWS Neuron SDK 在 AWS 定制 AI 芯片上构建和运行 ML 模型的机会。在最新发布的 SDK(版本 2.20.0)中,AWS 引入了 Neuron 内核接口 (NKI),用于为 NeuronCore-v2 开发自定义内核,NeuronCore-v2 是支持 Trainium 和 Inferentia2 的底层加速器。NKI 接口加入了另一个支持 NeuronCore-v2 可编程性的 API,即 Neuron Custom C++ Operators。在这篇文章中,我们将探索这两个机会并实际展示它们。免责声明重要提示:本文不应被视为官方 AWS Neuron SDK 文档的替代品。在此

来源:走向数据科学

关于AWS Trainium和Pebleentia的可编程性

使用自定义操作员加速AI/ML模型培训 - 第4部分

agata bres Unplash

在这篇文章中,我们继续探索通过自定义操作员开发的机器学习(ML)工作负载的运行时优化机会。这次,我们专注于AWS Neuron SDK提供的工具,用于在AWS Trainium和AWS推理中开发和运行新内核。随着驱动AI革命的低级模型组件(例如注意层)的快速发展,用于训练和运行ML模型的加速器的可编程性至关重要。尤其是专用的AI芯片,必须为广泛使用且高度影响力的通用GPU(GPGPU)开发框架(例如CUDA和TRITON)提供有价值的替代方法。

aws Neuron SDK AWS Trainium aws推理 注意层 cuda Triton 在以前的帖子(例如,这里和此处)中,我们探索了使用专用AWS神经元SDK在AWS定制的AI芯片上构建和运行ML模型的机会。在其最新版本的SDK(版本2.20.0)中,AWS推出了神经元内核界面(NKI),用于开发用于Neuroncore-V2的自定义核,即神经元V2,这是为Trainium和Sexentia2供电的基础加速器。 NKI接口连接了另一个启用Neuroncore-V2可编程性,神经元自定义C ++操作员的API。在这篇文章中,我们将探索机会并在行动中证明它们。 在这里 2.20.0 神经元内核接口(NKI) neuroncore-v2 火车 推理2 神经元自定义C ++操作员 免责声明 aws Neuron SDK文档 开发神经元内核的自定义内核 正如我们在本系列文章中所讨论的那样,充分利用这些AI芯片的力量需要详细了解其低级体系结构。 以前的帖子 神经元核心体系结构 专用部分 加速引擎 神经元编译器 张量引擎 向量 标量 gpsimd nki 自定义C ++操作员 NKI指令集架构(ISA) numpy AWS Trainium aws推理 注意层 cuda

Triton

在以前的帖子(例如,这里和此处)中,我们探索了使用专用AWS神经元SDK在AWS定制的AI芯片上构建和运行ML模型的机会。在其最新版本的SDK(版本2.20.0)中,AWS推出了神经元内核界面(NKI),用于开发用于Neuroncore-V2的自定义核,即神经元V2,这是为Trainium和Sexentia2供电的基础加速器。 NKI接口连接了另一个启用Neuroncore-V2可编程性,神经元自定义C ++操作员的API。在这篇文章中,我们将探索机会并在行动中证明它们。 在这里 2.20.0 神经元内核接口(NKI) neuroncore-v2 火车 推理2 神经元自定义C ++操作员 免责声明 aws Neuron SDK文档 开发神经元内核的自定义内核 正如我们在本系列文章中所讨论的那样,充分利用这些AI芯片的力量需要详细了解其低级体系结构。 以前的帖子 神经元核心体系结构 专用部分 加速引擎 神经元编译器 张量引擎 向量 标量 gpsimd nki 自定义C ++操作员 NKI指令集架构(ISA) numpy 2.20.0 神经元内核接口(NKI) neuroncore-v2 火车

推理2

神经元自定义C ++操作员

免责声明

aws Neuron SDK文档

开发神经元内核的自定义内核

正如我们在本系列文章中所讨论的那样,充分利用这些AI芯片的力量需要详细了解其低级体系结构。

以前的帖子 神经元核心体系结构 专用部分 加速引擎 神经元编译器 张量引擎 向量 标量 gpsimd nki 自定义C ++操作员NKI指令集架构(ISA)numpy