下一代无线、机器学习和其他计算密集型应用的需求呈非线性增长,这导致了 Versal™ ACAP AI 引擎的开发。AI 引擎、双核 Arm ® Cortex™-A72 和 Cortex-R5F 处理器 (PS) 以及下一代可编程逻辑 (PL) 都与高带宽 NoC 结合在一起,在 ACAP 中形成了一种新架构。AI 引擎和 PL 旨在相互补充,以处理与其优势相匹配的功能。凭借自定义内存层次结构、AI 互连上的多播流功能和 AI 优化的矢量指令支持,Versal ACAP AI 引擎针对各种计算密集型应用进行了优化,例如,支持所有传统无线电功能以及宽带/多频带功能的高级无线电系统、5G 无线通信(无需基于矢量 DSP 的 ASIC)以及通过实现确定性延迟和低神经网络延迟以及可接受的性能在数据中心应用中加速机器学习推理。
如果您无法访问互联网或无法下载相应的源代码,则 Xilinx 在此提供(此优惠在适用许可证要求的时间内有效;除非许可证禁止,否则我们可能会向您收取相关费用)在收到您对此类源代码的书面请求后向您提供此类源代码的副本(请具体说明您所询问的特定 Xilinx 软件(名称和版本号)),发送至:Xilinx, Inc. 收件人:法律部,软件合规官 2100 Logic Drive San Jose, CA 95124
© 版权所有 2021 Advanced Micro Devices, Inc. 保留所有权利。Xilinx、Xilinx 徽标、AMD、AMD 箭头徽标、Alveo、Artix、Kintex、Kria、Spartan、Versal、Vitis、Virtex、Vivado、Zynq 和本文中包含的其他指定品牌是 Advanced Micro Devices, Inc. 的商标。本出版物中使用的其他产品名称仅用于识别目的,可能是其各自公司的商标。AMBA、AMBA Designer、ARM、ARM1176JZ-S、CoreSight、Cortex 和 PrimeCell 是 ARM 在欧盟和其他国家/地区的商标。PCIe 和 PCI Express 是 PCI-SIG 的商标,经许可使用。在美国印刷。AC11-8-21
AMD Xilinx 的全新 Versal 自适应计算加速平台 (ACAP) 是一种 FPGA 架构,将可重构结构与其他片上强化计算资源相结合。AI 引擎就是其中之一,通过以高度矢量化的方式运行,它们提供了大量原始计算,这可能对包括 HPC 模拟在内的一系列工作负载有益。然而,这项技术仍处于早期阶段,尚未证明其可以加速 HPC 代码,缺乏基准测试和最佳实践。本文提供了一份经验报告,探讨了将 Piacsek 和 Williams (PW) 平流方案移植到 Versal ACAP 上,使用该芯片的 AI 引擎来加速计算。平流是一种基于模板的算法,在大气建模中很常见,包括最初开发该方案的几个气象局代码。使用该算法作为载体,我们探索了构建 AI 引擎计算内核的最佳方法,以及如何最好地将 AI 引擎与可编程逻辑连接起来。使用 VCK5000 与 VCK5000 和 Alveo U280 上的非 AI 引擎 FPGA 配置以及 24 核 Xeon Platinum Cascade Lake CPU 和 Nvidia V100 GPU 评估性能,我们发现虽然结构和 AI 引擎之间的通道数量是一个限制,但通过利用 ACAP,我们可以将性能提高一倍与 Alveo U280 相比。
7。码头WB。“切割神经性的conarii和tintorium cer ebelli对光周期的多种变化和活性转移的影响”。生理行为6(1971):681-688。
© 版权所有 2022 Advanced Micro Devices, Inc. 保留所有权利。Xilinx、Xilinx 徽标、AMD、AMD 箭头徽标、Alveo、Artix、Kintex、Kria、Spartan、Versal、Vitis、Virtex、Vivado、Zynq 和本文中包括的其他指定品牌是 Advanced Micro Devices, Inc. 的商标。本出版物中使用的其他产品名称仅用于识别目的,可能是其各自公司的商标。AMBA、AMBA Designer、ARM、ARM1176JZ-S、CoreSight、Cortex 和 PrimeCell 是 ARM 在欧盟和其他国家/地区的商标。PCIe 和 PCI Express 是 PCI-SIG 的商标,经许可使用。在美国印刷 SF81722
Xilinx AI 引擎专为各种应用(包括但不限于 5G 无线)中的密集计算而设计。一个 AI 引擎块由一个 AI 引擎、32KB 数据内存和两个用于自动数据传输的 DMA 引擎组成。每个 AI 引擎都配备了一个矢量处理器,该处理器能够在一个时钟周期内执行 32 个实数乘以实数 16 位乘法累加 (MAC) 运算。AI 引擎内的内存访问单元每个时钟周期读取 512 位操作数并写入 256 位计算结果,以匹配矢量处理器的功能。在单个 Versal™ AI Core 设备中,有数百个 AI 引擎块根据用户在编译时定义的数据流通过级联总线、AXI 流和共享本地内存互连。有关 AI 引擎的更多详细信息,请参阅 Xilinx AI 引擎及其应用 (WP506)。
快速傅里叶变换 (FFT) 广泛应用于各种信号处理算法,这些算法通常需要高吞吐量和可配置的 FFT 大小。本应用说明展示了 Xilinx ® Versal™ AI Core 设备中 AI 引擎阵列上的高效 FFT 实现。所提出的架构利用 AI 引擎阵列的分组交换功能,将 4096 个输入样本分发到四个 AI 引擎,在其中执行 512 点或 1024 点 FFT,然后使用另一个 AI 引擎根据控制字对 2048 点和 4096 点 FFT 的数据进行后处理,该控制字逐块指定 FFT 大小和 FFT/IFFT 模式。仿真结果证实,5x2 AI 引擎阵列中的两个 FFT 模块实现了 3.7 GSPS 的吞吐量,足以服务于 24-32 个 100 MHz 带宽的天线。
Alveo™ V70 加速器卡是首款利用 AMD XDNA™ 架构和 AI 引擎的 AMD Alveo 量产卡,为针对云和边缘应用的 CNN、RNN 和 NLP 加速提供紧密集成的异构计算平台。V70 旨在成为 AMD 产品组合中最节能的 AI 推理卡,针对视频分析和自然语言处理工作负载进行了优化,并提供行业标准框架支持,直接编译在 TensorFlow 和 PyTorch 中训练的模型。该卡是基于 PCIe® 的半高、半长、单插槽卡,支持服务器 PCIe 扩展槽中闭环热控制的被动冷却。该卡配备 7nm Versal® ACAP 设备,该设备具有集成的 AI 引擎核心,可补充自适应和标量引擎和 16 GB DDR4 内存。V70 具有低功耗和小尺寸外形,有助于降低每个 AI 通道的成本,并为视频应用提供高通道密度。
合规性对于所有合作伙伴来说,必须在地位的地位上保持全面的综合,并遵守适用的联邦,州,省,国际,国际和地方法律和法律和法规,该法规管理其在开展业务的所有地区的运营。BPCC不会覆盖或取代合作伙伴有义务观察并遵守的任何地方法律,规则或法规。标准BPCC建立在全球公认的标准上,包括但不限于联合国全球紧凑型原则,国际劳工组织(ILO)核心公约,人权宣言(UDHR)和制药供应链供应链倡议(PSCI)原则。这些框架是道德行为和负责业务的指导原则