在工作负载频谱的极端,P核为计算密集型,基于向量的工作负载(例如AI)提供了最佳解决方案。电子访问最适合于任务并行基于标量的工作负载,例如微服务。在这些极端之间,两个微体系结合结合在一起,允许高度用途和互补的解决方案。例如,具有ETEL 6处理器具有电子芯的系统可用于保护功率,以便在具有p-ocors的Intel Xeon 6处理器上运行的AI和科学工作负载可用。数据中心使用Intel Xeon 6处理器与P-cores和具有电子核的Intel Xeon 6处理器混合在一起,可以利用其平台通用性,从一个核心类型过渡到另一个核心类型,具体取决于性能和功率需求。广泛的选项组合使数据中心可以随着业务的增长而扩展。
复杂模型。其模块化设计从八个SYS-822GA-NGR3Intel®Gaudi®AI服务器解决方案的单个群集段开始,可以扩展到512个节点(4,096 GPU,64个群集段),同时又适应了增长AI工作量。其灵活性和能源效率使组织能够在AI创新的最前沿管理运营成本。由Intel®Gaudi®3AI加速器和Intel®Xeon®6带有性能核的处理器,SuperMicro正在构建专门构建的群集,可用于运行各种多租户数据中心的所有尺寸的深度学习工作负载。凭借Supermicro在大规模建立数据中心方面已经有经验的专业知识,因此创建解决方案作为生成AI计算能力,价格,能源效率和市场可用性的可行替代方案令人兴奋。
从根本上讲,英特尔主张内置的加速能力可以有效地提高CPU核心计数和复杂性的性能。从我们看来,英特尔已经证明了前一代Xeon可伸缩处理器在特定的现实世界中每瓦提供突破性的性能,已经具有广泛的可信度。因此,客户和用户获得了更有效的CPU使用,减少功耗和提高投资回报率的范围。总的来说,英特尔通过英特尔内置加速器创新,英特尔正在重新定义竞争格局,以使内置加速能力和每核绩效在数据中心和云环境中最高的选择标准。
CAE是JSP业务成功的重要组成部分。在密歇根州麦迪逊高地的JSP北美总部的一支小型团队,使用ANSYS LS-DYNA软件进行了所有公司的CAE工作,以进行各种静态和动态分析。这些CAE研究用于开发最终产品以及用于制造产品的工具(或模具)的优化。作为其客户支持承诺的一部分,该集团还为每个客户提供了CAE材料模型。“客户可以将这种模型纳入自己的设计和工程工作中,” JSP的首席产品开发工程师Nurul Huda说。“例如,汽车客户可以预测其保险杠设计将如何以各种速度处理碰撞的影响。”
人工智能无处不在,涉及各种关键工作负载。从核心企业应用程序到自动语音服务员,经典机器学习 (ML) 和深度学习模型正在成为业务运作的基本构建模块。大规模使用人工智能依赖于从数据预处理到训练再到部署的漫长开发流程。每个步骤都有自己的开发工具链、框架和工作负载——所有这些都会产生独特的瓶颈并对计算资源提出不同的要求。英特尔至强可扩展处理器具有内置加速器,可用于开箱即用地运行整个流程并全面提高人工智能性能。英特尔® 加速器引擎是专门构建的集成加速器,支持最苛刻的新兴工作负载。
在本设计测试中,我们使用 BERT-Large 无大小写(全词掩码)预训练模型作为模型检查点。该模型包含 3.4 亿个参数。我们使用斯坦福问答数据集 (SQuAD) v1.1 数据集进行微调分析。用例要求按照英特尔架构 Model Zoo 在线存储库文档 中所述执行。为了展示使用可扩展端到端企业 AI 堆栈解决方案进行 BERT-Large 微调的性能和可扩展性,我们使用了潜在的英特尔优化,例如针对 oneDNN 优化的 TensorFlow 和用于分布式训练的 Horovod。Horovod 与英特尔® MPI 库 一起部署,进一步利用了英特尔在 MPI 层的优化。我们使用容器映像和一组 MPIJob 规范文件在 Kubeflow 的训练运算符上运行 BERT-Large 工作负载。
英特尔® TensorFlow 优化 与 Google 合作,TensorFlow 使用英特尔® oneAPI 深度神经网络库 (oneDNN) 的原语直接针对英特尔® 架构 (IA) 进行了优化。通过设置与 CPU 相关的配置 (--config=mkl) 编译的最新 TF 二进制版本已作为工具包的一部分包含在内。
Lenovo Thinksystem SR650 V3凭借Intel第五代处理器,为生成AI用例提供了高度性能且可扩展的解决方案,包括那些对成功用户体验的低延迟要求(例如实时聊天机器人)(目标延迟约为100ms)。它在单个2U服务器中提供了多个存储和网络选项,可适应各种业务需求,同时提供无缝的可扩展性以适应不断变化的需求。它支持DDR5-5600 mt/s的内存模块,以及一个或两个第五代英特尔Xeon处理器,该处理器融合了Intel Advanced Matrix扩展名(Intel AMX),以满足尖端AI工作负载的计算密集要求。此外,它包含三个驱动器区域,该区域可支撑高达20x 3.5英寸或40x 2.5英寸热交换驱动式托架,以高效且可扩展的存储空间。
[1] [最高1.53倍的平均绩效增长在上一代。请参阅Intel.com/processorclaims:第四代Intel Xeon可伸缩处理器。结果可能会有所不同。][2] [用于实时推理和内置Intel AMX(BF16)与上一代(FP32)的实时推理和训练的pytorch性能高达10倍。请参阅Intel.com/ ProcessorClaims:第四代Intel Xeon可伸缩处理器。结果可能会有所不同。][3] [与上一代相比,第四代Xeon客户可以期望使用内置加速器时,目标工作负载的每瓦效率为2.9×1的平均性能提高。Geomean of following workloads: RocksDB (IAA vs ZTD), ClickHouse (IAA vs ZTD), SPDK large media and database request proxies (DSA vs out of box), Image Classification ResNet-50 (AMX vs VNNI), Object Detection SSD-ResNet-34 (AMX vs VNNI), QATzip (QAT vs zlib)。]
第四代英特尔Xeon可伸缩处理器包含几种加快各种工作量的高级技术。但是,特定的工作负载可以从CPU本身上的专用加速引擎中受益,从而大大提高性能,减少功耗以及减少特定工作量所需的内核数量。与前几代Intel Xeon可伸缩处理器(第二代和第三代)相比,每个CPU有更多的核心,更快的核心(基本时钟和涡轮增压),以及与CPU外部设备传达更快的设备的能力。这些新技术包括DDR5-4800MHz内存和PCIE Gen 5,它们与各种外围物进行通信。此外,第四代英特尔Xeon可伸缩处理器中最大的技术进步之一是内置的Intel加速器发动机,它可以提高工作量的性能远远超出了核心和时钟速率的增加。此SuperMicro产品简介更加仔细研究可用的加速器以及特定的工作负载将如何受益。