在本设计测试中,我们使用 BERT-Large 无大小写(全词掩码)预训练模型作为模型检查点。该模型包含 3.4 亿个参数。我们使用斯坦福问答数据集 (SQuAD) v1.1 数据集进行微调分析。用例要求按照英特尔架构 Model Zoo 在线存储库文档 中所述执行。为了展示使用可扩展端到端企业 AI 堆栈解决方案进行 BERT-Large 微调的性能和可扩展性,我们使用了潜在的英特尔优化,例如针对 oneDNN 优化的 TensorFlow 和用于分布式训练的 Horovod。Horovod 与英特尔® MPI 库 一起部署,进一步利用了英特尔在 MPI 层的优化。我们使用容器映像和一组 MPIJob 规范文件在 Kubeflow 的训练运算符上运行 BERT-Large 工作负载。
本文是基于跨越架构、工程、项目管理和产品管理等职能领域的技术专家团队的共同努力而创作的,特别是 Alexander Kanevskiy、Antti Kervinen、Atanas Atanasov、Brian Meaney、Chris MacNamara、Denisio Togashi、Derek Chilcote Bacco、Eero Tamminen、Eric Adams、Feruzjon Muyassarov、Gershon Schatzberg、Jukka Rissanen、 Krisztian Litkey、Lukasz Danilczuk、Madalina Lazar、Matti-Pekka Sivosuo、Markus Lehtonen、Marlow Weston、Martin Xu、Michael Fu、Michael Kadera、Mikko Ylinen、Patricia Cahill、Peter Mangan、Philip Brownlow、Samu Kaajas、Tuomas Katila、Thijs Metsch 和 Ukri Niemimuukko。这里要列出的还有很多,但可以通过点击广泛的参考资料部分来查看许多相关个人和团队的更详细的文档和代码。
人工智能无处不在,涉及各种关键工作负载。从核心企业应用程序到自动语音服务员,经典机器学习 (ML) 和深度学习模型正在成为业务运作的基本构建模块。大规模使用人工智能依赖于从数据预处理到训练再到部署的漫长开发流程。每个步骤都有自己的开发工具链、框架和工作负载——所有这些都会产生独特的瓶颈并对计算资源提出不同的要求。英特尔至强可扩展处理器具有内置加速器,可用于开箱即用地运行整个流程并全面提高人工智能性能。英特尔® 加速器引擎是专门构建的集成加速器,支持最苛刻的新兴工作负载。
英特尔® TensorFlow 优化 与 Google 合作,TensorFlow 使用英特尔® oneAPI 深度神经网络库 (oneDNN) 的原语直接针对英特尔® 架构 (IA) 进行了优化。通过设置与 CPU 相关的配置 (--config=mkl) 编译的最新 TF 二进制版本已作为工具包的一部分包含在内。