技术和科学进步体现在三个层面。在服务器层面,开发了一种创新的低功耗管理系统,该系统可协调深度睡眠状态和动态电压频率调整,并为给定的工作负载和流量模式选择最佳的电源状态配置。在机架/数据中心层面,开发了一种新的工作负载调度算法,以提高数据中心层面的能源效率。这种新算法收集工作服务器的系统统计数据,以预测功率水平并触发负载迁移,以要求所有服务器以峰值能效运行。在数据中心层面,项目团队开发了一种解决方案,使数据中心能够通过调整其能源消耗来向电力市场提供辅助服务。
服务器是支持 AI 工作负载的基础计算基础设施,它可以根据工作负载的大小或类型使用 CPU、GPU 或两者作为计算资源。对于 HPC 或 AI 等更大或要求更高的工作负载,GPU 可提供最佳性能。GPU 具有多种外形尺寸,包括通用 PCIe、开放计算项目加速器模块 (OAM) 和专有的 NVIDIA SXM 架构,后者目前可提供最佳性能。1 大内存容量和服务器设计功能(例如冷却架构和功率效率)也会影响性能。大多数数据中心仍使用空气冷却,这意味着 AI 工作负载需要尽可能有效地用空气冷却的服务器。下面,我们将重点介绍 Dell PowerEdge 服务器产品的组件、冷却选项等,以及它们发布的 MLCommons ® MLPerf ® 分数。
数据库服务在exadata cloud@cultuers Infrastructure上运行的虚拟机(VM)群集中安全运行。可以提供多个VM簇,以通过更大的合并来增加价值。他们通过单独的访问规则和网络配置以及可自定义的计算,内存和存储资源为不同的数据库工作负载提供隔离的操作环境。每个VM群集都可以运行自主数据库或EXADATA数据库服务,该数据允许在同一基础架构上与Exadata数据库服务一起部署自主数据库,从而消除了为这些服务部署单独的系统的需求。vm群集可以跨越基础架构中的数据库服务器的一个子集,其中一个数据库服务器最小值,以更好地使资源与工作负载要求更好地对齐。VM簇通过云控制平面提供。
重要的是要了解Gigamon位于网络中的位置,以更好地了解其提供的独特可见性。Gigamon网络TAPS是Gigamon Deep可观察性管道不可或缺的一部分,是在混合云环境中获得一致的深度可观察性的第一步。水龙头可以观察到2-7层的流量。gigamon不是第3层通信途径的一部分,也不参与第3层流量。这些设备可观察网络中各个位置的流量。此外,Gigamon对流量进行了深入的数据包检查。虽然它不寻找威胁,但它可以从外部网络观察应用程序和使用协议中提供丰富的元数据。外部表示行为是从应用程序,过程或工作负载之外观察到的,而不是从内部应用程序,过程或工作负载日志中得出的。
Microsoft与提供专业知识的认证合作伙伴网络(FastTrack Ready Partners或FRPS)一起工作,以部署Microsoft 365解决方案。这些合作伙伴帮助组织浏览部署过程,自定义满足您特定需求的方法,并提供额外的支持,以确保成功采用以有效利用您的服务。合作伙伴还建议其他服务(除了FastTrack福利之外),以增强您的部署体验。这些服务是根据您的特定要求和需求确定的。NHS的FastTrack福利描述确定了FRPS将为参与该计划的国家卫生服务(NHS)组织提供的指导范围。特定的工作负载和准则已被定制为NHS使用的唯一中央租户配置,并且可能会更改。每个工作负载有四(4)个部分:
数据库服务在exadata cloud@cultuers Infrastructure上运行的虚拟机(VM)群集中安全运行。可以提供多个VM簇,以通过更大的合并来增加价值。他们通过单独的访问规则和网络配置以及可自定义的计算,内存和存储资源为不同的数据库工作负载提供隔离的操作环境。每个VM群集都可以运行自主数据库或EXADATA数据库服务,该数据允许在同一基础架构上与Exadata数据库服务一起部署自主数据库,从而消除了为这些服务部署单独的系统的需求。vm群集可以跨越基础架构中的数据库服务器的一个子集,其中一个数据库服务器最小值,以更好地使资源与工作负载要求更好地对齐。VM簇通过云控制平面提供。
当今,构建 IT 基础架构的挑战性从未如此之大。许多终端用户工作负载(例如半导体设计、自动驾驶开发以及生命科学和医疗保健)每天都在变得越来越复杂。这种复杂性带来了对 IT 的需求。另一个复杂因素是数据足迹也在增长,通常是呈指数级增长。难怪 IT 管理员难以保持一致的基础架构性能,因为恶意应用程序(和用户)有时会使基础架构超载,从而导致整个组织的性能问题。虽然有可用于监控性能的工具,但这些工具缺乏领域知识(它们是千篇一律的),因此主要用于在问题发生后向管理员发出警报。理想情况下,IT 管理员希望能够根据其特定的工作负载组合来预测何时会出现性能挑战,并有足够的时间完全避免它们。
各种规模、用例和技术技能的组织都在寻找基础设施解决方案,以加速其人工智能 (AI)、机器学习 (ML) 和深度学习 (DL) 计划。WekaIO™ (Weka) 和 NVIDIA® 合作构建并验证了每个人都可以使用的高性能可扩展 AI 解决方案。本文档包含 Weka AI™ 参考架构 (RA) 解决方案的验证信息。该设计使用多达四个 NVIDIA DGX™ A100 系统、NVIDIA® Mellanox® Spectrum™ 以太网和 NVIDIA Mellanox Quantum™ InfiniBand 交换机实现。NVIDIA 和 Weka 使用行业标准基准测试工具验证了该系统的运行和性能。根据验证测试结果,该架构为训练工作负载提供了出色的线性扩展。组织可以从小规模开始,轻松独立地将计算和存储资源扩展到具有可预测性能的多机架配置,以满足任何 ML 工作负载要求。