随着深度学习网络和训练数据的复杂性呈指数级增长,人工智能研究人员的计算需求也不断增加。过去的训练仅限于一台或几台 GPU,通常是在工作站中进行。如今的训练通常使用数十台、数百台甚至数千台 GPU 来评估和优化不同的模型配置和参数。此外,组织中有多名人工智能研究人员,他们都需要同时训练多个模型。这种大规模的系统对人工智能研究人员来说可能很新奇,但这些装置一直是世界上最重要的研究机构和学术界的标志,推动了几乎所有类型的科学研究的创新。
各种规模、用例和技术技能的组织都在寻找基础设施解决方案,以加速其人工智能 (AI)、机器学习 (ML) 和深度学习 (DL) 计划。WekaIO™ (Weka) 和 NVIDIA® 合作构建并验证了每个人都可以使用的高性能可扩展 AI 解决方案。本文档包含 Weka AI™ 参考架构 (RA) 解决方案的验证信息。该设计使用多达四个 NVIDIA DGX™ A100 系统、NVIDIA® Mellanox® Spectrum™ 以太网和 NVIDIA Mellanox Quantum™ InfiniBand 交换机实现。NVIDIA 和 Weka 使用行业标准基准测试工具验证了该系统的运行和性能。根据验证测试结果,该架构为训练工作负载提供了出色的线性扩展。组织可以从小规模开始,轻松独立地将计算和存储资源扩展到具有可预测性能的多机架配置,以满足任何 ML 工作负载要求。
Buck 的证词为该公司提供了一个机会,引导联邦政府理解和使用人工智能,并帮助制定促进创新和制定法规的政策。这包括游说政府获得更多数据(用于训练人工智能模型)、增加研发投资,以及为鼓励人工智能的发展和采用而进行更广泛的努力,为未来劳动力做好准备。
企业内部 AI 的使用案例数量(包括语言建模、网络安全、自主系统和医疗保健等)持续快速增长。不仅使用案例数量在增长,模型复杂性和数据源也在增长。处理、训练和服务这些下一代模型所需的系统也必须增长。训练模型通常使用数十个 GPU 来评估和优化不同的模型配置和参数。对于这些新的工作负载,所有 GPU 都必须能够轻松访问训练数据。此外,组织有许多 AI 研究人员必须同时训练多个模型。企业需要灵活性,以便多个开发人员和研究人员在完善 AI 堆栈并将其投入生产时共享这些资源。
在 SpaceR 和 Spacety 的联合项目(HELEN 项目)中,一个用于验证碎片清除技术的接近真实的测试环境正在开发中。在项目中,我们将使用 Omniverse 集成虚拟和物理组件,即高保真照片级真实感在轨模拟与零重力实验室设施(机器人实验室),以重现可靠的测试条件。HELEN 将展示 Omniverse 增强地面试验台进行高保真测试、验证和确认的潜力,我们相信这将与未来太空资源技术的发展息息相关。我们还认为,未来的碎片减缓工作应以回收碎片中存在的资源为目标,其中包括有价值的材料(铝、金、银),如 [1] 中指出的那样。
A100 GPU 拥有 1.6 TB/s 的内存带宽,比上一代提升了 70% 以上。它还拥有更多片上内存,包括 40 MB 的二级缓存,几乎是上一代的 7 倍。DGX A100 还首次采用了第三代 NVIDIA ® NVLink ®,将 GPU 到 GPU 的直接带宽提高了一倍,达到 600 GB/s,几乎是 PCIe Gen 4 的 10 倍。这种前所未有的强大功能可以最快地解决问题,使用户能够应对以前不可能或不切实际的挑战,例如生成更快的风险计算或实现更高的欺诈检测率。
造成模型债务的主要原因是资源和工作流管理不力,这使得从原型到成功部署的模型难以得到指导。由于多个团队在共享 AI 基础架构上开展项目,管理访问变得具有挑战性。团队发现自己使用共享日历、电子表格和即时消息来解决日程安排冲突。随着 AI 团队的扩大,监控、报告和工作优先级等日常管理需求变得更加复杂。这导致团队争先恐后地使用硬件——有时即使没有正在运行的工作,也会无限期地保留一个或多个系统,以确保他们在需要时可以访问。在某些情况下,这些预留会长时间处于非活动状态——或者更糟的是,被遗忘——实际上是将容量扔进了垃圾箱。没有中央清算所可以决定可用硬件的用户和作业的优先级。
这种灵活的架构创建了一个分析生态系统的基础,该生态系统将最佳技术、人员和流程统一起来。建立一个 AI 卓越中心,数据科学家可以在其中部署他们需要的所有工具,以提供最大价值并在不同的团队之间进行协作。在同一基础架构中同时运行工作负载并提供对更大数据集的无缝、多协议访问的同时,保持计算、图形处理单元 (GPU) 和存储资源的最佳性能。
• wrnch CaptureStream – 一款免费应用程序,您可以将其下载到 iOS 设备或搭载 NVIDIA-GPU 的 PC 上,以执行无标记动作捕捉。在您捕捉人体动作时,wrnch 引擎会检测视频源中的人体,并使用强大的人体姿势估计算法来跟踪骨骼关节,以推断人体姿势和动作。wrnch 引擎使用 wrnch eXchange (wrXchang) 数据协议输出 3D 动画数据。• wrnch AI Pose Estimator 扩展是一款 Omniverse 扩展。使用此扩展,您可以搜索并查找在本地网络上运行的 wrnch CaptureStream 应用程序。当人体姿势数据实时传输到 Omniverse 时,该扩展会将 wrXchang 数据流转换为 USD(通用场景描述)——皮克斯为内容交换而开发的 3D 描述和格式文件,可将其映射到 Omniverse 中的 3D 虚拟角色。