摘要:商用飞机驾驶舱是一个自然的多任务工作环境,其中经常以各种形式出现中断,在许多情况下导致航空事故报告。自动表征飞行员的工作负荷对于防止此类事故至关重要。此外,尽可能最小化生理传感器网络仍然是一项挑战和要求。脑电图 (EEG) 信号与特定的认知和心理状态(例如工作负荷)显示出高度相关性。但是,文献中没有足够的证据来验证模型在新的受试者执行与模型训练期间的工作负荷相似的任务的情况下的泛化能力。在本文中,我们提出了一个卷积神经网络,用于在连续性能任务测试中对不同心理负荷的 EEG 特征进行分类,该测试部分测量工作记忆和工作记忆容量。我们的模型在一般人群层面有效,并且能够将任务学习转移到模拟作战环境中的飞行员心理工作量识别。
通过提高深度学习工作负载的利用率来降低成本是云提供商的关键杠杆。我们推出了 Singularity,这是微软的全球分布式调度服务,可高效可靠地执行深度学习训练和推理工作负载。Singularity 的核心是一种新颖的工作负载感知调度程序,它可以透明地抢占和弹性扩展深度学习工作负载,以提高利用率,而不会影响它们在全球 AI 加速器(如 GPU、FPGA)中的正确性或性能。默认情况下,Singularity 中的所有作业都是可抢占、可迁移和动态调整大小(弹性)的:实时作业可以动态且透明地 (a) 被抢占并迁移到不同的节点、集群、数据中心或区域集,并从抢占点准确恢复执行,以及 (b) 在给定类型的不同加速器集上调整大小(即弹性地扩大/缩小)。我们的机制是透明的,因为它们不需要用户对其代码进行任何更改,也不需要使用任何可能限制灵活性的自定义库。此外,我们的方法显著提高了深度学习工作负载的可靠性。我们表明,使用 Singularity 可以获得效率和可靠性的提升,而对稳态性能的影响可以忽略不计。最后,我们的设计方法与 DNN 架构无关,并且可以处理各种并行策略(例如数据/管道/模型并行)。
摘要 — GPU 被广泛用于加速机器学习工作负载的训练。随着现代机器学习模型变得越来越大,它们需要更长的时间来训练,从而导致更高的 GPU 能耗。本文介绍了 GPOEO,这是一种用于机器学习训练工作负载的在线 GPU 能量优化框架。GPOEO 通过采用新颖的在线测量、多目标预测建模和搜索优化技术来动态确定最佳能量配置。为了表征目标工作负载行为,GPOEO 使用 GPU 性能计数器。为了减少性能计数器分析开销,它使用分析模型来检测训练迭代变化,并且仅在检测到迭代偏移时收集性能计数器数据。GPOEO 采用基于梯度提升的多目标模型和局部搜索算法来找到执行时间和能耗之间的权衡。我们通过将 GPOEO 应用于在 NVIDIA RTX3080Ti GPU 上运行的两个 AI 基准测试套件中的 71 个机器学习工作负载来评估它。与 NVIDIA 默认调度策略相比,GPOEO 平均节能 16.2%,平均执行时间略有增加 5.1%。
结论云原生技术的基础是 Kubernetes,部署、维护和升级可能很复杂。将 GPU 添加到组合中可能会带来另一层复杂性。但是,借助 Supermicro AS-1114S-WTRT WIO 系统、NVIDIA GPU 设备和 NVIDIA DeepOps 工具,组织可以更直接地构建私有云原生平台以及 MLOps 应用程序。从设计角度来看,AS-1114S-WTRT 作为灵活的云节点,可以满足硬件基础设施的计算、存储和虚拟化要求;从运营角度来看,DeepOps 使本地云原生平台更易于部署、维护和扩展。本文还展示了 Kubernetes POD 如何加速深度学习过程,从而缩短上市时间。参考 https://docs.nvidia.com/datacenter/cloud-native/index.html https://www.kubeflow.org/docs/started/kubeflow-overview/ AMD、AMD 箭头徽标、EPYC 及其组合是 Advanced Micro Devices, Inc. 的商标。
摘要 — 神经符号人工智能是人工智能研究的一个新领域,旨在将传统的基于规则的人工智能方法与现代深度学习技术相结合。神经符号模型已经证明了在图像和视频推理等领域超越最先进的深度学习模型的能力。它们还被证明能够以比传统模型少得多的训练数据获得高精度。由于该领域出现的时间较晚,且已发表的结果相对稀少,这些模型的性能特征尚不清楚。在本文中,我们描述和分析了三种近期神经符号模型的性能特征。我们发现,由于复杂的控制流和低操作强度运算(例如标量乘法和张量加法),符号模型的潜在并行性低于传统神经模型。然而,在它们明显可分离的情况下,计算的神经方面主导着符号部分。我们还发现数据移动会造成潜在的瓶颈,就像在许多 ML 工作负载中一样。索引术语 — 神经符号、机器学习、性能、推理
带有 SMT2 的 5+ GHz 无序流水线 重新设计的分支预测 – 集成的 1 级和 2 级 BTB – 动态 BTB 条目重新配置 – 最多 >270k 个分支目标表条目
加速器本身提供超过 6 TFLOPS 的 16 位浮点吞吐量,每个芯片可扩展到大约 200 TFLOPS。脉动阵列中的 1024 个处理器块组成矩阵阵列,256 个 fp16/32 块组成用于计算激活的加速器,并包含 RELU、tanH 和 log 的内置函数。该平台还提供企业级可用性和安全性,正如人们对 Z 的期望一样,具有虚拟化、错误检查/恢复和内存保护机制。虽然 6 TFLOPS 听起来并不令人印象深刻,但请记住,此加速器针对事务处理进行了优化。与语音或图像处理不同,大多数数据都是浮点数,并且高度结构化。因此,我们相信这款加速器将提供足够的性能,并且无疑比
公司越来越多地在网络边缘生成大量数据。为了从智能传感器和物联网数据中获得最大的商业价值,组织正在寻找支持边缘计算的实时事件流解决方案。计算要求高的工作越来越多地在数据中心之外的边缘执行。人工智能 (AI) 推理是这一趋势的驱动因素之一。边缘服务器为这些工作负载提供了足够的计算能力,尤其是在使用加速器时,但有限的存储通常是一个问题,尤其是在多服务器环境中。在这里,我们展示了如何在边缘环境中部署共享存储,以及它如何在不影响性能的情况下使 AI 推理工作负载受益。
性能因使用,配置和其他因素而异。在www.intel.com/performanceIndex上了解更多信息。性能结果基于配置中显示的日期的测试,并且可能无法反映所有公开可用的更新。有关配置详细信息,请参见备份。没有绝对安全的产品或组件。您的成本和结果可能会有所不同。英特尔不控制或审核第三方数据。您应该咨询其他来源以评估准确性。您的成本和结果可能会有所不同。Intel Technologies可能需要启用硬件,软件或服务激活。©Intel Corporation。英特尔,英特尔徽标和其他英特尔商标是英特尔公司或其子公司的商标。其他名称和品牌可能被称为他人的财产。052021/rjmj/rl/pdf请回收347108-001US
许多NFV工作负载必须以低潜伏期的形式交付才能满足严格的服务水平协议。这些工作负载中的许多具有独特的特征。该软件通常以轮询模式运行,从CPU的角度来看,利用率为100%。这是因为指令总是由CPU核心执行。使用数据平面开发套件(DPDK)的应用程序是此软件体系结构的典型特征。对于内核驱动程序,DPDK中使用的轮询模式驱动程序(PMD)似乎是100%忙碌的,即使可能有很少的数据包流动。因此,在100%利用案件中的内核电源州长并不总是适合电源管理,因为由于投票驱动程序的投票性质,核心利用总是被视为100%忙碌。除了投票外,DPDK软件线程通常不会与其他工作负载共享内核,并且通常与OS调度程序隔离,这意味着它们可以控制电源技术而不会影响核心上运行的其他软件。
