由于您的 PC 能够从云端卸载工作负载,因此它可以决定每个工作负载的处理位置,以便为您提供最佳性能。中央处理器 (CPU) 响应速度快,非常适合处理不需要太多计算能力的小型工作负载。图形处理器 (GPU) 专门处理需要高吞吐量的大型工作负载,并且可以在并行路径上处理多个任务。神经处理单元 (NPU) 非常适合并行任务和对功率敏感的工作负载,并且可以帮助节省能源。
由于您的 PC 能够从云端卸载工作负载,因此它可以决定每个工作负载的处理位置,以便为您提供最佳性能。中央处理器 (CPU) 提供快速响应,非常适合不需要太多计算能力的小型工作负载。图形处理器 (GPU) 专门处理需要高吞吐量的大型工作负载,并且可以在并行路径上处理多个任务。神经处理单元 (NPU) 非常适合并行任务和功率敏感型工作负载,并有助于节省能源。
随着人工智能 (AI) 和机器学习 (ML) 工作负载的增加,云数据中心需要专用的 AI 处理能力来卸载服务器和通用中央处理器 (CPU)。AI 处理和加速通常通过使用高效图形处理单元 (GPU)、神经处理单元 (NPU) 或定制 AI 加速器来实现。AI 处理/加速卡可能具有不同的外形尺寸。例如:• 插入服务器的 PCI Express ® 卡• 可放入标准 19 英寸或 24 英寸笔记本电脑的服务器式盒子
摘要 — 神经形态计算利用时间数据的稀疏性,通过在每个时间步骤激活一小部分神经元和突触来降低处理能量。当部署用于边缘系统中的分割计算时,远程神经形态处理单元 (NPU) 可以通过使用稀疏脉冲无线电 (IR) 波形进行异步通信来降低通信功率预算。这样,输入信号稀疏性直接转化为计算和通信方面的节能。然而,对于红外传输,总能耗的主要贡献者仍然是维持主无线电开启所需的功率。这项工作提出了一种新颖的架构,将唤醒无线电机制集成到由远程、无线连接的 NPU 组成的分割计算系统中。基于唤醒无线电的神经形态分割计算系统设计的一个关键挑战是选择用于感知、唤醒信号检测和决策的阈值。为了解决这个问题,作为第二项贡献,本研究提出了一种新颖的方法,该方法利用物理系统的数字孪生 (DT)(即模拟器)以及称为“先学习后测试 (LTT)”的顺序统计测试方法,提供理论上的可靠性保证。所提出的 DT-LTT 方法广泛适用于其他设计问题,并在此展示了神经形态通信。实验结果验证了设计和分析,证实了理论上的可靠性保证,并说明了可靠性、能耗和决策信息量之间的权衡。
1 英特尔公司可编程解决方案事业部 2 多伦多大学和矢量研究所 3 卡内基梅隆大学 { andrew.boutros, eriko.nurvitadhi } @intel.com 摘要 — 人工智能 (AI) 的重要性和计算需求日益增长,导致了领域优化硬件平台的出现。例如,Nvidia GPU 引入了专门用于矩阵运算的张量核心,以加速深度学习 (DL) 计算,从而使 T4 GPU 的峰值吞吐量高达 130 int8 TOPS。最近,英特尔推出了其首款针对 AI 优化的 14nm FPGA Stratix 10 NX,其内置 AI 张量模块可提供高达 143 int8 TOPS 的估计峰值性能,堪比 12nm GPU。然而,实践中重要的不是峰值性能,而是目标工作负载上实际可实现的性能。这主要取决于张量单元的利用率,以及向/从加速器发送数据的系统级开销。本文首次对英特尔的 AI 优化 FPGA Stratix 10 NX 进行了性能评估,并与最新的 AI 优化 GPU Nvidia T4 和 V100 进行了比较,这些 GPU 都运行了大量的实时 DL 推理工作负载。我们增强了 Brainwave NPU 覆盖架构的重新实现,以利用 FPGA 的 AI 张量块,并开发了工具链支持,使用户能够仅通过软件对张量块进行编程,而无需在循环中使用 FPGA EDA 工具。我们首先将 Stratix 10 NX NPU 与没有张量块的 Stratix 10 GX/MX 版本进行比较,然后对 T4 和 V100 GPU 进行了详细的核心计算和系统级性能比较。我们表明,我们在 Stratix 10 NX 上增强的 NPU 实现了比 GPU 更好的张量块利用率,在批处理 6 时,与 T4 和 V100 GPU 相比,平均计算速度分别提高了 24 倍和 12 倍。即使在允许批处理大小为 32 的宽松延迟约束下,我们仍分别实现了与 T4 和 V100 GPU 相比 5 倍和 2 倍的平均速度提升。在系统级别,FPGA 的细粒度灵活性及其集成的 100 Gbps 以太网允许以比通过 128 Gbps PCIe 本地访问 V100 GPU 少 10 倍和 2 倍的系统开销延迟进行远程访问,分别用于短序列和长序列 RNN。索引术语 — FPGA、GPU、深度学习、神经网络
未来的专注于现在的AI转换在这里,联想ThinkPad X1 Carbon为明天的IT愿景提供了为您提供的。Intel®Core™Ultra Proceser 具有Microsoft Studio Effects的Intel®NPU,具有11个顶部,是Intel®Core™Ultra Prokessor,非常适合提高日常生产力的发挥效率,持续的AI。 这种三层混合动力芯片的性能明显更高,同时降低了功耗,提高安全性和可管理性。 用户在拔掉电源时可获得优化的性能,同时节省电源,以延长电池寿命和生产率。 基于IntelVpro®和Intel®EVO™版本,该Lenovo ThinkPad赋予了它所需的东西以及用户所需的东西。 将其连接到您的iOS或Android智能手机的无缝连接,并使用Intel®Unison连接到快速文件传输,语音呼叫和文本消息。具有Microsoft Studio Effects的Intel®NPU,具有11个顶部,是Intel®Core™Ultra Prokessor,非常适合提高日常生产力的发挥效率,持续的AI。这种三层混合动力芯片的性能明显更高,同时降低了功耗,提高安全性和可管理性。用户在拔掉电源时可获得优化的性能,同时节省电源,以延长电池寿命和生产率。基于IntelVpro®和Intel®EVO™版本,该Lenovo ThinkPad赋予了它所需的东西以及用户所需的东西。将其连接到您的iOS或Android智能手机的无缝连接,并使用Intel®Unison连接到快速文件传输,语音呼叫和文本消息。
虽然半导体行业组织预测两年内芯片需求将增长 15%,但下游组织(依赖半导体供应来提供产品或服务和运营的组织)预计其芯片需求将以 29% 的更高增长率增长。人工智能 (AI) 和生成式人工智能 (Gen AI) 的普及推动了对专用神经处理单元 (NPU) 和高性能图形处理单元 (GPU) 的需求,这些单元可以高效处理大量计算和大型数据集。此外,下游组织预计未来 12 个月对人工智能芯片、定制硅片和内存密集型芯片的需求将增加。
1 西北工业大学陕西省柔性电子研究所 (SIFE) 和陕西省生物医学材料与工程研究所 (SIBME) 柔性电子前沿科学中心 (FSCFE),西安市友谊西路 127 号 710072 2 四川大学电子信息工程学院,成都市一环路南一段 24 号 610064 3 西安理工大学先进电化学能源研究所 & 材料科学与工程学院,陕西省西安市 710048 4 南京工业大学 (NanjingTech) 江苏国家先进材料协同创新中心 (SICAM) 柔性电子重点实验室 (KLOFE) & 先进材料研究院 (IAM),南京市普珠南路 30 号 211816
用户生产力AI使人们能够实现新的生产率水平。视觉和音频效果可帮助员工在远程协作的同时,与针对Intel®Core™Ultra Processor优化的顶级企业解决方案进行协作。个人助理和大型语言模型有望简化日常工作流程,开会准备和项目管理。特定的Intel®Core™Ultra Mobile Proceser(系列2)可以为这些苛刻的AI工作负载提供动力,从而提供响应能力和较低的延迟用户所需的功能。CPU,GPU和NPU的组合功率使更高质量的工作在内容创建,数据可视化,设计,研究以及商业专业人员共有的类似任务的领域更快地执行。intel®Core™Ultra处理器启用各地AI PC的更好业务成果。
缩写 解释 AI 人工智能 API 应用程序编程接口 ASIC 专用集成电路 CPU 中央处理单元 DDA 数据驱动算法 EC2 弹性计算云 FPGA 现场可编程门阵列 eduroam 教育漫游 FTP 文件传输协议 GPU 图形处理单元 HPC 高性能计算 HW 硬件 IaaS 基础设施即服务 LPDNN 低功耗深度神经网络 LSF 负载共享设施 ML 机器学习 NLP 自然语言处理 NNM 神经网络模型 NPU 神经处理单元 PaaS 平台即服务 POSIX 便携式操作系统接口 QoS 服务质量 SME 中小型企业 SoC 片上系统 SLURM 简单的 Linux 资源管理实用程序 SSD 固态硬盘 SSH 安全外壳协议 WebDAV 基于 Web 的分布式创作和版本控制 WP 工作包