基于机器学习的应用程序的大量增长和摩尔定律的终结迫切需要重新设计计算平台。我们提出了 Lightning,这是第一个可重构的光子电子智能 NIC,用于满足实时深度神经网络推理请求。Lightning 使用快速数据路径将流量从 NIC 馈送到光子域,而不会产生数字数据包处理和数据移动瓶颈。为此,Lightning 利用了一种新颖的可重构计数动作抽象,可以跟踪每个推理包所需的计算操作。我们的计数动作抽象通过计算每个任务中的操作数将计算控制平面与数据平面分离,并在不中断数据流的情况下触发下一个任务的执行。我们使用四个平台评估 Lightning 的性能:原型、芯片综合、仿真和模拟。我们的原型展示了以 99.25% 的准确率执行 8 位光子乘法累加运算的可行性。据我们所知,我们的原型是频率最高的光子计算系统,能够以 4.055 GHz 的速度端到端处理实时推理查询。我们对大型 DNN 模型的模拟表明,与 Nvidia A100 GPU、A100X DPU 和 Brainwave smartNIC 相比,Lightning 将平均推理服务时间分别加快了 337 × 、329 × 和 42 × ,同时消耗的能量分别减少了 352 × 、419 × 和 54 × 。
嘈杂证据或反对选择的噪声逐渐积累是感知决策过程中的主要步骤。使用小鼠中的大脑电生理记录(Steinmetz等,2019),我们检查了跨大脑区域的证据积累的神经相关性。我们证明了具有漂移扩散模型(DDM)样的发射速率活性(即,对循证敏感的渐变发射速率)的神经元分布在整个大脑中。探索了类似DDM的神经的证据积累的潜在神经机制,发现在整个大脑区域内部和整个大脑区域内都发现了不同的积累机制(即单一和种族)。我们的发现支持以下假设:证据积累正在通过大脑中的多种整合机制发生。我们进一步探讨了单个和种族蓄能器模型中集成过程的时间尺度。结果表明,每个大脑区域内的累加微电路在其整合时间尺度上具有不同的特性,这些特性在整个大脑的层次上组织。这些发现支持在多个时间尺度上积累证据的存在。除了整个大脑的整合时间尺度的变化外,在每个大脑区域内还观察到时间尺度的异质性。我们证明了这种可变性反映了微电路参数的多样性,因此具有较长积分时间尺度的累加器具有更高的复发强度。
非平衡浴中示踪物扩散的一般问题在从细胞水平到地理长度尺度的广泛系统中都很重要。在本文中,我们重新讨论了这种系统的典型示例:一组小的被动颗粒浸没在无相互作用的偶极微游泳体的稀悬浮液中,这些微游泳体代表细菌或藻类。特别是,我们考虑了由于微游泳体流场对示踪物的持续平流而导致的热(布朗)扩散和流体动力学(主动)扩散之间的相互作用。以前,有人认为,即使是适量的布朗扩散也足以显著减少示踪物平流的持续时间,从而导致有效主动扩散系数 DA 的值与非布朗情况相比显著降低。在这里,我们通过大规模模拟和动力学理论表明,这种影响实际上只对那些实际上保持静止但仍搅动周围流体的微型游泳器(即所谓的振动器)具有实际意义。相比之下,对于生物微型游泳器悬浮液中相关的中等和高游泳速度值,布朗运动对 DA 的影响可以忽略不计,导致微型游泳器的平流和布朗运动的影响具有累加性。这一结论与文献中的先前结果形成对比,并鼓励重新解释最近对细菌悬浮液中不同大小的示踪颗粒的 DA 的实验测量。
卷积是许多应用的核心操作,包括图像处理、对象检测和神经网络。虽然数据移动和协调操作仍然是通用架构优化的重要领域,但对于与传感器操作融合的计算,底层的乘法累加 (MAC) 操作主导了功耗。非传统数据编码已被证明可以降低这种算法的能耗,其选项包括从低精度浮点到完全随机运算的所有选项,但所有这些方法都始于一个假设,即每个像素都已完成完整的模数转换 (ADC)。虽然模拟时间转换器已被证明消耗更少的能量,但除了简单的最小值、最大值和延迟操作之外,对时间编码信号进行算术操作以前是不可能的,这意味着卷积等操作已经遥不可及。在本文中,我们展示了时间编码信号的算术操作是可行的、实用的,并且极其节能。这种新方法的核心是将传统数字空间负对数变换为“延迟空间”,其中缩放(乘法)变为延迟(时间上的加法)。挑战在于处理加法和减法。我们展示了这些操作也可以直接在这个负对数延迟空间中完成,结合和交换性质仍然适用于变换后的运算,并且可以使用延迟元件和基本 CMOS 逻辑元件在硬件中高效地构建精确的近似值。此外,我们展示了这些操作可以在空间中链接在一起或在时间上循环操作。这种方法自然适合分阶段 ADC 读出
I.气候 - 绝缘,空气密封,门和窗户1。Tioga机会能源服务(必须符合堆)页:6 2。Nyserda-Empower,纽约(必须符合堆的资格)页:5 3。Nyserda辅助家庭绩效(如果累加收入为50%):5 II。重大维修 - 屋顶,基础,井,改建以访问那些残疾人。Urban:1。第一病房行动委员会,恢复和进入家庭(赠款)页面:4 2。影响项目页面:8 3。更多机会(赠款)页面:9 B.乡村:1。USDA农村发展第504条(赠款和贷款)页:7 2。第一病房行动委员会(赠款)页:4 3。影响项目页面:8 4。更多的机会(赠款)页面:9 III。次要维修 - 台阶,水龙头,抓杆,栏杆,灯,砌体和坡道1。对行动志愿者的信仰,将其提升(仅在夏季建造的免费坡道):3 2。第一病房行动委员会,老年人的家庭维修,(自由劳动;材料账单)页:4 3。影响项目页面:8 iv。炉修理和更换1。DSS紧急堆(如果被拒绝;以书面形式拒绝):2 2。tioga机会(如果被DSS拒绝):6 3。影响项目页面:8 V.逾期供暖费用高达$ 350 - 季节性援助1.项目共享 - 心脏份额(最高350美元)页:1 VI。电力保护升级 - 高效的冰箱和冰柜1。nyserda-empower ny(如果符合堆的资格,免费;
摘要 — 卷积神经网络 (CNN) 是最重要的深度神经网络 (DNN) 类别之一,有助于解决许多与图像识别和计算机视觉相关的任务。它们使用传统 CMOS 技术和数字设计技术的传统实现仍然被认为非常耗能。浮点 CNN 主要依赖于 MAC(乘法和累加)运算。最近,基于 XNOR 和位计数运算的经济高效的 Bite-wise CNN 已被视为可能的硬件实现候选。然而,由于内存和计算核心之间密集的数据提取导致的冯诺依曼瓶颈限制了它们在硬件上的可扩展性。XNOR-BITCOUNT 操作可以通过在忆阻交叉开关阵列上执行的内存计算 (IMC) 范例轻松实现。在新兴的忆阻设备中,自旋轨道扭矩磁随机存取存储器 (SOT-MRAM) 提供了具有更高导通电阻的可能性,从而可以降低读取电流,因为所有交叉开关阵列都是并行读取的。这有助于进一步降低能耗,为更大的交叉开关设计铺平道路。本研究提出了一种基于 SOT-MRAM 的交叉开关架构,能耗极低;我们研究了工艺变异性对突触权重的影响,并对整个交叉开关阵列进行了蒙特卡罗模拟,以评估错误率。模拟结果表明,与其他忆阻解决方案相比,此实现的能耗较低,每次读取操作的能耗为 65.89 fJ。该设计对工艺变化也具有很强的鲁棒性,读取误差极低,最高可达 10%。
摘要 — 本研究展示了一种可编程的内存计算 (IMC) 推理加速器,用于可扩展执行神经网络 (NN) 模型,利用高信噪比 (SNR) 电容模拟技术。IMC 加速计算并减少矩阵向量乘法 (MVM) 的内存访问,这在 NN 中占主导地位。加速器架构专注于可扩展执行,解决状态交换的开销以及在高密度和并行硬件中保持高利用率的挑战。该架构基于可配置的片上网络 (OCN) 和可扩展内核阵列,将混合信号 IMC 与可编程近内存单指令多数据 (SIMD) 数字计算、可配置缓冲和可编程控制集成在一起。这些内核支持灵活的 NN 执行映射,利用数据和管道并行性来解决跨模型的利用率和效率问题。介绍了一种原型,它采用了 16 nm CMOS 中演示的 4 × 4 核心阵列,实现了峰值乘法累加 (MAC) 级吞吐量 3 TOPS 和峰值 MAC 级能效 30 TOPS/W,均为 8 位操作。测量结果表明模拟计算具有很高的精度,与位真模拟相匹配。这实现了稳健且可扩展的架构和软件集成所需的抽象。开发的软件库和 NN 映射工具用于演示 CIFAR-10 和 ImageNet 分类,分别采用 11 层 CNN 和 ResNet-50,实现了 91.51% 和 73.33% 的准确度、吞吐量和能效、7815 和 581 图像/秒、51.5 k 和 3.0 k 图像/秒/W,具有 4 位权重和激活。
深度卷积神经网络 (DNN) 取得了显著成功,广泛应用于多种计算机视觉任务。然而,其庞大的模型规模和高计算复杂度限制了其在 FPGA 和 mGPU 等资源受限的嵌入式系统中的广泛部署。作为两种最广泛采用的模型压缩技术,权重剪枝和量化分别通过引入权重稀疏性(即强制将部分权重设为零)和将权重量化为有限位宽值来压缩 DNN 模型。尽管有研究尝试将权重剪枝和量化结合起来,但我们仍然观察到权重剪枝和量化之间的不协调,尤其是在使用更激进的压缩方案(例如结构化剪枝和低位宽量化)时。本工作以 FPGA 为测试计算平台,以处理单元(PE)为基本并行计算单元,首先提出一种 PE 级结构化剪枝方案,在考虑 PE 架构的同时引入权重稀疏化,并结合优化的权重三元化方法,将权重量化为三元值({- 1 , 0 , +1 }),将 DNN 中主要的卷积运算从乘法累加(MAC)转换为仅加法,同时将原始模型(从 32 位浮点数到 2 位三元表示)压缩至少 16 倍。然后,我们研究并解决了 PE-wise 结构化剪枝与三元化之间的共存问题,提出了一种自适应阈值的权重惩罚剪枝 (WPC) 技术。我们的实验表明,我们提出的技术的融合可以实现最佳的 ∼ 21 × PE-wise 结构化压缩率,而 ResNet- 18 在 ImageNet 数据集上的准确率仅下降 1.74%/0.94% (top-1/top-5)。
○ 与 A100 相比,新的第四代 Tensor Cores 芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。与上一代 16 位浮点选项相比,在每个 SM 上,Tensor Cores 在等效数据类型上提供 A100 SM 的 2 倍 MMA(矩阵乘法累加)计算速率,在使用新的 FP8 数据类型时提供 A100 的 4 倍速率。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 快 7 倍。两个例子包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。 ○ 与 A100 相比,由于每个 SM 的时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟频率,因此芯片到芯片的 IEEE FP64 和 FP32 处理速度提高了 3 倍。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。群集支持跨多个 SM 同时运行的多个线程块以同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持群集中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。 ● 新型 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型的训练和推理。Transformer Engine 可以智能地管理和动态地选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少对 HBM3 的访问。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽
○ 与 A100 相比,新的第四代 Tensor Cores 的芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。在每个 SM 的基础上,与上一代 16 位浮点选项相比,Tensor Cores 在等效数据类型上提供 2 倍的 A100 SM MMA(矩阵乘法累加)计算速率,使用新的 FP8 数据类型提供 4 倍的 A100 速率。Sparsity 功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 加速高达 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。○ 与 A100 相比,IEEE FP64 和 FP32 芯片间处理速度提高了 3 倍,这是由于每个 SM 的时钟对时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。集群支持跨多个 SM 同时运行的多个线程块同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。● 新的 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型训练和推理。Transformer Engine 可智能管理并动态选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少 HBM3 的访问次数。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽