神经网络的硬件实现是利用神经形态数据处理优势和利用与此类结构相关的固有并行性的里程碑。在这种情况下,具有模拟功能的忆阻设备被称为人工神经网络硬件实现的有前途的构建块。作为传统交叉架构的替代方案,在传统交叉架构中,忆阻设备以自上而下的方式以网格状方式组织,神经形态数据处理和计算能力已在根据生物神经网络中发现的自组织相似性原理实现的网络中得到探索。在这里,我们在图论的理论框架内探索自组织忆阻纳米线 (NW) 网络的结构和功能连接。虽然图度量揭示了图论方法与几何考虑之间的联系,但结果表明,网络结构与其传输信息能力之间的相互作用与与渗透理论一致的相变过程有关。此外,还引入了忆阻距离的概念来研究激活模式和以忆阻图表示的网络信息流的动态演变。与实验结果一致,新出现的短期动力学揭示了具有增强传输特性的自选择通路的形成,这些通路连接受刺激区域并调节信息流的流通。网络处理时空输入信号的能力可用于在忆阻图中实现非常规计算范式,这些范式充分利用了生物系统中结构和功能之间的固有关系。© 2022 作者。由 Elsevier Ltd. 出版。这是一篇根据 CC BY 许可开放获取的文章(http://creativecommons.org/licenses/by/4.0/)。
在动态环境中运行的边缘设备迫切需要能够持续学习而不会发生灾难性遗忘。这些设备中严格的资源限制对实现这一目标构成了重大挑战,因为持续学习需要内存和计算开销。使用忆阻器设备的交叉开关架构通过内存计算提供能源效率,并有望解决此问题。然而,忆阻器在电导调制中通常表现出低精度和高可变性,这使得它们不适合需要精确调制权重大小以进行整合的持续学习解决方案。当前的方法无法直接解决这一挑战,并且依赖于辅助高精度内存,导致频繁的内存访问、高内存开销和能量耗散。在这项研究中,我们提出了概率元可塑性,它通过调节权重的更新概率而不是大小来整合权重。所提出的机制消除了对权重大小的高精度修改,从而消除了对辅助高精度内存的需求。我们通过将概率元可塑性集成到以低精度忆阻器权重在错误阈值上训练的脉冲网络中,证明了所提机制的有效性。持续学习基准的评估表明,与基于辅助内存的解决方案相比,概率元可塑性实现了与具有高精度权重的最先进的持续学习模型相当的性能,同时用于附加参数的内存消耗减少了约 67%,参数更新期间的能量消耗减少了约 60 倍。所提出的模型显示出使用低精度新兴设备进行节能持续学习的潜力。
神经网络的硬件实现是利用神经形态数据处理优势和利用与此类结构相关的固有并行性的里程碑。在这种情况下,具有模拟功能的忆阻设备被称为人工神经网络硬件实现的有前途的构建块。作为传统交叉架构的替代方案,在传统交叉架构中,忆阻设备以自上而下的方式以网格状方式组织,神经形态数据处理和计算能力已在根据生物神经网络中发现的自组织相似性原理实现的网络中得到探索。在这里,我们在图论的理论框架内探索自组织忆阻纳米线 (NW) 网络的结构和功能连接。虽然图度量揭示了图论方法与几何考虑之间的联系,但结果表明,网络结构与其传输信息能力之间的相互作用与与渗透理论一致的相变过程有关。此外,还引入了忆阻距离的概念来研究激活模式和以忆阻图表示的网络信息流的动态演变。与实验结果一致,新出现的短期动力学揭示了具有增强传输特性的自选择通路的形成,这些通路连接受刺激区域并调节信息流的流通。网络处理时空输入信号的能力可用于在忆阻图中实现非常规计算范式,这些范式充分利用了生物系统中结构和功能之间的固有关系。© 2022 作者。由 Elsevier Ltd. 出版。这是一篇根据 CC BY 许可开放获取的文章(http://creativecommons.org/licenses/by/4.0/)。
有机 - 无机杂种钙钛矿(OIHP)已被证明是有希望的非易失性记忆的活动层,因为它们在地球,移动离子和可调节的尺寸中的丰富丰度。但是,缺乏对一维(1D)OIHP的可控制造和存储特性的研究。在这里,报告了1D(NH = CINH 3)3 PBI 5((IFA)3 PBI 5)钙钛矿和相关的电阻记忆特性。溶液处理的1D(IFA)3 PBI 5晶体具有良好定义的单斜晶相和长度约为6 mm的针状形状。它们表现出3 eV的宽带隙,高分解温度为206°C。此外,使用N,N-二甲基甲酰胺(DMF)和Dimethyl Sulfoxide(DMSO)的双溶剂获得了具有良好均匀性和结晶的(IFA)3 PBI 5薄膜。研究了这种各向异性材料的内在电性能,我们构建了仅由Au /(IFA)3 PBI 5 /ITO组成的最简单的存储单元,该电池构成了带有横式阵列设备构造的高型设备。电阻随机访问存储器(RERAM)设备具有双极电流 - 电压(I-V)磁滞特性,显示了所有基于OIHP的新闻器的记录低功耗〜0.2 MW。此外,我们的设备拥有最低的功耗和“设置”电压(0.2 V),其中最简单的基于钙钛矿的存储器设备(也包括无机设备),这不需要需要双金属电极或任何其他绝缘层。他们还表现出可重复的电阻切换行为和出色的保留时间。我们设想1D OIHP可以丰富低维杂种钙钛矿库,并为内存和其他电子应用程序领域中的低功率信息设备带来新的功能。
摘要 - 基于注意力的变压器的广泛采用和显着的计算资源成本,例如,视觉传输者和大型语言模型,驱动了对有效的硬件加速器的需求。尽管通常使用了电子加速器,但由于其高能量效率和超快速处理速度,人们对将光子学作为替代技术越来越兴趣。光子加速器已经证明了卷积神经网络(CNN)工作负载的有希望的结果,这些工作主要依赖重量 - 静态线性操作。但是,在有效地支持基于注意力的变压器体系结构方面,它们会遇到挑战,从而提出了有关光子学对高级机器学习任务的适用性的问题。主要障碍在于其不具体率在处理变压器固有的独特工作负载,即动态和全范围张量乘法。在这项工作中,我们提出了闪电转换器,第一个光功率,高性能和能量良好的光子变压器加速器。为了克服现有的光子张量核心设计的基本限制,我们引入了一种新型的动态动态光子张量核心DPTC,由基于干扰的光学矢量点发动机组成,支持高度平行,动态和全范围二元组乘积。此外,我们设计了一个专用的加速器,该加速器将我们的新型光子计算核与光子互连集成在一起,用于核心数据间广播,完全释放了光学功能。全面的评估表明,闪电转变器成就> 2。6×能量和> 12×延迟降低,并且与电子变压器加速器相比,能量成本最低,能量延迟产品低2至3个数量级,同时维持数字可靠的精度。我们的工作强调了光子学对于有效的硬件加速器的巨大潜力,尤其是用于高级机器学习工作负载,例如诸如变形金刚的大型语言模型(LLM)。我们的实施可在https://github.com/zhuhanqing/lightening-transformer上获得。
摘要卷积神经网络(Lecun and Bengio 1998脑理论与神经网络手册255-58; Lecun,Bengio和Hinton 2015 Nature 521 436-44)在现代信号处理和机器视觉中是最先进的,无处不在。如今,基于新兴纳米版的硬件解决方案旨在减少这些网络的功耗。 这是通过使用实现卷积滤波器并顺序乘以输入的连续子集的设备,或者通过使用不同的一组设备来并行执行不同的乘法,以避免将中间计算步骤存储在内存中。 SpinTronics设备由于提供了各种神经和突触功能,因此可以进行信息处理。 然而,由于其低/偏高/比率,在单个步骤中使用横杆式旋转记忆阵列进行卷积所需的所有乘法将导致偷偷摸摸的路径电流。 在这里,我们提出了一个建筑,其中突触通信基于共振效果。 这些突触通信具有频率选择性,可防止由偷偷摸摸电流引起的串扰。 我们首先演示了一系列自旋谐振器如何通过依次校正编码连续输入集的射频信号来充当突触并进行卷积。 我们表明,具有多个自旋谐振器的多个链可以实现并行实现。 我们为这些链条提出了两种不同的空间布置。如今,基于新兴纳米版的硬件解决方案旨在减少这些网络的功耗。这是通过使用实现卷积滤波器并顺序乘以输入的连续子集的设备,或者通过使用不同的一组设备来并行执行不同的乘法,以避免将中间计算步骤存储在内存中。SpinTronics设备由于提供了各种神经和突触功能,因此可以进行信息处理。然而,由于其低/偏高/比率,在单个步骤中使用横杆式旋转记忆阵列进行卷积所需的所有乘法将导致偷偷摸摸的路径电流。在这里,我们提出了一个建筑,其中突触通信基于共振效果。这些突触通信具有频率选择性,可防止由偷偷摸摸电流引起的串扰。我们首先演示了一系列自旋谐振器如何通过依次校正编码连续输入集的射频信号来充当突触并进行卷积。我们表明,具有多个自旋谐振器的多个链可以实现并行实现。我们为这些链条提出了两种不同的空间布置。对于每个人,我们解释了如何同时调整许多人工突触,从而利用了突触重量共享特定的卷积。我们通过使用自旋振荡器作为人工微波神经元来展示如何通过使用自旋振荡器在卷积层之间传输信息。最后,我们模拟了这些射频谐振器和自旋振荡器的网络,以求解MNIST手写数字数据集,并获得与软件卷积神经网络相当的结果。由于它可以与纳米设备的单一步骤完全平行运行卷积神经网络,因此本文提出的架构对于需要机器视觉的嵌入式应用程序(例如自主驾驶)很有希望。
2.1 (a) 垂直 MEMS 耦合器的 (a) 关闭状态和 (b) 开启状态示意图 - 图片取自 [14] (c) MEMS 开关单元的 SEM - 图片取自 [22] . . 7 2.2 MEMS 开关元件的代表性传递函数。 . . . . . . . . . . . . . 8 2.3 (a) 128x128 SiPh MEMS 纵横开关 (b) 4x4 CMOS 高压驱动芯片倒装芯片接合到 SiPh MEMS 芯片的 GDS 屏幕截图。 . . . . . . . . . . . . 9 2.4 (a) SuperSwitch 1 高压驱动芯片的显微照片 (b) 驱动芯片的卡通布局图。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.5 假设采用单个 CMOS 芯片,则激活 128 行中的 1 行的简单原理图。 . 11 2.6 假设采用 4x4 CMOS 芯片阵列,则控制 128x128 开关的原理图。 12 2.7 (a) N c = 1 时第 0 列和第 1 列的逻辑 (b) N c = 2 时第 0 列和第 1 列的逻辑。 13 2.8 (a) 带有用于调试的环回多路复用器的 SuperSwitch1 控制芯片扫描架构的最终原理图。 (b) SuperSwitch1 控制器芯片的最终参数。 . . . . . 14 2.9 (a) SuperSwitch1 高压驱动电路原理图。 (b) 所有电源及其标称值的列表。 . . . . . . ... 19 2.13 (a) HVDD = 70 V、HVSS = 65 V 时所有角的 VSS 电阻 shmoo 图。 (b) 相同图,但 HVDD = 70 V、HVSS = 66 V。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.16 (a) 凸块 CMOS 焊盘的显微照片。(b) Au UBM 和 Au 微凸块的横截面。(c) 使用不同厚度的 UBM 在 SiPh 芯片上补偿 CMOS 焊盘高度差异的键合工艺说明。. . . . . . . . . 22
神经形态计算广义上指使用非冯·诺依曼体系结构来模拟人脑的学习过程。术语“冯·诺依曼体系结构”表示任何存储程序计算机,由于它们共享一条公共总线,因此获取指令和数据操作可能不会同时发生,从而导致“冯·诺依曼瓶颈”,即在单独的内存和计算块之间进行耗能和耗时的数据传输。这种瓶颈限制了计算系统执行数据密集型任务的能力,随着现代机器学习模型的出现,对数据密集型任务的需求只会越来越大。此外,最近的一份报告显示,在“过度参数化模式”下运行的高度复杂的神经网络不会对训练数据中的虚假趋势进行过度拟合,而是比复杂度较低的神经网络对未知数据表现出更好的泛化能力 [ 1 ],这促使模型参数数量自 2015 年以来逐年呈指数增长,训练数据集的大小自 1988 年以来也呈指数增长 [ 2 , 3 ]。具体来说,过去十年见证了从 ResNet-50(> 10 7 个模型参数)到生成式预训练 Transformer 3(GPT-3)(> 10 11 个模型参数)的模型,以及从 ImageNet(~10 6 张图像)到 JFT-3B(> 10 9 幅图像)的数据集。通过克服电子通信、时钟、热管理和电力输送方面的瓶颈 [2],神经形态系统带来了可扩展硬件的希望,可以跟上深度神经网络的指数增长,从而让我们定义了神经形态计算的第一个主要方向:“加速”。那些关注加速的神经形态系统是为了提高现有机器学习模型的速度和能效而构建的,并且往往会产生相对直接的影响。一个常见的例子是深度神经网络前向传递中用于向量矩阵乘法 (VMM) 的交叉阵列。相比之下,我们将神经形态计算的第二个主要目标定义为“实现”,即在非冯·诺依曼架构中实现人类神经生物学功能。第二个目标的影响将比第一个目标更滞后,但代表了下一代机器学习模型的硬件实现,在脉冲神经网络 (SNN)、赫布学习和霍奇金-赫胥黎神经元模型领域取得了进展。
通过重新思考计算堆栈的所有层,包括硬件、软件和软硬件基本方法和方案 [1, 2, 4]。由于有望同时实现密集存储和节能模拟处理,基于非易失性电阻技术的内存计算已成为克服上述挑战的一种有吸引力的解决方案。非易失性电阻器件是一种具有可编程电阻的双端器件,可以使用忆阻器 [11, 35]、电阻随机存取存储器 (ReRAM) [23, 38]、相变存储器 (PCM) [20, 39] 或自旋转移力矩磁性随机存取存储器 (STT-RAM) [18, 31] 来实现。通过将新兴设备集成到电阻交叉阵列 (RCA) 中,可以在模拟域中执行近似矩阵向量乘法 (MVM)。这是很有希望的,因为计算比数字域中的能源效率高得多(数量级)[17]。通过将矩阵存储在内存中并现场执行计算,数据移动也大大减少[9, 32]。此外,MVM 是许多 AI 应用中的主要计算,例如深度学习 [22]、图像处理 [24] 和图形分析 [34]。利用模拟内存计算的主要挑战是,各种错误和变化源可能会降低计算精度。这包括设备写入错误、非零阵列寄生效应、有限的设备产量、电阻漂移、温度变化、随机电报噪声和有限的设备耐久性。此外,在模拟域中引入的任何错误都可能损害加速应用程序的功能正确性。例如,神经网络的硬件分类准确性可能明显低于软件级别。相反,数字计算系统中的稳健性问题只会引入时序违规,可以使用动态电压频率缩放 (DVFS) 来缓解。为了在系统级性能上提供保证,需要在设备级、算法级和软件应用程序级进行协同创新。虽然设备级研究人员不断尝试改进制造设备的特性,但开发所需的算法和软件级支持变得迫在眉睫。在本文中,我们回顾了使用模拟内存计算加速 AI 应用所面临的挑战、解决方案和未来研究方向。第 4 节概述了未来研究的机会。第 2 节讨论了模拟矩阵向量乘法的基本概念、目标 AI 应用以及不同误差的建模。第 3 节回顾了在算法和软件层面上提高对误差的鲁棒性的最新解决方案。第 5 节总结了本文。
学术出版物H. T. Huang,J。Luo,J。L. Wu,X。E. Han,Z。D. 2023,doi:10.1109/led.2023.3306015 Z. Y. Yin,Y。Chen,Y。Y. Y. Y. Zhang,Y。Yuan,Y。Yuan,Q. Yang,Y。N.表面缺陷”,高级功能材料,2023,33,2302199。M. T. Jiang,Q. Yang,J。L. Xu*,Y. Yuan,J.Y。Zhang,Y。N. Zhong,Y。N.C. H.H. Zong,M。Wang,W。N。Chen,Z. D. 19300-19306。J. R. Chen,Z。N. Lu,C。H. Zhu,J。W. Cai,Z. D. Zhang,Y。N.Z. D.X. Y. Zhang,J。L. Xu*,S。Ren,Q. Yang,M。J. Liu,X。H.