超维计算 (HDC) 是一种新兴的计算框架,其灵感来自大脑,它对具有数千个维度的向量进行操作以模拟认知。与对数字进行操作的传统计算框架不同,HDC 与大脑一样,使用高维随机向量,并且能够进行一次性学习。HDC 基于一组定义明确的算术运算,具有很强的错误恢复能力。HDC 的核心操作以批量逐位方式操纵 HD 向量,提供了许多利用并行性的机会。不幸的是,在传统的冯·诺依曼架构中,HD 向量在处理器和内存之间的连续移动会使认知任务变得非常缓慢且耗能。硬件加速器只能略微改善相关指标。相比之下,即使是内存中 HDC 框架的部分实现也可以提供相当大的性能/能量增益,正如之前使用忆阻器的工作所证明的那样。本文介绍了一种基于赛道内存 (RTM) 的架构,用于在内存中执行和加速整个 HDC 框架。所提出的解决方案利用 RTM 中跨多个域的读取操作(称为横向读取 (TR))来实现异或 (XOR) 和加法运算,从而只需极少的额外 CMOS 电路。为了最大限度地减少 CMOS 电路开销,提出了一种基于 RTM 纳米线的计数机制。以语言识别为示例工作负载,所提出的 RTM HDC 系统与最先进的内存实现相比,将能耗降低了 8.6 倍。与使用 FPGA 实现的专用硬件设计相比,基于 RTM 的 HDC 处理在整体运行时间和能耗方面分别实现了 7.8 倍和 5.3 倍的提升。
超维计算 (HDC) 是一种新兴的计算框架,其灵感来自大脑,它对具有数千个维度的向量进行操作以模拟认知。与对数字进行操作的传统计算框架不同,HDC 与大脑一样,使用高维随机向量,并且能够进行一次性学习。HDC 基于一组定义明确的算术运算,具有很强的错误恢复能力。HDC 的核心操作以批量逐位方式操纵 HD 向量,提供了许多利用并行性的机会。不幸的是,在传统的冯·诺依曼架构中,HD 向量在处理器和内存之间的连续移动会使认知任务变得非常缓慢且耗能。硬件加速器只能略微改善相关指标。相比之下,即使是内存中 HDC 框架的部分实现也可以提供相当大的性能/能量增益,正如先前使用忆阻器的工作所证明的那样。本文介绍了一种基于赛道内存 (RTM) 的架构,用于在内存中执行和加速整个 HDC 框架。所提出的解决方案利用 RTM 中跨多个域的读取操作(称为横向读取 (TR))来实现异或 (XOR) 和加法运算,从而只需要极少的额外 CMOS 电路。为了最大限度地减少 CMOS 电路开销,提出了一种基于 RTM 纳米线的计数机制。以语言识别为示例工作负载,与最先进的内存实现相比,所提出的 RTM HDC 系统将能耗降低了 8.6 倍。与使用 FPGA 实现的专用硬件设计相比,基于 RTM 的 HDC 处理在整体运行时间和能耗方面分别展示了 7.8 倍和 5.3 倍的改进。
摘要 — 混合存储器系统由新兴的非易失性存储器 (NVM) 和 DRAM 组成,已被提出用于满足应用程序日益增长的存储器需求。相变存储器 (PCM)、忆阻器和 3D XPoint 等新兴 NVM 技术具有更高的容量密度、最小的静态功耗和更低的每 GB 成本。然而,与 DRAM 相比,NVM 具有更长的访问延迟和有限的写入耐久性。两种存储器类别的不同特性指向包含多种主存储器类别的混合存储器系统的设计。在新架构的迭代和增量开发中,模拟完成的及时性对于项目进展至关重要。因此,需要一种高效的模拟方法来评估不同混合存储器系统设计的性能。混合存储器系统的设计探索具有挑战性,因为它需要模拟整个系统堆栈,包括操作系统、内存控制器和互连。此外,用于内存性能测试的基准应用程序通常具有更大的工作集,因此需要更长的模拟预热期。本文提出了一种基于 FPGA 的混合存储系统仿真平台。我们的目标是移动计算系统,该系统对能耗敏感,并且可能会采用 NVM 来提高能效。在这里,由于我们的平台专注于混合存储系统的设计,因此我们利用板载硬 IP ARM 处理器来提高模拟性能,同时提高结果的准确性。因此,用户可以使用 FPGA 逻辑元件实现其数据放置/迁移策略,并快速有效地评估新设计。结果表明,与软件 Gem5 相比,我们的仿真平台在模拟时间上加快了 9280 倍。索引术语 — 硬件仿真、FPGA 加速器、内存系统、NVM
在二维材料中,过渡金属二硫属化物 (TMD) 因其优异的性能而备受关注。[1,2] TMD 的化学式为 MX 2 ,其中 M 是过渡金属原子(例如 Mo、W),X 代表硫属原子(例如 S、Se、Te)。[2,3] 与其他 TMD 相比,二碲化钼 (MoTe 2 ) 因其工艺可调的同素异形相,即金属 1T' 和半导体 2H 相,最近引起了强烈的研究兴趣。 [4,5] 1T'相具有正交结构,也是获得优异拓扑性质的前兆阶段,并且在单层和多层水平上作为量子自旋霍尔效应的宿主以及在单斜 T d 相中作为原始 1T'相的低温畸变而出现的 II 型 Weyl 半金属态具有特殊的意义。[6,7] 随着厚度的减小,MoTe 2 表现出从间接到直接的带隙跃迁,而其带隙相对其他 TMD 较低 [8,9],范围从块体的 0.8 eV 到单层极限的 1.1 eV。[10] 此外,由于 1T'-MoTe 2 的电导率远高于 2H 相,1T'相在固态电池电极、电化学电容器和氢析出反应方面很有前景。 [11] 另一方面,2H-MoTe 2 由于其带隙小、吸附性强、热导率低等特点,在纳米技术中具有作为二维层状材料的潜力。[10,12] 由于两种同素异形相之间的能量差异很小,MoTe 2 成为研究相变特性的独特模型材料,具有许多相关应用,如微电子领域的二维非挥发性存储器件和忆阻器。[13,14] 此外,由于 2H-MoTe 2 具有高载流子迁移率、光学透明性、薄结构和化学稳定性,它是场效应晶体管、光电子学、储能、化学和生物传感等应用的合适候选材料。[15,16] 作为一种有前途的材料,清晰的理解和可重复的生长方法对于将 MoTe 2 从实验室水平提升到生产水平至关重要。传统上,可以通过机械剥离、物理
和非结构化数据。[1,2] 在大脑中,信息储存在突触中,突触中有一个裂缝连接两个神经细胞(神经元)。 当输入刺激到达前神经元时,神经递质会从前神经元分泌出来,与后神经元上的受体结合,并调节离子传输通道(图 1a)。[3] 离子通过通道的动态通过激活/停用离子通透性通道的形成(即电导更新)在增强/减弱突触权重方面起着至关重要的作用。[3] 根据突触前刺激,突触权重会暂时维持或持续数分钟、数小时甚至更长时间,并可充当记忆状态。 开发一种通过类似离子的动力学更新电导的人工突触将非常接近地模拟生物突触的行为,并最终可以模拟各种生物神经操作。漂移忆阻器已经成功模拟了具有长期增强 (LTP) 和长期抑制 (LTD) 特性的电导更新,但本质上是随机的 [4] 并且需要额外的扩散元件来模拟离子动力学。[5] 3 端器件结构(例如晶体管)可以调节离子,因此是人工突触的有希望的候选者。[6–13] 电解质门控晶体管无需额外电路即可控制离子。[6,7] 然而,实现电解质门控晶体管的长期可塑性一直具有挑战性,主要是因为器件不稳定性(例如,接触处的寄生电化学反应引起)。[6–8] 铁电场效应晶体管 (FeFET) 提供了一种出色的器件架构,通过控制铁电栅极的极化来编程/擦除非易失性多电导状态,从而控制突触权重。 [9] 铁电栅极已用于调节 FeFET 的电导率,FeFET 采用各种半导体作为沟道材料,包括氧化铟镓锌 (IGZO) [9–11] 、二维材料 [12,13] 和聚合物。[42] 然而,用缺乏离子的半导体材料模拟离子动力学几乎是不可能实现的。因此,需要一种能够传导离子并保持其电子结构的沟道材料。金属卤化物钙钛矿半导体因其独特的离子-电子混合导电特性,是用于人工突触的有前途的材料。[14–16] 高迁移率、大扩散长度和长载流子寿命等显著的电子导电特性使得
和非结构化数据。[1,2] 在大脑中,信息储存在突触中,突触中有一个裂缝连接两个神经细胞(神经元)。 当输入刺激到达前神经元时,神经递质会从前神经元分泌出来,与后神经元上的受体结合,并调节离子传输通道(图 1a)。[3] 离子通过通道的动态通过激活/停用离子通透性通道的形成(即电导更新)在增强/减弱突触权重方面起着至关重要的作用。[3] 根据突触前刺激,突触权重会暂时维持或持续数分钟、数小时甚至更长时间,并可充当记忆状态。 开发一种通过类似离子的动力学更新电导的人工突触将非常接近地模拟生物突触的行为,并最终可以模拟各种生物神经操作。漂移忆阻器已经成功模拟了具有长期增强 (LTP) 和长期抑制 (LTD) 特性的电导更新,但本质上是随机的 [4] 并且需要额外的扩散元件来模拟离子动力学。[5] 3 端器件结构(例如晶体管)可以调节离子,因此是人工突触的有希望的候选者。[6–13] 电解质门控晶体管无需额外电路即可控制离子。[6,7] 然而,实现电解质门控晶体管的长期可塑性一直具有挑战性,主要是因为器件不稳定性(例如,接触处的寄生电化学反应引起)。[6–8] 铁电场效应晶体管 (FeFET) 提供了一种出色的器件架构,通过控制铁电栅极的极化来编程/擦除非易失性多电导状态,从而控制突触权重。 [9] 铁电栅极已用于调节 FeFET 的电导率,FeFET 采用各种半导体作为沟道材料,包括氧化铟镓锌 (IGZO) [9–11] 、二维材料 [12,13] 和聚合物。[42] 然而,用缺乏离子的半导体材料模拟离子动力学几乎是不可能实现的。因此,需要一种能够传导离子并保持其电子结构的沟道材料。金属卤化物钙钛矿半导体因其独特的离子-电子混合导电特性,是用于人工突触的有前途的材料。[14–16] 高迁移率、大扩散长度和长载流子寿命等显著的电子导电特性使得
和非结构化数据。[1,2] 在大脑中,信息储存在突触中,突触中有一个裂缝连接两个神经细胞(神经元)。 当输入刺激到达前神经元时,神经递质会从前神经元分泌出来,与后神经元上的受体结合,并调节离子传输通道(图 1a)。[3] 离子通过通道的动态通过激活/停用离子通透性通道的形成(即电导更新)在增强/减弱突触权重方面起着至关重要的作用。[3] 根据突触前刺激,突触权重会暂时维持或持续数分钟、数小时甚至更长时间,并可充当记忆状态。 开发一种通过类似离子的动力学更新电导的人工突触将非常接近地模拟生物突触的行为,并最终可以模拟各种生物神经操作。漂移忆阻器已经成功模拟了具有长期增强 (LTP) 和长期抑制 (LTD) 特性的电导更新,但本质上是随机的 [4] 并且需要额外的扩散元件来模拟离子动力学。[5] 3 端器件结构(例如晶体管)可以调节离子,因此是人工突触的有希望的候选者。[6–13] 电解质门控晶体管无需额外电路即可控制离子。[6,7] 然而,实现电解质门控晶体管的长期可塑性一直具有挑战性,主要是因为器件不稳定性(例如,接触处的寄生电化学反应引起)。[6–8] 铁电场效应晶体管 (FeFET) 提供了一种出色的器件架构,通过控制铁电栅极的极化来编程/擦除非易失性多电导状态,从而控制突触权重。 [9] 铁电栅极已用于调节 FeFET 的电导率,FeFET 采用各种半导体作为沟道材料,包括氧化铟镓锌 (IGZO) [9–11] 、二维材料 [12,13] 和聚合物。[42] 然而,用缺乏离子的半导体材料模拟离子动力学几乎是不可能实现的。因此,需要一种能够传导离子并保持其电子结构的沟道材料。金属卤化物钙钛矿半导体因其独特的离子-电子混合导电特性,是用于人工突触的有前途的材料。[14–16] 高迁移率、大扩散长度和长载流子寿命等显著的电子导电特性使得
通过重新思考计算堆栈的所有层,包括硬件、软件和软硬件基本方法和方案 [1, 2, 4]。由于有望同时实现密集存储和节能模拟处理,基于非易失性电阻技术的内存计算已成为克服上述挑战的一种有吸引力的解决方案。非易失性电阻器件是一种具有可编程电阻的双端器件,可以使用忆阻器 [11, 35]、电阻随机存取存储器 (ReRAM) [23, 38]、相变存储器 (PCM) [20, 39] 或自旋转移力矩磁性随机存取存储器 (STT-RAM) [18, 31] 来实现。通过将新兴设备集成到电阻交叉阵列 (RCA) 中,可以在模拟域中执行近似矩阵向量乘法 (MVM)。这是很有希望的,因为计算比数字域中的能源效率高得多(数量级)[17]。通过将矩阵存储在内存中并现场执行计算,数据移动也大大减少[9, 32]。此外,MVM 是许多 AI 应用中的主要计算,例如深度学习 [22]、图像处理 [24] 和图形分析 [34]。利用模拟内存计算的主要挑战是,各种错误和变化源可能会降低计算精度。这包括设备写入错误、非零阵列寄生效应、有限的设备产量、电阻漂移、温度变化、随机电报噪声和有限的设备耐久性。此外,在模拟域中引入的任何错误都可能损害加速应用程序的功能正确性。例如,神经网络的硬件分类准确性可能明显低于软件级别。相反,数字计算系统中的稳健性问题只会引入时序违规,可以使用动态电压频率缩放 (DVFS) 来缓解。为了在系统级性能上提供保证,需要在设备级、算法级和软件应用程序级进行协同创新。虽然设备级研究人员不断尝试改进制造设备的特性,但开发所需的算法和软件级支持变得迫在眉睫。在本文中,我们回顾了使用模拟内存计算加速 AI 应用所面临的挑战、解决方案和未来研究方向。第 4 节概述了未来研究的机会。第 2 节讨论了模拟矩阵向量乘法的基本概念、目标 AI 应用以及不同误差的建模。第 3 节回顾了在算法和软件层面上提高对误差的鲁棒性的最新解决方案。第 5 节总结了本文。
• 电气与计算机工程:VLSI 设计、可再生能源系统和智能电网、电力电子和电力驱动、无传感器电力驱动、电动汽车、电动汽车充电、网络物理系统、电力电子系统的网络安全、燃料电池、混合储能系统、生物医学信号处理、生物识别和计算机视觉、超越 CMOS 的 VLSI 设计、无线通信、5G 和海量物联网、VLSI 中的机器学习、物理设计自动化算法、半导体器件、用于高频应用的高电子迁移率晶体管建模、用于低功耗逻辑实现的忆阻器逻辑、用于内存计算(IMC)的低功耗可靠存储器、用于空间应用的 SRAM、高性能感测放大器设计、用于无线通信的深度学习、无线电资源管理、MIMO 通信、非正交多址技术、PHY 和 MAC 层的优化、动态频谱接入、用于半导体应用的高 k 纳米材料的合成 • 化学:混合聚合物和纳米材料、响应性聚合物;用于储能应用的过渡金属氧化物和氮化物纳米结构的设计和合成;设计用于氢能的生物催化剂,用于柔性电子的二维材料•数学:数值分析;微分方程;偏微分方程分析;图像处理;随机控制;概率和统计;流体动力学;运筹学;工业和教育中的调度和时间表制定;有限群论;数值线性代数;和机器学习、金融数学•机械与航空航天工程:计算力学、理论固体力学、太阳能热能、制冷与空调、电池热管理、传热、微流体、生物流体动力学、生物力学建模与仿真、纳米材料、网络物理系统、先进制造系统、机器人、缆绳驱动机器人、外骨骼、外骨骼、无人机、钛合金 Ti6AI4V 板料成型、航空航天材料成型、轧制、航空航天材料制造过程模拟、增材制造、激光制造方法、增材制造的数值建模与仿真、先进精加工工艺等、智能制造、i4.0、工业工程、计算机辅助设计、湍流建模、燃烧建模、大涡模拟、直接数值模拟、湍流-化学相互作用、摩擦学、高超音速层流到湍流转变、采用氢和氢燃料的超燃冲压发动机推进、高速流动中的再生冷却、计算涡轮机械、高速反应和非反应流动中的 CFD 代码开发。
联合国大会(2015 年)制定了一项议程,其中包含 17 个目标,需要在全球范围内到 2030 年实现,以促进可持续的未来。实现这些目标需要设计和实施更有效的战略来管理复杂系统,包括人类及其社会、世界经济、城市地区、自然生态系统和气候(Gentili,2021a)。一项有前途的战略,即正在蓬勃发展的战略,依赖于人工智能 (AI) 和机器人技术的发展。人工智能帮助人类收集、存储和处理监测复杂系统不断演变所需的大数据(Corea,2019 年)。人工智能还帮助我们下定决心控制复杂系统的行为。硬机器人和软机器人让人类能够进入原本无法进入的环境。例如,它们帮助我们(1)研究其他行星的地球化学特征、考察海洋深渊以发现新的贵重材料和能源矿藏;(2)进入人体内部器官进行侵入性较小的手术;(3)在肮脏或危险的地方工作。开发人工智能的主要传统方法有两种(Lehman 等人,2014 年;Mitchell,2019 年)。第一种方法是编写在基于冯·诺依曼架构的电子计算机上运行的“智能”软件,该架构的主要缺点是处理单元和存储单元在物理上是分开的。一些软件模仿严谨的逻辑思维,而另一些软件模仿神经网络的结构和功能特征来学习如何从数据中执行任务。开发人工智能的第二种方法是在神经假体的硬件中实现人工神经网络,或设计类似大脑的计算机,将处理器和内存限制在同一空间中(所谓的内存计算;Sebastian 等人,2020 年)。如果人工神经网络由硅基电路或无机忆阻器制成,则它们是刚性的;如果基于有机半导体薄膜,则它们是柔性的(Christensen 等人,2022 年;Lee and Lee,2019 年;Wang 等人,2020 年;Zhu 等人,2020 年)。它们可以采用三种不同的架构进行设计:(A1)前馈(具有可训练的单向连接)、(A2)循环(具有可训练的反馈动作)或(A3)储层(由未训练的非线性动态系统与可训练的输入和输出层耦合而成)网络(Nakajima,2020 年;Tanaka 等人,2019 年;Cucchi 等人,2022 年;见图 1A)。在过去十年左右的时间里,一种开发人工智能的新颖而有前途的策略被提出:它包括通过湿件(即液体)中的分子、超分子和系统化学来模仿人类智能和所有其他生物所表现出的智能形式