摘要 量子计算机规模化的一个关键挑战是多个量子位的校准和控制。在固态量子点 (QD) 中,稳定量化电荷所需的栅极电压对于每个单独的量子位都是唯一的,从而产生必须自动调整的高维控制参数空间。机器学习技术能够处理高维数据(前提是有合适的训练集),并且过去已成功用于自动调整。在本文中,我们开发了极小的前馈神经网络,可用于检测 QD 稳定图中的电荷状态转变。我们证明这些神经网络可以在计算机模拟产生的合成数据上进行训练,并稳健地转移到将实验设备调整为所需电荷状态的任务上。此任务所需的神经网络足够小,可以在不久的将来在现有的忆阻器交叉阵列中实现。这为在低功耗硬件上小型化强大的控制元件提供了可能性,这是未来 QD 计算机片上自动调整的重要一步。
具有快速原型和重编程功能的光子综合电路(PIC)有望对众多光子技术产生革命性的影响。我们在低损耗相变材料(PCM)薄膜上报告了直接作用和重写光子电路。完整的端到端图片在一个步骤中直接写入激光写入,并没有其他制造过程,并且可以删除和重写电路的任何部分,从而促进快速设计的修改。我们证明了该技术用于不同应用的多功能性,包括用于可重构网络的光学互连织物,用于光学计算的光子横杆阵列以及用于光学信号处理的可调光滤波器。通过将直接激光写作技术与PCM相结合,我们的技术可以解锁可编程光子网络,计算和信号处理的机会。此外,可重写的光子电路可以以方便且具有成本效益的方式快速进行原型和测试,消除了对纳米化设施的需求,从而促进了更广泛的社区的道学研究和教育的扩散。
回忆设备已显示出巨大的希望,可以促进加速度并提高深度学习(DL)系统的功能效率。使用这些电阻随机访问mem-Ory(RRAM)设备构建的跨栏架构可用于实施各种内存计算操作,例如多重积累(MAC)和独立的卷积,这些卷积被广泛用于深度神经网络(DNNS)和卷积神经网络(Cnnns)和卷积神经网络(CNNS)(CNNS)(CNNS)。然而,回忆设备面临着衰老和非理想性的关注,这些设备限制了备忘录深度学习系统(MDLSS)的准确性,可靠性和鲁棒性,应在电路级别实现之前考虑。此原始软件出版物(OSP)介绍了Memtorch,这是一个开源1框架,用于大规模的大规模回忆DL模拟,并重新确定了对设备非思想的共同模拟的重点。MEMTORCH还促进了钥匙横梁外围电路的共同销售。Memtorch采用了现代化的软件工程方法,并直接与知名的Pytorch机器学习(ML)库集成。
摘要 - 迅速的神经网络(SNN)已获得了能源有效的机器学习能力,利用生物启发的激活功能和稀疏的二进制峰值数据表示。虽然最近的SNN算法进步在大规模的计算机视觉任务上达到了高度准确性,但其能源效率主张依赖于某些不切实际的估计指标。这项工作研究了两个硬件基准平台,用于大规模SNN推断,即SATA和Spikesim。SATA是一种稀疏感应的收缩阵列加速器,而Spikesim评估基于内存计算(IMC)的模拟横杆实现的SNN。使用这些工具,我们发现,由于各种硬件瓶颈,最近的SNN算法工作的实际能效提高与它们的估计值有很大差异。我们识别并解决了在硬件上有效的SNN部署的关键障碍,包括在时间段上的重复计算和数据移动,神经元模块开销和SNN易受跨键bar非理想性的脆弱性。
自从物联网和人工智能数据分析领域出现深度学习爆炸式增长以来,内存墙问题对现有计算架构的压力越来越大。研究人员正在寻找冯·纽曼架构之外的一些以内存为中心的计算范例。神经形态计算是解决人工智能硬件问题的新范例之一。本课程重点介绍神经形态计算,并通过案例研究展示其在物联网和人工智能应用中的强大功能。本课程将深入探讨神经形态计算的不同方面,以解锁无限可能并塑造人工智能和数据分析兼具效率的未来。加入这趟旅程吧,因为在当今世界,计算采用神经形态不仅仅是一种选择;而是一种必需品。 模仿生物神经网络、神经元结构、人工神经元建模、神经元和突触电路拓扑 神经形态硬件架构、基于忆阻器的神经网络架构、交叉架构和神经形态核心、使用忆阻器和 FeFET 的内存中心计算 与其他新兴存储设备和功能的神经形态计算 神经形态算法(STDP、LSM 等) 神经形态计算的应用 神经形态计算中的学习范式
光子整合电路是多模式光谱感觉系统的微型化解决方案。多模式光谱感官数据很复杂,具有较大的冗余性数据量,因此需要与高通信功率消耗相关的高通信带宽才能传输感官数据。为了规避这种高通信成本,光子传感器和处理器被带入亲密关系,并使用集成的硅光子卷积处理器提出了光子多模式内传感器计算系统。微区谐振器横梁阵列用作使用5位精度实现卷积操作的光子处理器,并通过图像边缘检测任务验证。证明了多模式光谱感觉数据的原位处理,进一步将处理器与光子光谱传感器整合在一起,从而实现了不同温度下不同类型和浓度的蛋白质种类的分类。在45个不同类别中,分类精度为97.58%。多模式内传感器计算系统展示了整合光子处理器和光子传感器以增强边缘光子设备的数据处理能力的可行性。
摘要 - 急流尖峰神经网络(SNN)的灵感来自生物神经系统的工作原理,这些原理提供了独特的时间动态和基于事件的处理。最近,通过时间(BPTT)算法的错误反向传播已成功地训练了局部的SNN,其性能与复杂任务上的人工神经网络(ANN)相当。但是,BPTT对SNN的在线学习方案有严重的局限性,在该场景中,需要网络同时处理和从传入数据中学习。特别是,当BPTT分开推理和更新阶段时,它将需要存储所有神经元状态以及时计算重量更新。要解决这些基本问题,需要替代信贷分配计划。在这种情况下,SNN的神经形态硬件(NMHW)实现可以极大地利用内存计算(IMC)概念,这些概念(IMC)概念遵循记忆和处理的脑启发性搭配,进一步增强了他们的能量效率。在这项工作中,我们利用了与IMC兼容的生物学启发的本地和在线培训算法,该算法近似于BPTT,E-Prop,并提出了一种支持使用NMHW的经常性SNN推理和培训的方法。为此,我们将SNN权重嵌入了使用相位变更内存(PCM)设备的内存计算NMHW上,并将其集成到硬件中的训练设置中。索引术语 - 在线培训,尖峰神经网络,神经形态硬件,内存计算,相位变化内存我们使用基于PCM的仿真框架和由256x256 PCM Crossbar阵列的14NM CMOS技术制造的内存内计算核心组成的NMHW开发了模拟设备的精确度和瑕疵的方法。我们证明,即使对4位精确度也是强大的,并实现了32位实现的竞争性能,同时为SNN提供了在线培训功能,并利用了NMHW的加速收益。
随着深度神经网络 (DNN) 在嵌入式设备上的广泛应用,硬件的能效和尺寸成为关注焦点。例如,最近基于 Arduino 的 MAIXDuino 套件集成了用于卷积神经网络 (CNN) 的 K210 神经网络处理器,旨在开发嵌入式人工智能 (AI) 和物联网 (IoT) 解决方案 [1],[2]。在这种 Edge-AI 加速器专用集成电路 (ASIC) 中,DNN 模型在图形处理单元 (GPU) 上使用基于梯度下降的反向传播或 Backprop 算法 [3]–[5] 进行离线训练,然后“传输”到“推理”ASIC。反向传播是计算密集型的,由于冯诺依曼瓶颈,大量数据在内存和 CNN 加速器之间不断穿梭,因此会消耗大量能量。人们越来越重视创新“非冯·诺依曼”架构,即在内存内部执行计算。此类架构有望利用超越摩尔或后 CMOS 非易失性存储器 (NVM) 技术 [6]。这需要对整个设备、电路和算法层次结构中的非冯·诺依曼计算架构进行跨层研究。神经启发或神经形态片上系统 (NeuSoC) 架构将内存计算与基于稀疏尖峰的计算和通信相结合,以实现接近生物大脑能效的超低功耗运行 [7]。基于 NVM 的计算架构采用 1R 或 1T1R 交叉开关或交叉点架构,其中 DNN 权重存储在 NVM 单元的状态中,神经元驻留在
13:20-14:10 使用模拟内存计算加速 AI Stefano Ambrogio (IBM 研究) 摘要:过去十年见证了 AI 在各种领域的广泛传播,从图像和视频识别和分类到语音和文本转录和生成。总体而言,我们观察到人们不断追求具有大量参数的大型模型。这导致计算工作量急剧增加,需要多个 CPU 和 GPU 来训练和推理神经网络。因此,硬件的改进变得越来越重要。为了适应改进的性能,内存计算提供了一个非常有趣的解决方案。虽然数字计算核心受到内存和处理器之间数据带宽的限制,但内存中的计算避免了权重转移,从而提高了功率效率和速度。演讲将描述一个总体概述,重点介绍我们自己的 14 纳米芯片,该芯片基于 34 个相变存储器技术交叉阵列,总共约有 3500 万个设备。我们在选定的 MLPerf 网络中展示了这种架构的效率,表明 Analog-AI 可以提供优于数字核心的功率性能,同时具有相当的准确性。然后,我们为开发可靠、高效的 Analog-AI 芯片的下一步提供了指导方针,特别关注实现更大、更完善的深度神经网络所需的架构约束和机会。
正是对建立一整套新的数学工具以分析和评估未来神经形态计算系统的启发。忆阻器于1971年被提出[4],并于2008年通过实验建立[5],它是一种电阻性器件,是针对这种非冯·诺依曼计算优化的未来神经形态器件。忆阻器可以根据内部状态和外部刺激(如电压脉冲)改变其电阻。先前的研究表明,基于忆阻器的交叉结构可以依靠欧姆定律和基尔霍夫定律,将计算最密集的组件矢量矩阵乘法(VMM)直接映射到电参数,从而加速各种人工神经网络(ANN)。[6,7]在此原理下,VMM计算过程直接在原位进行,从而避免了因从内存中获取数据而导致的内存墙(冯·诺依曼瓶颈)。尤其是在监督学习中,它可以降低前馈过程和从 NP 到 P 的反向传播的计算复杂度。[8] 因此,当前的研究主要集中在分类和回归任务上,以利用这种新的计算机制作为互补金属氧化物半导体 (CMOS) 电路的补充。然而,忆阻器的不同物理机制,如导电丝的形成/溶解和相变,决定了器件存在需要进一步优化的缺陷。[9,10]