摘要 — 在本文中,我们回顾了过去 3 年在神经形态工程领域发表的最新研究,以分析此类系统的共同特征。我们发现没有明确的共识,但每个系统都具有以下一个或多个特征:(1)模拟计算(2)非冯诺依曼架构和低精度数字处理(3)脉冲神经网络 (SNN),其组件与生物学密切相关。我们比较了最近的机器学习加速器芯片,以表明模拟处理和降低位精度的架构确实具有最佳的吞吐量、能量和面积效率。然而,纯数字架构也可以通过采用非冯诺依曼架构来实现相当高的效率。鉴于数字硬件设计的设计自动化工具,它提出了一个问题,即在不久的将来工业设计中采用模拟处理的可能性。接下来,我们讨论了定义标准和选择适当基准对于神经形态系统设计进展的重要性,并提出了此类基准的一些期望特征。最后,我们展示了脑机接口作为一项潜在任务,它满足了这些基准的所有标准。索引术语——神经形态、低功耗、机器学习、脉冲神经网络、忆阻器
1.基于CMOS的仪表放大器(INAS)用于可穿戴生物医学设备:在设计可穿戴应用的信号条件电路时,噪声和功率规格之间存在强大的权衡。为此,我们正在研究一些设计方法,以优化上述权衡。随着高密度无线网络设备的出现,EMI对前端电子设备的影响至关重要,这使我们探索了CMOS电路中的EMI方面。2.神经信号记录和刺激:生物神经元和电子设备之间的下一个人类计算机接口的范式。关于该主题和技术演示的科学文献的进步,例如Neuralink,使该领域非常有前途。为此,我们一直在研究基于CMO的神经放大器和刺激器电路的设计。3.基于CMOS的神经形态电路设计:随着AI和ML的出现,人们对开发基于Neumann架构的非VON NEUMANN架构平台引起了重大兴趣。我们正在研究完全兼容NM计算系统的各个方面,例如硅神经元,基于Memristor的突触重量,芯片学习电路以及跨杆阵列设计,考虑寄生虫,编码器和解码器电路,以与现实世界相连。4.使用SCL过程的原始IC开发:我们正在开发用于空间应用的高精度仪器的辐射硬化信号调理前端ASIC。通过蒙特卡洛分析,我们确保了对不匹配的设计耐受性。作为环振荡器被认为是CMOS技术表征的良好测试电路,我们使用180 nm SCL PDK设计了全数字温度传感器。层次后的仿真结果与分析推导非常吻合,并且通过在PVT跨PVT变化中模拟了所提出的设计,已测试了鲁棒性。
摘要 - 纳米级候选人的出现提出了能够构建CMOL(CMOS/纳米线/分子)类型的超密集内存内计算电路架构的希望。在CMOL中,将在纳米线的交点上制造纳米级备忘录。CMOL概念可以通过在CMO上制造较低密度的神经元并与纳米线和纳米级 - 墨西哥纤维织物放置在顶部的纳米线和纳米级 - 梅斯托织物,从而在神经形态硬件中利用CMOL概念。但是,技术问题阻碍了目前可靠的可靠商业单片CMOS-MEMRISTOR技术的这种开发。一方面,每个备忘录都需要串联的MOS选择器晶体管,以确保大型阵列的形式和编程操作。这会导致复合Mos-Memristor突触(称为1T1R),这些突触不再是纳米线穿越时的突触。另一方面,回忆录尚未构成高度可靠,稳定的模拟记忆,用于逐步学习的大规模模拟重量突触。在这里,我们演示了一种伪 - 旋转整体芯片核心,该芯片绕过上面提到的两个技术问题:(a)利用一种类似CMOL的几何芯片布局技术来提高1T1R的限制,以及(b)利用二进制重量跨度的依赖性依赖性(s sTD),该规则(b)更大的二进制重量跨度的依赖性(b)使用的备忘录。实验结果是针对具有64个输入神经元,64个输出神经元和4096 1T1R突触的尖峰神经网络(SNN)CMOL核心提供的,该突触在顶部为200nm大小的TI/HFOX/TIN MEMRISTOR的130nm CMO制造。cmol-core使用查询驱动的事件读取,这允许内存可变性不敏感的计算。实验系统级别的演示是针对普通模板匹配任务的,以及正则化的随机二进制STDP特征提取学习,可在硬件中获得完美的识别,以进行4个字母的识别实验。
务实的半导体2023年7月 - 2023年9月IC设计实习生,英国剑桥•在务实的新兴应用程序(EA)在剑桥科学公园工作了13周。•使用Cadence Virtuoso和Pragmatic的Helvellyn PDK用于灵活电子产品的模拟和数字设计。•工作包括一个精确而紧凑的SAR ADC,其中包含R-2R或电阻弦DAC,以及其随附的数字SAR逻辑,模拟比较器和级别转换器以及其他各种布局。Qualcomm Technologies 2022年6月 - 2022年9月临时工程实习生,英国•进一步的IC设计(例如,通过IEEEXPLORE研究了最先进的学术论文,使用Cadence Virtuoso使用Cadence Virtuoso,使用Cadence Virtuoso。•进行了各种电路模拟(例如DC,瞬态,安全操作区域和ANSYS图腾),用于高通公司的下一代语音和音乐单元,并在设计审查演示文稿中介绍了最终结果。•根据高通公司的标准为所有设计和测试创建了清晰详细的文档。•完成了对高通公司现有温度传感器前端的个人错误贡献的分析,以及这些分析将如何受到随后的信号处理电路和ADC的影响。•分别用于团队合作和图表设计的Atlassian Confluence/Jira和Microsoft Visio。高通技术2021年6月 - 2021年9月临时工程实习生•IC设计(例如使用电力管理单位团队中的Cadence Virtuoso的低频RC振荡器)。•单元格布局(例如•执行的电路可行性测试参考了IEEXPLORE和现有高通IP的学术论文。紧凑的蛇形电阻器)的开发和优化。ARC Instruments 2020年7月 - 2020年9月本科实习生•使用ARCOne®Memristor表征平台开发了基于UDP的RRAM实验的Python程序(带有QT5 GUI)。•使用Dresden中的VPC测试了UDP通信,并记录了结果位错误率。•将我的工作介绍给电子领域中心(以前在南安普敦大学)。
量子点发光二极管(QD-LED)是日常生活中使用的显示设备的例子。作为设备中使用的最新一代发光二极管(LED),量子点发光二极管(QD-LED)具有色域纯正(即颜色可通过尺寸调谐,半峰全宽(FWHM)约为几十纳米)[9]、与高清屏幕、虚拟/增强现实集成度高[4]、量子效率高、发射明亮[9]等特点,具有很好的应用潜力。自然而然,分子作为基本量子体系,启发人们只用一个分子来构造LED的概念,即单分子发光二极管(SM-LED)。它具有更高的原子经济性和集成度、通过精确有机合成可调的色纯度、可控的能带排列、避免分子间荧光猝灭等特点。[9]事实上,我们看到的物理世界就是由分子构成。因此,用单个分子作为显示像素最能体现现实世界,这也是显示器件的终极目标。然而,分子水平上的器件工程一直不是一项简单的任务。这种工程的典型例子是硅基微电子器件的小型化和摩尔定律的延续。[10]为此,通过自下而上的途径制备多功能分子器件是一种很有前途的策略。[11,12]受由单个D–σ–A分子组成的整流器的初始理论提议的推动[13],各种功能性单分子器件,如场效应晶体管[14,15]、整流器[16,17]、开关[18,19]和忆阻器[20],已通过长期优化功能分子中心、电极材料和界面耦合而不断改进。[11,12,21]
摘要 — 当前移动应用的内存占用量快速增长,对内存系统设计构成巨大挑战。DRAM 主内存不足会导致内存和存储之间频繁的数据交换,这一过程会损害性能、消耗能量并降低典型闪存设备的写入耐久性。另一方面,更大的 DRAM 具有更高的漏电功率并会更快耗尽电池电量。此外,DRAM 的扩展趋势使得 DRAM 在移动领域的进一步增长因成本而变得难以承受。新兴的非易失性存储器 (NVM) 有可能缓解这些问题,因为它的单位成本容量高于 DRAM,并且静态功耗极低。最近,出现了各种 NVM 技术,包括相变存储器 (PCM)、忆阻器和 3-D XPoint。尽管有上述优势,但与 DRAM 相比,NVM 的访问延迟更长,并且 NVM 写入会产生更高的延迟和磨损成本。因此,将这些新内存技术集成到内存层次结构中需要从根本上重新构建传统系统设计。在本研究中,我们提出了一种硬件加速内存管理器 (HMMU),它在平面地址空间中寻址,并将一小部分 DRAM 保留用于子页块级管理。我们在这个内存管理器中设计了一组数据放置和数据迁移策略,以便我们能够利用每种内存技术的优势。通过用这个 HMMU 增强系统,我们降低了整体内存延迟,同时还减少了对 NVM 的写入。实验结果表明,与未来可能难以维持的全 DRAM 基线相比,我们的设计实现了 39% 的能耗降低,而性能仅下降了 12%。
处理大数据,尤其是视频和图像,是现有冯诺依曼机面临的最大挑战,而人脑凭借其大规模并行结构,能够在几分之一秒内处理图像和视频。最有前途的解决方案是受大脑启发的计算机,即所谓的神经形态计算系统 (NCS),最近得到了广泛的研究。NCS 克服了传统计算机一次一个字思考的限制,得益于类似于大脑的数据处理大规模并行性。最近,基于自旋电子的 NCS 已显示出实现低功耗高密度 NCS 的潜力,其中神经元使用磁隧道结 (MTJ) 或自旋扭矩纳米振荡器 (STNO) 实现,并使用忆阻器来模拟突触功能。尽管与 MTJ 相比,使用 STNO 作为神经元所需的能量较低,但由于启动具有可检测输出功率的振荡需要高偏置电流,因此基于自旋电子的 NCS 的功耗与大脑之间仍然存在巨大差距。在本文中,我们提出了一种基于自旋电子的 NCS(196 × 10)概念验证,其中通过微瓦纳秒激光脉冲辅助 STNO 振荡来降低 NCS 的功耗。实验结果表明,通过将 STNO 加热到 100 ◦ C,设计的 NCS 中 STNO 的功耗降低了 55.3%。此外,与室温相比,100 ◦ C 时自旋电子层(STNO 和忆阻器阵列)的平均功耗降低了 54.9%。与室温下典型的基于 STNO 的 NCS 相比,所提出的基于激光辅助 STNO 的 NCS (LAO-NCS) 在 100 ◦ C 下的总功耗提高了 40%。最后,与室温下典型的基于 STNO 的 NCS 相比,LAO-NCA 在 100 ◦ C 下的能耗预计可降低 86%。
摘要 — 混合存储器系统由新兴的非易失性存储器 (NVM) 和 DRAM 组成,已被提出用于满足应用程序日益增长的存储器需求。相变存储器 (PCM)、忆阻器和 3D XPoint 等新兴 NVM 技术具有更高的容量密度、最小的静态功耗和更低的每 GB 成本。然而,与 DRAM 相比,NVM 具有更长的访问延迟和有限的写入耐久性。两种存储器类别的不同特性指向包含多种主存储器类别的混合存储器系统的设计。在新架构的迭代和增量开发中,模拟完成的及时性对于项目进展至关重要。因此,需要一种高效的模拟方法来评估不同混合存储器系统设计的性能。混合存储器系统的设计探索具有挑战性,因为它需要模拟整个系统堆栈,包括操作系统、内存控制器和互连。此外,用于内存性能测试的基准应用程序通常具有更大的工作集,因此需要更长的模拟预热期。本文提出了一种基于 FPGA 的混合存储系统仿真平台。我们的目标是移动计算系统,该系统对能耗敏感,并且可能会采用 NVM 来提高能效。在这里,由于我们的平台专注于混合存储系统的设计,因此我们利用板载硬 IP ARM 处理器来提高模拟性能,同时提高结果的准确性。因此,用户可以使用 FPGA 逻辑元件实现其数据放置/迁移策略,并快速有效地评估新设计。结果表明,与软件 Gem5 相比,我们的仿真平台在模拟时间上加快了 9280 倍。索引术语 — 硬件仿真、FPGA 加速器、内存系统、NVM
通过重新思考计算堆栈的所有层,包括硬件、软件和软硬件基本方法和方案 [1, 2, 4]。由于有望同时实现密集存储和节能模拟处理,基于非易失性电阻技术的内存计算已成为克服上述挑战的一种有吸引力的解决方案。非易失性电阻器件是一种具有可编程电阻的双端器件,可以使用忆阻器 [11, 35]、电阻随机存取存储器 (ReRAM) [23, 38]、相变存储器 (PCM) [20, 39] 或自旋转移力矩磁性随机存取存储器 (STT-RAM) [18, 31] 来实现。通过将新兴设备集成到电阻交叉阵列 (RCA) 中,可以在模拟域中执行近似矩阵向量乘法 (MVM)。这是很有希望的,因为计算比数字域中的能源效率高得多(数量级)[17]。通过将矩阵存储在内存中并现场执行计算,数据移动也大大减少[9, 32]。此外,MVM 是许多 AI 应用中的主要计算,例如深度学习 [22]、图像处理 [24] 和图形分析 [34]。利用模拟内存计算的主要挑战是,各种错误和变化源可能会降低计算精度。这包括设备写入错误、非零阵列寄生效应、有限的设备产量、电阻漂移、温度变化、随机电报噪声和有限的设备耐久性。此外,在模拟域中引入的任何错误都可能损害加速应用程序的功能正确性。例如,神经网络的硬件分类准确性可能明显低于软件级别。相反,数字计算系统中的稳健性问题只会引入时序违规,可以使用动态电压频率缩放 (DVFS) 来缓解。为了在系统级性能上提供保证,需要在设备级、算法级和软件应用程序级进行协同创新。虽然设备级研究人员不断尝试改进制造设备的特性,但开发所需的算法和软件级支持变得迫在眉睫。在本文中,我们回顾了使用模拟内存计算加速 AI 应用所面临的挑战、解决方案和未来研究方向。第 4 节概述了未来研究的机会。第 2 节讨论了模拟矩阵向量乘法的基本概念、目标 AI 应用以及不同误差的建模。第 3 节回顾了在算法和软件层面上提高对误差的鲁棒性的最新解决方案。第 5 节总结了本文。
, Smart Manufacturing, i4.0, Industrial Engineering, Computer Aided Design, Turbulence modelling, Combustion modelling, Large Eddy Simulation, Direct Numerical Simulation, Turbulence-chemistry interaction, Tribology, Laminar to turbulent transition in Hypersonic, scramjet propulsion with hydrogen and hydrogen fuel, regenerative cooling in high speed flow, Computational turbomachinery, CFD code development in high speed reacting and不反应流。