基于冯·诺依曼架构和经典神经网络的现代人工智能 (AI) 系统与哺乳动物的大脑相比具有许多基本局限性。在本文中,我们将讨论这些局限性及其缓解方法。接下来,我们将概述目前可用的神经形态 AI 项目,这些项目通过将一些大脑特征引入计算系统的功能和组织来克服这些局限性(TrueNorth、Loihi、Tianjic、SpiNNaker、BrainScaleS、NeuronFlow、DYNAP、Akida、Mythic)。此外,我们还介绍了根据神经形态 AI 系统所使用的大脑特征对其进行分类的原则:联结主义、并行性、异步性、信息传输的脉冲性质、设备上学习、本地学习、稀疏性、模拟和内存计算。除了回顾基于现有硅微电子技术的神经形态设备所使用的新架构方法外,我们还讨论了使用新忆阻器元件基座的前景。我们还给出了在神经形态应用中使用忆阻器的最新进展示例。
纵观历史,人类从大自然中汲取灵感和知识,揭开大自然的秘密并发挥其潜力。这种天生的好奇心影响了包括技术和医学在内的各个领域,推动了无数成就。虽然人工智能 (AI) 取得了重大进展,但用硅基硬件复制人脑的复杂过程仍然是一个挑战。这项研究引入了一种革命性的方法,它从人类大脑的复杂性中汲取灵感,人类大脑是已知的最复杂的生物系统。当代人工智能研究的目标是创造能够复制人类学习、推理和解决问题等认知功能的智能计算机。尽管软件和算法取得了显著进步,但完全模拟人类智力仍然是一个遥远的目标。传统的硅基硬件架构虽然令人印象深刻,但无法与大脑的自然并行性和适应性相匹配。因此,探索模仿生物系统的替代策略势在必行。
GPU 在多个领域得到日益广泛的应用,包括高性能计算 (HPC)、自主机器人、汽车和航空航天应用。GPU 在传统领域之外的应用(游戏、多媒体和消费市场)突然引起了人们的兴趣,也提出了有关其可靠性的问题 [3]。目前,活跃的 GPU 研究旨在评估可靠性并确定可行的改进方法。大多数研究都强调 GPU 对瞬态故障的高度敏感性 [11、13、16、24、27、32、44、47、51],这是由于 GPU 拥有大量可用资源且采用了先进的半导体技术。此外,GPU 的并行管理和控制单元已被证明尤为关键,因为它们的损坏会影响多个线程 [24、38]。 GPU 的并行性在性能方面提供了无可置疑的优势,但它也是该设备最脆弱的特性之一。GPU 制造商通过改进存储单元设计 [ 39 ]、添加纠错码 [ 15 ] 等措施提供了有效的可靠性对策,
RISC-V矢量加密扩展(ZVK)在2023年批准并集成到2024年的ISA主要手册中。这些表面支持在矢量寄存器文件上运行的高速对称加密(AES,SHA2,SM3,SM4),并且由于数据并行性而对标量密码扩展(ZK)提供了显着的性能改进。作为批准的扩展名,ZVK由编译器工具链提供支持,并且已经集成到流行的加密中间件(例如OpenSSL)中。我们报告了玛丽安(Marian),这是带有ZVK扩展程序的向量处理器的第一个开源硬件实现。设计基于纸浆“ ARA”矢量单元,该矢量单位本身就是流行的CVA6处理器的扩展。该实现位于SystemVerilog中,并已使用Virtex Ultrascale+ FPGA原型制作进行了测试,其计划的磁带针对22nm的过程节点。我们对矢量密码学对处理器的架构要求进行分析,以及对我们实施的绩效和面积的初步估计。
基于冯·诺依曼架构和经典神经网络的现代人工智能系统与大脑相比具有许多基本局限性。本文讨论了这些局限性及其缓解方法。接下来,本文概述了当前可用的神经形态人工智能项目,这些项目通过将一些大脑特征引入计算系统的功能和组织中来克服这些局限性(TrueNorth、Loihi、Tianjic、SpiNNaker、BrainScaleS、NeuronFlow、DYNAP、Akida)。此外,本文还介绍了根据神经形态人工智能系统所使用的大脑特征(神经网络、并行性和异步性、信息传输的脉冲性质、局部学习、稀疏性、模拟和内存计算)对其进行分类的原理。除了基于现有硅微电子技术的神经形态设备中使用的新架构方法外,本文还讨论了使用新忆阻器元件基的前景。本文还给出了在神经形态应用中使用忆阻器的最新进展示例。
我们展示了如何使用场合可编程的门阵列(FPGA)及其协会的高级合成(HLS)编译器来求解具有不完整市场的异质代理模型,并且汇总了不确定性(Krusell和Smith(Krusell和Smith(1998)))。我们记录了一个单个FPGA传递的加速度与在常规群集中使用69个CPU内核提供的加速度相当。解决模型的1200版的时间从8小时下降到7分钟,说明了结构估计的巨大潜力。我们描述了如何实现多个加速机会(二线,数据级并行性和数据精度),并以为传统的顺序专业人员编写的C/C ++代码的最小修改,然后我们在Amazon Web服务中易于使用FPGA。我们量化了这些加速度的加速和成本。我们的论文是迈向新的,电气工程经济学的第一步,重点是设计经济学的综合加速器,以解决具有挑战性的定量模型。复制代码可在GitHub上获得。
量子系统中的紧凑数据表示对于开发用于数据分析的量子算法至关重要。在这项研究中,我们提出了两种创新的数据编码技术,称为Qcrank和Qbart,它们通过均匀控制的旋转门表现出显着的量子并行性。QCrank方法将一系列实价数据编码为数据量置量的旋转,从而增加了存储容量。另一方面,QBART在计算基础上直接合并了数据的二进制表示,需要更少的量子测量结果,并在二进制数据上实现了良好的算术操作。我们展示了针对各种数据类型的建议编码方法的各种应用。值得注意的是,我们演示了诸如DNA模式匹配,重量计算,复杂值共轭的任务的量子算法,以及带有384个像素的二进制图像的检索,所有图像均在Quantinuum捕获的昆虫上执行。此外,我们采用了几种可访问的QPU,包括来自IBMQ和IONQ的QPU,以进行补充基准测试实验。
摘要 - 基因组分析是对基因的研究,其中包括对基因组特征的识别,测量或比较。基因组学研究对我们的社会至关重要,因为它可以用于检测疾病,创建疫苗和开发药物和治疗方法。作为具有大量并行处理能力的一种通用加速器,GPU最近用于基因组学分析。开发基于GPU的硬件和软件框架用于基因组分析正在成为一个有希望的研究领域。为了支持这种类型的研究,需要基准,以具有代表性,并发和多种应用程序的应用程序。在这项工作中,我们创建了一个名为Genomics-GPU的基准套件,其中包含10种广泛使用的基因组分析应用。它涵盖了DNA和RNA的基因组比较,匹配和聚类。我们还调整了这些应用程序来利用CUDA动态并行性(CDP),这是一个支持动态GPU编程的最新高级功能,以进一步提高性能。我们的基准套件可以作为算法优化的基础,也可以促进GPU架构开发进行基因组学分析。索引术语 - 基因组学,生物信息学,基准测试,GPU,加速计算,基因组分析,计算机体系结构。I。研究基因组序列分析是指组织ISM的DNA序列的研究。该程序具有许多重要的应用,例如大流行爆发追踪,早期癌症检测[79],药物发育[43]和遗传疾病鉴定[87]。要通过通过四个字母(A,C,T和G)(也称为碱基或核苷酸)的字符串的形式将DNA分子通过分析生物体的基因组构成分析。确定碱基序列的过程称为基因组测序[30]。比较和发现生物学序列之间差异的过程称为序列比对[67]。过去十年中,基因组数据库的指数增长,需要在计算工具的帮助下进行大量数据。结果,已经开发了几种用于基因组分析的工具,例如BLAST [57]和GATK [58]。为了提高性能,某些基因组测序框架(例如Parasail [31]和KSW2 [53])采用了具有SIMD能力的CPU。他们利用SIMD指令提供的并行性来执行矩阵计算,通过在多个操作数中运行同一矢量命令。FPGASW [39]使用FPGA中的大量执行单元创建线性收缩期
摘要 — 神经符号人工智能是人工智能研究的一个新领域,旨在将传统的基于规则的人工智能方法与现代深度学习技术相结合。神经符号模型已经证明了在图像和视频推理等领域超越最先进的深度学习模型的能力。它们还被证明能够以比传统模型少得多的训练数据获得高精度。由于该领域出现的时间较晚,且已发表的结果相对稀少,这些模型的性能特征尚不清楚。在本文中,我们描述和分析了三种近期神经符号模型的性能特征。我们发现,由于复杂的控制流和低操作强度运算(例如标量乘法和张量加法),符号模型的潜在并行性低于传统神经模型。然而,在它们明显可分离的情况下,计算的神经方面主导着符号部分。我们还发现数据移动会造成潜在的瓶颈,就像在许多 ML 工作负载中一样。索引术语 — 神经符号、机器学习、性能、推理
量子计算 (QC) 的出现提供了一种全新的计算范式,它利用量子机制的原理,有望以指数级加速特定问题的解决,同时显著减少数据存储空间等资源的消耗 [ 12 , 25 , 31 , 36 ]。直观地说,量子系统可以呈现混合状态,本质上是同时存在于几种纯状态,利用这一事实,可以同时对所有这些状态进行计算。这种效应称为量子并行性,它将量子计算机与只能执行顺序计算的经典计算机区分开来 [ 28 ]。绝热量子计算 (AQC) 是 QC 的一个子领域,它已成为一种很有前途的方法,可以在经典计算机上近似解决众所周知的组合问题,比如 NP 难题 [ 21 , 22 ]。 AQC 优化算法通常解决的问题类别之一是所谓的二次无约束二元优化 (QUBO) 问题,其形式为