视觉转换器 (ViT) 已证明其在计算机视觉任务中比卷积神经网络 (CNN) 具有更高的精度。然而,为了在资源有限的边缘设备上有效部署,ViT 模型通常需要大量计算。这项工作提出了 Quasar-ViT,一种面向硬件的量化感知 ViT 架构搜索框架,以设计用于硬件实现的高效 ViT 模型,同时保持精度。首先,Quasar-ViT 使用我们的逐行灵活混合精度量化方案、混合精度权重纠缠和超网层缩放技术来训练超网。然后,它应用一种高效的面向硬件的搜索算法,结合硬件延迟和资源建模,从不同推理延迟目标下的超网中确定一系列最佳子网。最后,我们提出了一系列 FPGA 平台上的模型自适应设计,以支持架构搜索并缩小理论计算减少和实际推理加速之间的差距。我们搜索到的模型在 AMD/Xilinx ZCU102 FPGA 上分别实现了 101.5、159.6 和 251.6 帧每秒 (FPS) 的推理速度,对于 ImageNet 数据集的 top-1 准确率分别达到 80.4%、78.6% 和 74.9%,始终优于之前的研究。
摘要 - 迄今为止的神经形态计算体系结构遭受了大规模神经处理所需的互连可伸缩性。我们提出了用于分层地址事件路由(多播 - 示威者)的高性能和低空的多播网络(NOC)体系结构,适用于适用于大规模重新确定的神经形态系统。此效率NOC体系结构的每个构建块由几个多铸高级高性能总线(MAHB)组成,并并行运行,用于高带宽核心间尖峰事件传输。此用于可扩展事件路由的体系结构可以帮助实施分布在神经形态处理核心内的脑尺度稀疏神经网络连接,具有典型的局部密集和全球稀疏神经元连接性的网络约束。使用Xilinx virtex ultrascale vu37p fpga进行演示,我们显示了8×8网格的MAHB在512MHz时钟以512MHz时钟的表现和2级核心间通信,最高带宽的最高带宽为420m,每秒每秒每秒128K Neuron Node node in horierarchy中的每秒。这个峰值绝对带宽支持在所有突触后目的地的最差情况下,在最差的情况下,以次数潜伏期为单位的峰值事件注册。索引术语 - 非形态计算,芯片上的多播网络,高级高性能总线(AHB),地址 - 事件代表(AER),可伸缩AER
计算机工程博士 2017 年 1 月 10 日 - 12 月 德克萨斯 A&M 大学,德克萨斯州大学城 导师:Gwan S. Choi 博士,德克萨斯 A&M 大学 论文题目:下一代电信系统物理层实现的硬件解决方案。 • 提取基于固定复杂度球面解码方法的迭代 MIMO 接收器的最佳实现参数,并展示/比较实现结果。 • 研究在中继信道环境中 MIMO 的整数强制方法的实现。 电子工程硕士 2003 年 9 月 - 2006 年 10 月 德黑兰大学,伊朗德黑兰 导师:S. Mehdi Fakhraie,德黑兰大学 论文题目:用作实现参考的 IEEE 802.16 标准的 Bit-True 建模。 • 在 WiMAX 收发器定点建模后,提取维特比解码器最佳硬件实现的参数,目标是性能损失最多为 0.5 dB。电子工程专业 1999 年 9 月 - 2003 年 9 月 德黑兰理工学院,德黑兰,伊朗 导师:Hamed Sadjedi,沙希德大学 论文题目:连接到计算机的 ADC/PWM 卡:在 Xilinx FPGA 上实现。 • 该卡用于控制具有给定温度模式的孵化器。
一、简介 在当今快速发展的环境中,出现了许多改进投票系统的技术,这些技术侧重于个人身份验证和减少不当行为。识别每个选民仍然具有挑战性,但诸如使用 R305 指纹传感器进行生物特征身份验证的基于控制器的电子投票机等进步提供了解决方案。所提出的基于数字生物特征的 EVM 提供了一种有效的投票方法,使用 Xilinx ISE[1] 上的 Verilog 软件在 FPGA 板上实现。该系统确保了唯一的选民身份验证并简化了投票流程,展示了其准确验证身份和增强选举安全性的能力。因此,它为现代选举流程提供了可靠且安全的解决方案,提高了选民信心并减少了欺诈行为。该实施展示了一种解决传统 EVM 缺点的强大方法,同时保持了选举系统的完整性。通过利用生物特征数据,该 EVM 最大限度地降低了多次投票和冒充的风险。此外,使用 FPGA 技术可以实现实时处理并适应各种投票要求。这项创新标志着安全高效的选举制度的发展迈出了重要一步,为民主进程提供了一个可扩展且值得信赖的平台。这一发展建立在
摘要 随着扩展成为大规模量子 (LSQ) 计算的关键问题,硬件控制系统的资源成本将变得越来越高。本文介绍了一种适用于自旋量子位的信号生成紧凑型直接数字合成 (DDS) 架构,该架构在波形精度和同步通道数量方面是可扩展的。该架构可以以 5 GS/s 的速度产生斜坡、频率梳和任意波形生成 (AWG) 的可编程组合,最坏情况下的数字反馈延迟为 76.8 ns。基于 FPGA 的系统具有高度可配置性,并利用比特流切换来实现可扩展校准所需的高灵活性。该架构还提供 GHz 速率多路复用 I/Q 单边带 (SSB) 调制,用于可扩展反射测量。该架构已在 Xilinx ZCU111 FPGA 上的硬件中得到验证,展示了复杂信号的混合以及多路复用控制和测量的频率梳生成的质量。这种设计的主要优势在于提高了数模转换器 (DAC) 频率斜坡的控制能力,与现有的基于 AWG 的架构相比,内存需求降低了几个数量级。单通道硬件非常紧凑,默认配置下,一个 DAC 通道仅占用 2% 的 ZCU111 逻辑资源,为集成反馈、校准和量子误差校正 (QEC) 留下了大量电路资源。
AMD Xilinx 的全新 Versal 自适应计算加速平台 (ACAP) 是一种 FPGA 架构,将可重构结构与其他片上强化计算资源相结合。AI 引擎就是其中之一,通过以高度矢量化的方式运行,它们提供了大量原始计算,这可能对包括 HPC 模拟在内的一系列工作负载有益。然而,这项技术仍处于早期阶段,尚未证明其可以加速 HPC 代码,缺乏基准测试和最佳实践。本文提供了一份经验报告,探讨了将 Piacsek 和 Williams (PW) 平流方案移植到 Versal ACAP 上,使用该芯片的 AI 引擎来加速计算。平流是一种基于模板的算法,在大气建模中很常见,包括最初开发该方案的几个气象局代码。使用该算法作为载体,我们探索了构建 AI 引擎计算内核的最佳方法,以及如何最好地将 AI 引擎与可编程逻辑连接起来。使用 VCK5000 与 VCK5000 和 Alveo U280 上的非 AI 引擎 FPGA 配置以及 24 核 Xeon Platinum Cascade Lake CPU 和 Nvidia V100 GPU 评估性能,我们发现虽然结构和 AI 引擎之间的通道数量是一个限制,但通过利用 ACAP,我们可以将性能提高一倍与 Alveo U280 相比。
摘要 — 本文介绍了一种具有自定义指令集架构的嵌入式可编程处理器的设计和实现,用于高效实现人工神经网络 (ANN)。ANN 处理器架构可扩展,支持任意数量的层和每层人工神经元 (AN) 数量。此外,该处理器支持具有任意 AN 间互连结构的 ANN,以实现前馈和动态循环网络。该处理器架构是可定制的,其中 AN 之间的输入、输出和信号的数值表示可以参数化为任意定点格式。本文介绍了一种设计的可编程 ANN 处理器的 ASIC 实现,用于具有多达 512 个 AN 和 262,000 个互连的网络,估计占用 2.23 mm2 的硅片面积,在 1.6 V 电源下以 74 MHz 运行,采用标准 32 nm CMOS 技术,功耗为 1.25 mW。为了评估和比较所设计的 ANN 处理器的效率,我们设计并实现了专用的可重构硬件架构,用于直接实现 ANN。本文介绍了所设计的可编程 ANN 处理器和 Xilinx Artix-7 现场可编程门阵列 (FPGA) 上的专用 ANN 硬件的特性和实现结果,并使用两个基准进行了比较,即使用前馈 ANN 的 MNIST 基准和使用循环神经网络的电影评论情绪分析基准。
随着电子系统变得更大,更复杂,对辐射暴露最脆弱的区域(MVR)的检测变得更加困难和耗时。我们提出了一种启发式方法,其中利用设备的机械和热方面来快速识别MVR。我们的方法涉及两个设备条件的拓扑映射。第一个条件通过热波探测和相位分析确定具有最高机械应变或界面密度的区域。第二条件识别具有高电场的区域。可以假设,具有最高热波穿透性和电场的区域将对单个事件的传入辐射表现出最高的敏感性,并且可能会表现出可能的总电离剂量。我们的方法实现了一种简单的设计,该设计将分析时间提高了约2 - 3个数量级,而不是当前的辐射灵敏度映射方法。该设计在经过良好研究的操作放大器LM124上进行了证明,该扩展显示了与文献的一致性,即识别敏感的晶体管(QR1,Q9和Q18),具有相对较高的相值(> 70%)和δT百分位数(> 50%)(> 50%),满足辐射辐射升高的条件。这是关于静态随机访问存储器(HM-6504)和芯片上的Xilinx Artix-7 35 T系统的实验结果。©2022电化学学会(“ ECS”)。由IOP Publishing Limited代表EC出版。[doi:10.1149/2162-8777/ac861a]
摘要 — 本文介绍了一种具有自定义指令集架构的嵌入式可编程处理器的设计和实现,用于高效实现人工神经网络 (ANN)。ANN 处理器架构可扩展,支持任意数量的层和每层人工神经元 (AN) 数量。此外,该处理器支持具有任意 AN 间互连结构的 ANN,以实现前馈和动态循环网络。该处理器架构是可定制的,其中 AN 之间的输入、输出和信号的数值表示可以参数化为任意定点格式。本文介绍了一种设计的可编程 ANN 处理器的 ASIC 实现,用于具有多达 512 个 AN 和 262,000 个互连的网络,估计占用 2.23 mm2 的硅片面积,在 1.6 V 电源下以 74 MHz 运行,采用标准 32 nm CMOS 技术,功耗为 1.25 mW。为了评估和比较所设计的 ANN 处理器的效率,我们设计并实现了专用的可重构硬件架构,用于直接实现 ANN。本文介绍了所设计的可编程 ANN 处理器和 Xilinx Artix-7 现场可编程门阵列 (FPGA) 上的专用 ANN 硬件的特性和实现结果,并使用两个基准进行了比较,即使用前馈 ANN 的 MNIST 基准和使用循环神经网络的电影评论情绪分析基准。
摘要:便携式多媒体设备和通信系统的蓬勃发展,对节省面积和功耗的高速数字信号处理 (DSP) 系统的需求也随之增加。有限脉冲响应 (FIR) 滤波器是设计高效数字信号处理系统的重要组成部分。数字有限脉冲响应 (FIR) 滤波器的使用是 DSP 中的主要模块之一。数字乘法器和加法器是 FIR 滤波器中最关键的算术功能单元,也决定了整个系统的性能。因此,低功耗系统设计已成为主要的性能目标。本文提出了一种使用超前进位加法器和乘法器设计的 FIR 滤波器。其中乘法器由改进型超前进位加法器的内部电路提出。超前进位加法器 (CLA) 用于加法运算,它使用最快的进位生成技术,通过减少修复进位位所需的时间来提高速度,而乘法器则以分层方式执行乘法过程。因此,所提出的方法可以最大限度地降低 FIR 滤波器的有效功率和延迟。初步结果表明,与传统方法相比,使用所提出的乘法器方法的 FIR 滤波器实现了更少的延迟和功率降低。所提出的 FIR 滤波器使用 Verilog 代码进行编程,并使用 Xilinx ISE 14.7 工具进行综合和实现。并使用 Xpower 分析器分析功率。关键词:进位前瞻加法器、FIR 滤波器、乘法器、数字信号处理