摘要:片上系统 (SoC) 的复杂性不断增加,集成电路 (IC) 制造工艺的微型化技术不断发展,使得现代 SoC 更容易受到辐射引起的单粒子效应 (SEE) 的影响,即使在海平面也是如此。为了以低成本提供切合实际的估计,需要能够复制 SEE 的高效分析技术。在这些方法中,通过使用现场可编程门阵列 (FPGA) 进行仿真进行故障注入,可以在被测电路 (CUT) 上运行活动。本文研究了使用 FPGA 架构来加速故障活动的执行。因此,提出了一种在 FPGA 上映射 CUT 占用的新方法,从而显著减少了要注入的故障总数。此外,还提出了一种故障注入技术/流程来展示尖端方法的优势。所提出的技术使用 Xilinx FPGA 的内部配置访问端口 (ICAP) 模拟 CUT 的所有组合元素中的单粒子瞬变 (SET)。
市场上有几种用于 FPGA 的商用软 IP 处理器:ARM Cortex M1 [3]、Altera NIOS [5] 和 Xilinx MicroBlaze [4]。尽管提供这些处理器的目的各不相同(前者是为了让 ARM 架构在更多的开发渠道上可用,后者则是想为使用相应 FPGA 的开发人员提供完整的数字设计系统),但它们的共同点在于都基于 RISC,并且每个内核的配置能力有限(例如可选的 FPU)。虽然 ρ-VEX [8] 是一种实现可重构和可扩展的软核 VLIW 处理器的非常实用的方法,但是并行性受到指令宽度的限制。[7] 提供了可扩展的并行性。该协处理器提供复杂的矢量化能力,但不能处理非 SIMD 类并行性。传输触发架构 (TTA) [6] 由于其数据流特性,在并行性方面是可扩展的和可伸缩的。此属性的缺点是缺乏使用更复杂的功能单元以及固有的存储能力来放宽调度问题的可能性。
摘要 —卷积神经网络 (CNN) 在图像识别和分类等许多应用中都取得了很高的准确率。然而,由于其参数量大且所需运算密集,通用处理器无法达到所需的推理性能水平。最近,人们开发了各种用于深度 CNN 的硬件加速器来提高 CNN 的吞吐量。在这些加速器中,基于现场可编程门阵列 (FPGA) 的加速器因其高性能、低功耗、高可重构性和快速开发周期而引起了广泛关注。此外,高级综合 (HLS) 工具的可用性减轻了编程负担并提高了基于 FPGA 的加速器设计人员的工作效率。本文提出了一种用于 CNN 卷积层的基于 FPGA 的加速器的 C++ HLS 实现。作为案例研究,我们使用 SDSoC 开发环境在 Xilinx Zynq UltraScale+ MPSoC ZCU104 评估板上使用 Resnet50 CNN 评估所提出的加速器,实现了高达 339 倍的推理加速。
标题:用于实时信号处理应用的容错 VLSI 架构设计摘要:由于设计复杂性和晶体管密度的增加导致芯片故障率很高,容错在当今的数字设计中变得极为重要。我们已经确定了现有容错方法的主要缺陷,并尽可能地尝试纠正它们。我们修改了传统的动态重构方法,使其适用于实时信号处理应用,并结合了热备用、优雅降级、级联性和 C 可测试性。我们还提出了一些新的静态冗余技术,这些技术在各个方面都优于现有方法,并且具有实际适用性。• 使用 XILINX 中的 verilog HDL 和原理图级与 virtex-6 进行 RTL 设计、仿真和验证• 使用 SYNOPSYS 工具进行设计和验证以及面积和关键路径结果的计算• 使用 CADENCE 工具进行一些面积和延迟计算。
量子计算机有潜力解决困难的数学问题,因此,如果构建了大规模的量子计算机,则意味着对公钥加密(PKC)的重要威胁。Quantum加密后(PQC)的目标是开发与经典计算机和量子计算机相比的密码系统。dme是抗量子PKC算法的新建议,为NIST PQC标准化竞争提供了提出,以设置密码标准的下一代。dme是基于中央地图的新结构的多元公钥,签名和密钥封装机制(KEM)系统,允许公共密钥的多项式任意程度。在本文中,介绍了DME的高吞吐管道架构,并对Xilinx FPGA进行了硬件实现。实验结果表明,此处介绍的体系结构与文献中给出的其他PQC多元实现相比,表现出最低的执行时间和最高的吞吐量。
摘要 - 物联网(IoT)是Internet的高级版本,其中不仅是连接到Internet的手机和计算机,而且其他电子对象也可以连接到Internet。物联网(IoT)需要使用IPv6协议来满足大量周围事物的需求。在设备之间的这种无线通信方式中所面临的挑战是信息的安全性和个人的隐私。在本文中提出了一种加密方法,该方法利用MD5和AES算法来获得安全和隐私。使用Verilog HDL在ModelsIM 6.5和Xilinx 14.2工具中模拟了这两种算法。两次链接两种算法的链接方法提供了更好的安全性和隐私。将这些算法整合到RFID标签中,可以在周围事物之间存在安全的交流手段,从而为接受社会上的物联网腾出空间。索引术语:物联网; rfid; aes; MD5;机密性;正直; vlsi。
摘要 - 生物学序列比对是一种广泛使用的技术,其中搜索序列数据库以找到与输入查询相似的序列。在这项工作中,我们专注于最受欢迎的本地序列一致性算法;基本的本地对齐搜索工具(BLAST)。这是一个计算密集型操作,并且具有指数增长的数据库,使实时执行变得更加复杂。现场可编程的门阵列(FPGA)提供类似硬件的性能和类似软件的可编程性,使它们成为计算复杂任务的理想选择。本文介绍了FPGA上BLAST的基于内容的可调存储器(CAM)实现,该实现使用并发计算加速了对齐过程。搜索输入查询是在数据库序列中并联执行的,以在一个时钟周期中产生结果。所提出的设计是在Xilinx Virtex-7 FPGA设备XC7VX690TFFG1761上实现的。结果表明,与可用的搜索算法相比,相比之下,可行性和加速性能(149-180 MHz速度)。
摘要 — 随着深度学习算法的进步超越硬件的进步,您如何确保未来的算法能够很好地适应正在开发的现有 AI 芯片?大多数 AI 芯片都是为当今的 AI 算法设计的,鉴于算法演进的速度和规模,许多 AI 芯片设计甚至在商业发布之前就可能过时。未来的算法需要彻底改革架构、内存/数据资源和功能。理想的推理架构必须重新定义一些基本的芯片技术,这些技术将重写计算规则,并提供突破性的 AI 加速和灵活的计算能力,超越服务器级 CPU,比 GPU/ASIC 更灵活,以支持广泛的应用程序和动态工作负载。本文将讨论如何使用 Xilinx VERSAL AI Core(业界首款 ACAP(自适应计算加速平台)设备,超越 CPU/GPU 和 FPGA 的性能)在硬件和软件设计的各个层面解决这些行业挑战。
摘要:在这个数字世界中,测试构建的架构已成为一项具有挑战性的任务,而不是构建。测试过程包括高成本和功耗。许多研究都参与了高效测试电路的构建,其中 BIST 是高效测试电路之一。BIST [内置自测试] 提供了一个低功耗、低成本测试电路的平台。BIST 的构建是通过 MULTISTAGE LFSR 解码器电路完成的,该解码器电路通过向构建的架构提供随机和完整的输入序列来为测试电路开辟一条道路。还采用了解码逻辑,使其完美适用于容错架构。据说,由 BIST 和 MULTISTAGE lfsr 组成的路面是查找电路工作故障的有效技术,因此这被称为容错架构,所提出的架构的构建是在 Xilinx ISE 中使用 verilog HDL 语言完成的。索引术语——BIST、MULTISTAGE lfsr、解码逻辑、线性反馈移位寄存器 (LFSR)、基准电路。
摘要 — 本文提出了一种基于动态偏置长短期记忆 (DB-LSTM) 网络的心电图 (ECG) 信号分类模型。与传统 LSTM 网络相比,DB-LSTM 引入了一组参数 C,用于保存单元格的先前时间步长单元门状态。因此,可以保留更多特征信息,并且分类任务所需的网络规模更小。使用 MIT-BIH ECG 数据集进行的全面模拟表明,该模型可以在更短的时间窗口、更快的训练收敛下执行 ECG 特征分类,同时以更低的权重分辨率实现相当的训练和分类精度。与其他最先进的 ECG 分析算法相比,该模型仅需要 4 层,当权重从 FP32 截断为 INT4 时,准确率达到 96.74%,准确率仅下降 2.4%。在 Xilinx Artix-7 FPGA 上实现,所提出的设计估计仅消耗 40μW 动态功率,这对于资源受限的边缘设备来说是一个有希望的候选方案。