卷积神经网络(CNN)被广泛用于图像分类。为了使CNN适合在资源有限的系统(如FPGA)上实现,剪枝是一种降低复杂度的流行技术。本文以VGG16为例,评估了剪枝后的CNN对FPGA加速器权重和配置内存错误的鲁棒性,并考虑了两种流行的剪枝方法(基于幅度和过滤器剪枝)。特别地,基于故障注入实验测试了原始VGG16和具有不同剪枝率的VGG16的精度损失,结果表明两种剪枝方法对权重和配置内存的错误影响不同。对于权重错误,使用两种方法剪枝的网络在剪枝率较高的情况下表现出更高的可靠性,但使用过滤器剪枝的网络可靠性相对较低。对于配置内存错误,大约30%的配置位上的错误会影响CNN操作,其中只有14%会导致显着的精度损失。但相同关键比特位对于两种剪枝方法的影响是不同的,采用基于量级方法剪枝后的网络可靠性低于原始VGG16,而采用过滤器剪枝后的网络可靠性高于原始VGG16。从CNN加速器的结构和两种剪枝方法的性质出发,解释了这种不同的影响,并评估了基于量级方法量化对CNN可靠性的影响。
摘要 - 神经网络(NNS)已经证明了它们在从计算机视觉到自然语言处理的各个领域中的潜力。在各种NN中,二维(2D)和三维(3D)卷积神经网络(CNN)在广泛的应用中已被广泛采用,例如图像分类和视频识别,因为它们在提取2D和3D特征方面具有出色的功能。但是,标准的2D和3D CNN无法捕获其模型不确定性,这对于包括医疗保健和自动驾驶在内的许多关键安全应用至关重要。相比之下,作为CNN的一种变体,贝叶斯卷积神经网络(贝叶斯)(贝叶斯)已经证明了它们通过数学基础在预测中表达不确定性的能力。尽管如此,由于采样和随后的前向通过多次通过了整个网络,因此贝内斯科的计算要求并未在工业实践中广泛使用。结果,与标准CNN相比,这些过程显着增加了计算和内存消耗量。本文提出了一种新型的基于FPGA的硬件体系结构,以加速通过Monte Carlo辍学推断的2D和3D贝内斯科。与其他最先进的加速器相比,贝内斯科的设计可以达到高达高达能量效率的4倍,而计算效率的9倍。考虑部分贝叶斯推断,提出了一个自动框架,以探索硬件和算法性能之间的权衡。进行了大量实验,以证明我们提出的框架可以有效地发现设计空间中的最佳点。
心脏病是全球最常见的死亡原因。因此,检测和分类心电图 (ECG) 信号对于延长预期寿命至关重要。在本研究中,我们旨在在现场可编程门阵列 (FPGA) 中实现人工智能信号识别系统,该系统可以在需要电池的边缘设备中识别生物信号模式,例如 ECG。尽管分类准确度有所提高,但深度学习模型需要大量的计算资源和功率,这使得深度神经网络的映射速度变慢,并且在可穿戴设备上的实现具有挑战性。为了克服这些限制,已经应用了脉冲神经网络 (SNN)。SNN 是受生物启发的事件驱动神经网络,使用离散脉冲计算和传输信息,这需要更少的操作和更简单的硬件资源。因此,与其他人工神经网络算法相比,它们更节能。
摘要 — 本研究重点研究了在 FPGA 片上系统 (SoC) 上加速的深度神经网络 (DNN) 的时间可预测执行。本文考虑了 Xilinx 的现代 DPU 加速器。针对 Zynq Ultrascale+ 平台进行了广泛的分析活动,以研究 DPU 在加速一组用于高级驾驶辅助系统 (ADAS) 的最先进的 DNN 时的执行行为。基于分析,提出了一个执行模型,然后用于得出响应时间分析。还提出了一个名为 DICTAT 的定制 FPGA 模块,以提高 DNN 加速的可预测性并收紧分析界限。最后,基于分析界限和目标平台的测量结果,提供了一组丰富的实验结果,以评估所提出的方法在 ADAS 应用上的有效性和性能。
摘要:脑机接口 (BCI) 可以检测特定的脑电图模式并将其转换为外部设备的控制信号,为患有严重运动障碍的人提供与外界沟通和互动的替代/附加渠道。许多基于脑电图的 BCI 依赖于 P300 事件相关电位,主要是因为它们需要的用户训练时间相对较短,并且选择速度更快。本文提出了一种基于 P300 的便携式嵌入式 BCI 系统,该系统通过基于 FPGA(现场可编程门阵列)的嵌入式硬件平台实现,确保灵活性、可靠性和高性能。该系统在用户视觉刺激期间获取脑电图数据并实时处理这些数据,以正确检测和识别脑电图特征。BCI 系统旨在允许用户执行通信和家庭自动化控制。
• Forth 是一个虚拟机,Forth 是一个芯片! • Chuck 在编写汇编代码时“发现了 Forth” • Forth 是理想的处理器架构 • Forth 易于在硬件中实现 • Chuck 的芯片:NC4000、Sh-Boom、RTX2000、F21 • https://colorforth.github.io/bio.html • Green Array 的 144 多计算机芯片 http://www.greenarraychips.com/ • 硅片中的 Forth 世界 http://www.ultratechnology.com/chips.htm
摘要:近年来,已经引入了基于非声音和非人工界面的监视和控制家庭环境的系统,以改善流动性困难的人的生活质量。在这项工作中,我们介绍了利用经常性神经网络(RNN)的这种新型系统的可重新实现和优化。在实现现实世界结果中所证明的是,在实施RNN时,FPGA被证明非常有效。尤其是,我们可重新发现的实现比执行参考推理任务的高端Intel Xeon CPU快150×。此外,与服务器CPU相比,所提出的系统在能量效率方面达到了300倍以上的改进,而在所报告的已达到的GFLOPS/W方面,它甚至超过了服务器量的GPU。本研究中讨论的工作的另一个重要贡献是,所证明的实施和优化过程也可以作为对实施RNN的推理任务的任何人的参考;我们的C ++代码是针对高级合成(HLS)工具量身定制的,这进一步促进了这一事实。
摘要 — 基于 SRAM 的 FPGA 经常用于太空应用中的关键功能。通常需要在这些 FPGA 中实现软处理器来满足任务要求。开放 ISA RISC-V 允许开发各种开源处理器。与所有基于 SRAM 的 FPGA 数字设计一样,这些软处理器容易受到 SEU 的影响。本文介绍了对一组新推出的开源 RISC-V 处理器的性能和相对 SEU 敏感度的研究。利用动态部分重构,这种新颖的自动测试设备可以快速部署不同的实现并通过故障注入评估 SEU 敏感度。使用 BYU 的新 SpyDrNet 工具,还将细粒度 TMR 应用于每个处理器,结果显示敏感度降低了 20 倍到 500 倍。
摘要根据摩尔定律,每年单位区域的晶体管数量都在增加。估计,芯片设计领域的当前进化速率将在2024年将晶体管的大小减少到原子量表。在原子级别,量子性特征占主导地位,从而影响了晶体管以位的形式存储信息的能力。量子计算机已被提出是一种有效处理这种困境的一种方法。量子计算电路利用电子的旋转特征来存储信息。本文描述了基于FPGA的量子量子抽象的命题。实施了一个不可编程的emded系统,能够在量子位中存储,测量和引入相移。提议的抽象的主要目标是提供基于FPGA的平台,该平台包括用于设计量子电路的基本子块。Pri-Mary量子键分布算法,即BB84在拟议平台上实施,作为概念证明。所提出的特征的区别特征是以计算源成本增强量子电路仿真精度的灵活性。提出的仿真表现出量子计算的两个主要特性,即并行性和概率测量。
医生在诊断中面临的最大困难之一是对磁共振成像 (MRI) 图像中的脑卒中的分析和诊断。脑卒中是指脑部血液流动中断,导致细胞死亡。为了让医生更容易诊断,许多研究人员使用 Matlab 程序对 MRI 图像进行了一些过滤处理,以改善图像并使其更加明显,从而方便医生诊断。本文介绍了一种使用硬件概念来阐明 MRI 图像中脑卒中的数字系统。现场可编程门阵列 (FPGA) 用于实现该系统,该系统分为四个阶段:预处理、调整图像、中值滤波器和形态滤波器交替进行。整个系统是基于 Zynq FPGA 评估板实现的。该设计已在两个 MRI 图像上进行了测试,并将结果与 Matlab 进行了比较,以确定所提出的系统的效率。与 Matlab 相比,所提出的硬件系统实现了总体良好的准确率,准确率在 90.00% 到 99.48% 之间。
