在深度学习硬件安全环境中,有报道称 DNN 实现受到的本地和远程攻击越来越多 [3]。这些攻击包括利用功耗 [5–7] 或电磁 (EM) 辐射 [8–10] 的侧信道分析 (SCA) 攻击 [4],以及故障注入 (FI) 攻击 [11–13]。SCA 攻击会破坏机密性,使秘密深度学习资产(模型、私有数据输入)得以恢复,从而危及隐私并通过模型逆向工程进行伪造;FI 攻击会破坏完整性,通过错误分类和受控行为改变预期性能,以及可用性,通过拒绝访问或降低质量或性能使系统变得无用 [14]。由于 AI 边缘设备的可访问性和暴露性更高,因此对它们发起的物理 SCA 和 FI 攻击尤其令人担忧。然而,这些攻击不再需要对目标进行物理访问,因为云端和数据中心采用 FPGA 也使它们成为可以通过软件触发的远程硬件攻击的目标 [15]。
摘要 — 在当今的数字环境中,密码学通过加密和身份验证算法在确保通信安全方面发挥着至关重要的作用。虽然传统的密码方法依靠困难的数学问题来保证安全性,但量子计算的兴起威胁到了它们的有效性。后量子密码学 (PQC) 算法(如 CRYSTALS-Kyber)旨在抵御量子攻击。最近标准化的 CRYSTALS-Kyber 是一种基于格的算法,旨在抵御量子攻击。然而,它的实现面临着计算挑战,特别是基于 Keccak 的函数,这些函数对于安全性至关重要,也是 FIPS 202 标准的基础。我们的论文通过设计 FIPS 202 硬件加速器来提高 CRYSTALS-Kyber 的效率和安全性,从而解决了这一技术挑战。我们选择在硬件中实现整个 FIPS 202 标准,以扩大加速器对所有依赖此类哈希函数的可能算法的适用性,同时注意提供对片上系统 (SoC) 内系统级集成的现实假设。我们针对 ASIC 和 FPGA 目标提供了面积、频率和时钟周期方面的结果。与最先进的解决方案相比,面积减少了 22.3%。此外,我们将加速器集成在基于 32 位 RISC-V 的安全导向 SoC 中,我们在 CRYSTALS-Kyber 执行中展示了强大的性能提升。本文提出的设计在所有 Kyber1024 原语中表现更好,在 Kyber-KeyGen 中的改进高达 3.21 倍。
摘要 - 诸如Vision Transformer和Bert之类的大型模型,由于其表现性能而引起了极大的关注。但是,它们广泛的计算要求导致了大量的功率和硬件资源消耗。脑启发的计算已成为低功率硬件实现的一种有希望的方法。在本文中,我们提出了用于尖峰驱动变压器的有效稀疏硬件加速器。我们首先设计了一种新颖的编码方法,该方法编码有效激活的位置信息并跳过非尖峰值。此方法使我们能够使用编码的尖峰来执行线性,最大化和尖峰驱动的自我注意力的计算。与主要关注基于卷积的尖峰计算的常规SNN加速器的单个尖峰输入设计相比,用于尖峰驱动的自我注意的专门模块在处理双尖峰输入的能力方面是独一无二的。通过专门利用激活的尖峰,我们的设计充分利用了尖峰驱动的变压器的稀疏性,从而减少了冗余操作,降低了功率组合并最大程度地减少了计算潜伏期。实验结果表明,与现有的SNNS加速器相比,我们的设计分别在吞吐量和能源效率方面可提高13.24×和1.33倍。索引术语 - 弹性神经元网络(SNNS),硬件加速器,Spike-drive Transformer。
快速傅立叶变换(FFT)广泛用于数字信号处理应用中,尤其是用于使用CNN实时对象检测的卷积操作。本文提出了用于在FPGA上实现的Radix-2 FFT计算的有效的硬件档案,采用了蝴蝶单元的多个平行和管道阶段。所提出的架构利用块RAM存储输入和Twiddle因子值来计算转换。在Zync Ultrascale FPGA上合成了所提出的体系结构的硬件,并使用诸如关键路径延迟,吞吐量,设备利用率和功耗等参数评估其性能。发现在FFTOPS中测量的8点FFT所提出的平行管道结构的性能比非二叠体的AR插条高67%。性能比较与最新的并行管道管道方法证实了所提出的FFT体系结构达到的加速度。在论文中还介绍了拟议的硬件与与Vivado Design套件捆绑在一起的FFT IP核心的合成版本的全面比较。
摘要 - 零知识证明(ZKP)是一种加密工具,使一个方(一个供奉献者)向另一方(供奉献者)证明(一个verifier)是一个陈述是正确的,而无需供供者向Veriifier披露任何数据。ZKP具有许多用例,例如让客户委员会将计算委托给具有加密性正确性的服务器,同时使服务器能够在这些计算中使用秘密数据。ZKP应用程序涵盖了可验证的机器学习(ML)和数据库,在线拍卖,电子投票和区块链。虽然ZKP已被广泛用于区块链,但证明生成的过高成本将它们限制在证明非常简单的计算中。我们提出了一个新颖的加速器NOCAP,该加速器杠杆级的硬件 - 叠加器共同设计以实现变革性的加速。NOCAP生成的证明比32核CPU快586倍,而41倍的速度比PipeZk快41倍,这是最先进的ZKP加速器。我们利用最近的算法开发来实现这些加速:我们识别并结合了两种最近的基于哈希的ZKP算法Orion和Spartan,它们在CPU上具有与先前加速器针对的ZKP相似的性能,但对硬件加速性的态度更为舒张。尽管这些算法产生了更大的证据,但我们表明,末端加速器(包括供奉献时间,证明传输和验证时间)不仅仅证明这种尺寸的增加是合理的。我们为利用这些加速机会的新型硬件组织做出了贡献:NOCAP是一个可编程矢量处理器,其功能单元适合基于哈希的ZKP的需求。结果,NOCAP实现了为ZKP提供新用例的加速。我们还贡献了针对加速器量身定制的Spartan+Orion ZKP的共同设计的实现,并具有优化,可改善并行性并减少存储器的运行。索引术语 - 零知识证明,硬件加速度,可验证的计算
Taoufik Saidani 沙特阿拉伯北部边境大学计算机与信息技术学院计算机科学系 | 突尼斯莫纳斯提尔大学理学院电子与微电子实验室 (E μ E) taoufik.saidan@nbu.edu.sa(通讯作者)Refka Ghodhbani 沙特阿拉伯北部边境大学计算机与信息技术学院计算机科学系 |突尼斯莫纳斯提尔大学理学院电子与微电子实验室 (E μ E) refka.ghodhbani@nbu.edu.sa Ahmed Alhomoud 沙特阿拉伯北部边境大学计算机与信息技术学院计算机科学系 aalhomoud@nbu.edu.sa Ahmad Alshammari 沙特阿拉伯北部边境大学计算机与信息技术学院计算机科学系 ahmad.almkhaidsh@nbu.edu.sa Hafedh Zayani 沙特阿拉伯北部边境大学工程学院电气工程系 hafedh.zayani@nbu.edu.sa Mohammed Ben Ammar 沙特阿拉伯北部边境大学计算机与信息技术学院信息系统系 mohammed.ammar@nbu.edu.sa
摘要 - 自动驾驶汽车(AVS)用复杂的技术重新定义运输,集成传感器,相机和错综复杂的算法。在AV感知中实施机器学习需要强大的硬件加速器,以便在合理的功耗和足迹下实现实时性能。仍在进行不同技术的研究和开发工作,以实现获得完全AV的目标,而某些汽车制造商提供了商业上可用的系统。不幸的是,由于他们遇到的一再发生事故,例如最近发生在加利福尼亚州发生的事故,因此他们仍然缺乏可靠性,而邮轮公司则在不确定的时期被加利福尼亚州暂停了其许可[1]。本文批判性地回顾了从硬件和算法观点中使用的AV中使用的机器视觉系统的最新发现。它讨论了商用车中使用的技术和利弊,并提出了可能的方式。因此,本文对于有机会参与针对AV的机器视觉系统的研究人员来说,可以是有形的参考。
在众多量子计算模型中,量子电路模型是与当前量子硬件交互的最著名和最常用的模型。量子计算机的实际应用是一个非常活跃的研究领域。尽管取得了进展,但对物理量子计算机的访问仍然相对有限。此外,现有机器容易受到量子退相干导致的随机误差的影响,并且量子比特数、连接性和内置纠错能力也有限。因此,在经典硬件上进行模拟对于量子算法研究人员在模拟错误环境中测试和验证新算法至关重要。计算系统变得越来越异构,使用各种硬件加速器来加速计算任务。现场可编程门阵列 (FPGA) 就是这样一种加速器,它是可重构电路,可以使用标准化的高级编程模型(如 OpenCL 和 SYCL)进行编程。 FPGA 允许创建专门的高度并行电路,能够模拟量子门的量子并行性,特别是对于可以同时执行许多不同计算或作为深度管道的一部分执行的量子算法类。它们还受益于非常高的内部内存带宽。本文重点分析了应用于计算流体动力学的量子算法。在这项工作中,我们介绍了基于模型格子的流体动力学公式的新型量子电路实现,特别是使用量子计算基础编码的 D1Q3 模型,以及使用 FPGA 对电路进行高效模拟。这项工作朝着格子玻尔兹曼方法 (LBM) 的量子电路公式迈出了一步。对于在 D1Q3 晶格模型中实现非线性平衡分布函数的量子电路,展示了如何引入电路变换,以促进在 FPGA 上高效模拟电路,并利用其细粒度并行性。我们表明,这些转换使我们能够在 FPGA 上利用更多的并行性并改善内存局部性。初步结果表明,对于此类电路,引入的变换可以缩短电路执行时间。我们表明,与 CPU 模拟相比,简化电路的 FPGA 模拟可使每瓦性能提高 3 倍以上。我们还展示了在 GPU 上评估相同内核的结果。
论文是在CMOS平台技术和应用领域(例如HPC,LOP,移动,汽车,低温CMO等领域的征求力。),逻辑设备和电路,高级节点的过程集成方案,材料,过程和计量技术的创新以及设计技术合作化(DTCO)和系统技术协会(STCO)。平台技术包括最先进的SI和超越SI通道设备,全面的设备,具有不同极性晶体管的堆叠设备,高级互连,新颖的功率分布集成方案,异源2.5D/3D集成方案和Beol兼容晶体管。设备架构,设备设计和分析,过程集成,过程和模式的模块进步,计量学,物理布局效应,可变化降低的技术,收益率,dtco/stco在征求区域中的方法和解决方案具有很高的兴趣。
摘要 我们介绍了 Qibo,这是一款新型开源软件,充分利用硬件加速器,用于快速评估量子电路和绝热演化。人们对量子计算日益增长的兴趣和量子硬件设备的最新发展推动了开发注重性能和使用简单性的新型先进计算工具。在这项工作中,我们引入了一个新的量子模拟框架,使开发人员能够将硬件或平台实现的所有复杂方面委托给库,以便他们可以专注于手头的问题和量子算法。该软件从头开始设计,以模拟性能、代码简单性和用户友好界面为目标。它利用硬件加速,如多线程中央处理单元 (CPU)、单图形处理单元 (GPU) 和多 GPU 设备。