拟议的计划要求毕业时获得 30 个学分,要么是计划 A(24 个学分课程加上 6 个学分硕士论文),要么是计划 C(30 个学分课程)。所有课程都必须是工程学院提供的研究生课程。所有课程都必须按照研究生院(http://bulletins.wayne.edu/graduate/general-information/academic-regulations/)和工程学院(http://bulletins.wayne.edu/graduate/college-engineering/academic-regulations/)的规定完成。
摘要 - 后门对机器学习构成了严重威胁,因为它们会损害安全系统的完整性,例如自动驾驶汽车。虽然已经提出了不同的防御来解决这一威胁,但他们都依靠这样的假设:硬件加速器执行学习模型是信任的。本文挑战了这一假设,并研究了完全存在于这样的加速器中的后门攻击。在硬件之外,学习模型和软件都没有被操纵,以使当前的防御能力失败。作为硬件加速器上的内存有限,我们使用的最小后门仅通过几个模型参数偏离原始模型。为了安装后门,我们开发了一个硬件特洛伊木马,该木马会处于休眠状态,直到在现场部署后对其进行编程。可以使用最小的后门来配置特洛伊木马,并仅在处理目标模型时执行参数替换。我们通过将硬件特洛伊木马植入商用机器学习加速器中,并用最小的后门来证明攻击的可行性,以使其对交通符号识别系统进行编程。后门仅影响30个模型参数(0.069%),后门触发器覆盖了输入图像的6.25%,但是一旦输入包含后门触发器,它就可以可靠地操纵识别。我们的攻击仅将加速器的电路大小扩大了0.24%,并且不会增加运行时,几乎不可能进行检测。鉴于分布式硬件制造过程,我们的工作指出了机器学习中的新威胁,该威胁目前避免了安全机制。索引术语 - 硬件木马,机器学习后门。
大型多项式乘法对于基于模块的键盘封装机制(ML-KEM)和基于模块的数字签名(ML-DSA)(ML-DSA)等量子后加密标准标准至关重要。这些复杂的这些乘法通常使用数字理论变换(NTT)加速。这项工作介绍了一种新型的架构,具有高性能NTT加速器,能够使用一组硬件资源来执行NTT和逆NTT操作。设计利用单个蝴蝶配置单元来减少资源需求并改善关键路径。采用多路径延迟分组(MDC)策略来实现多个系数的完全管道和并行处理,从而支持ML-KEM和ML-DSA计算。实际结果表明,我们提出的NTT发动机需要3,821个LUTS,2970 FFS,20 DSP和5 BRAM,在AMD Zynq Ultrascale+ FPGA上需要322 MHz。我们的设计在当前的NTT体系结构中提供了最佳的区域时间产品(ATP)。
快速增长的物联网(IoT)可以避免通过使用无可持续的电池设备来代替数万亿电池的高成本和环境负担,这些设备数十年来无需维护。要开发无电池的物联网系统,研究人员和制造商需要一个通用,价格合理且易于使用的通用平台。但是,有限的可用性和缺乏支持阻止了以前无电池平台的广泛采用。我们介绍了Riotee,这是一个开源和市售的无电池平台,其中包括多个板,广泛的软件和全面的文档。我们通过机器学习应用程序展示了Riotee的功能,并介绍了涉及学生和客户的用户研究结果,他们对其有用性和可用性评为高度评价。
– 1) ASP 随着每个节点而跳跃。过渡到 HBM3E 预计将使 HBM ASP 每 GB 提高约 25%。HBM4 预计将比 HBM3E 额外获得约 50% 的价格溢价。– 2) 每层 GB 增加:HBM3E 与 HBM3 相比,每层 GB 增加 50%。HBM4E 将再次改进 HBM3E/HBM4。– 3) 层数增加:12Hi 的采用在 2024 年下半年开始,主要采用在 2025 年 Blackwell 加速时。HBM4 预计将在 2025 年年底推出,采用时间为 2026 年。HBM4E 应该会看到 16hi(甚至可能更高),从而进一步增加 GB/单位。– 4) 围绕每个加速器设计了更多 HBM 单元。 HBM3E 12hi 的出货量应在 24 年达到 800 万片,然后在 25 年跃升 7 倍至 5700 万片,然后在 26 年实现 HBM4 12hi 的商业化。图 1 27 年以后,HBM4E 预计将具有 16 至 20 层。SK Hynix 最近表示乐观,认为混合键合可以实现堆叠超过 20 层,而高度不超过 775 微米。
功能和功能7安全说明8框图8电源体系结构9启动架构12无线接口13 WLAN标准14数据速率14数据率14天线端口15调节17安全性/互操作性17频带18 5 GHz HT20和HT40通道可用总线31没有EMMC Flash 32模块PINOUT 33信号使用限制86
I n多名强化学习,搜索者通常会面临一个具有挑战性的权衡:使用需要基础计算资源的复杂环境,或者更简单的dy-namics进行加急执行,尽管以可转让的成本来实现更现实的任务。该媒介会挖掘可矢量环境的潜力,从而使平行环境推出并完全利用现代GPU的平行化能力。我们提出了各种RL环境库的比较,高点其功能和限制,以端到端硬件加速培训管道。我们观察到,最常用的RL算法库尚未完全包含最终到端硬件的训练管道,以及用于硬件加速的框架与机器学习中的框架之间的有限交叉兼容:Pytorch,Pytorch,Tensorflow,Tensorflow,Tensorflow,tensorflow和Jax,jax,jax,limits for Mix and Matchers for Mix and Matchers and and rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar rar and rar rar rar and rar rar rar rar rar rar rar rar rar rar and rar rar。
摘要 - 零知识证明(ZKP)是一种加密工具,使一个方(一个供奉献者)向另一方(供奉献者)证明(一个verifier)是一个陈述是正确的,而无需供供者向Veriifier披露任何数据。ZKP具有许多用例,例如让客户委员会将计算委托给具有加密性正确性的服务器,同时使服务器能够在这些计算中使用秘密数据。ZKP应用程序涵盖了可验证的机器学习(ML)和数据库,在线拍卖,电子投票和区块链。虽然ZKP已被广泛用于区块链,但证明生成的过高成本将它们限制在证明非常简单的计算中。我们提出了一个新颖的加速器NOCAP,该加速器杠杆级的硬件 - 叠加器共同设计以实现变革性的加速。NOCAP生成的证明比32核CPU快586倍,而41倍的速度比PipeZk快41倍,这是最先进的ZKP加速器。我们利用最近的算法开发来实现这些加速:我们识别并结合了两种最近的基于哈希的ZKP算法Orion和Spartan,它们在CPU上具有与先前加速器针对的ZKP相似的性能,但对硬件加速性的态度更为舒张。尽管这些算法产生了更大的证据,但我们表明,末端加速器(包括供奉献时间,证明传输和验证时间)不仅仅证明这种尺寸的增加是合理的。我们为利用这些加速机会的新型硬件组织做出了贡献:NOCAP是一个可编程矢量处理器,其功能单元适合基于哈希的ZKP的需求。结果,NOCAP实现了为ZKP提供新用例的加速。我们还贡献了针对加速器量身定制的Spartan+Orion ZKP的共同设计的实现,并具有优化,可改善并行性并减少存储器的运行。索引术语 - 零知识证明,硬件加速度,可验证的计算
随着当今人工智能的快速发展,迫切需要解决计算机系统巨大的能耗问题。当前的人工智能系统需要大量的计算处理,这会增加能耗。为了解决这个问题,迫切需要努力开发神经形态人工智能硬件。作为超高效计算的典范,人脑仅以 20 W 的功率运行,这激励人们努力模仿其能源效率。例如,脉冲神经网络的 CMOS 硬件比传统计算机系统上的人工神经网络更有效。神经形态人工智能硬件可以取得进一步的进展,以整合大脑功能,例如突触可塑性和海马行为。植根于材料科学的创新,例如复合材料,展现出信号处理、计算和内存存储的能力,与传统半导体方法相比,有望降低能源需求。此外,纳米材料随机网络中的非线性现象正在成为控制 AI 硬件功耗的关键储层计算设备。由于其化学结构和动力学,纳米材料随机网络提供了超出原始特性的多种应用。纳米材料科学与信息科学的融合预示着下一代 AI 系统的范式转变,以比传统半导体器件更低的制造成本促进低功耗、高密度边缘 AI 系统。本专题重点介绍了 2024 年 3 月举行的第五届神经形态 AI 硬件国际研讨会上讨论的主题。来自材料科学、大脑建模、集成电路和智能系统的专家齐聚一堂,探讨神经形态 AI 硬件。积极参与这个年度研讨会对于推进卓越高效的 AI 硬件至关重要。我们强调对推进神经形态 AI 硬件前沿的集体奉献,并向所有促成本专题的贡献者表示感谢。