摘要 - 出现的加密系统,例如完全型号的加密(FHE)和零知识证明(ZKP)是计算和数据密集型的。fhe和ZKP在软件和硬件中的影响很大程度上依赖于von Neumann架构,在数据移动上损失了大量的能量。有希望的计算范式正在内存(CIM)中进行计算,该计算使计算能够直接发生在内存中,从而减少数据运动和能耗。但是,有效地执行大整数乘法(在FHE和ZKP中至关重要)是一个开放的问题,因为现有的CIM方法仅限于小型操作数尺寸。在这项工作中,我们通过探索用于大整数乘法的高级算法方法来解决这个问题,并将Karatsuba算法确定为CIM应用程序最有效的方法。此后,我们设计了第一个用于电阻CIM横杆的Karatsuba乘数。我们的乘数使用三阶段管道来增强吞吐量,此外,还可以平衡内存耐力与有效的数组大小。与现有的CIM乘法方法相比,当比例扩展到ZKP和FHE所需的位宽度时,我们的设计在吞吐量中最多可实现916倍,而面积时间产品的改进则达到281倍。索引术语 - 在内存中计算,大整数乘以,karatuba乘法
摘要:修剪和量化是加速LSTM(长短期内存)模型的两种常用方法。但是,传统的线性量化通常会遇到梯度消失的问题,而现有的修剪方法都有产生不希望的不规则稀疏性或大型索引开销的问题。为了减轻消失梯度的问题,这项工作提出了一种归一化的线性量化方法,该方法首先将操作数正常化,然后在局部混合最大范围内进行量化。为了克服不规则的稀疏性和大型索引开销的问题,这项工作采用了排列的块对角掩模矩阵来产生稀疏模型。由于稀疏模型高度规律,因此可以通过简单的计算获得非零权重的位置,从而避免了大型索引开销。基于由排列的块对角面胶质矩阵产生的稀疏LSTM模型,本文还提出了高能耐加速器的Permlstm,该材料全面利用了有关基质 - 载体乘积的重量,激活和产品的稀疏性,从而导致55.1%的动力减少。与先前报道的其他基于FPGA的LSTM加速器相比,与先前报道的其他基于FPGA的LSTM加速器相比,该加速器已在以150 MHz运行的ARRIA-10 FPGA上实现,并达到2.19×〜24.4×能量效率。
摘要。本文介绍了一种可综合的 µ 架构设计方法,通过在处理器流水线内的执行阶段利用规范有符号数字 (CSD) 表示来提高给定 RISC-V 处理器架构的性能。CSD 是一种独特的三进制数系统,无论字长 N 是多少,都可以在常数时间 O (1) 内实现无进位/无借位加法/减法。CSD 扩展以 Potato 处理器为例进行了演示,这是一种简单的 RISC-V FPGA 实现。但是,该方法原则上也可以应用于其他实现。我们通过 CSD 实现的性能提升需要二进制和 CSD 表示之间的转换开销。该开销通过扩展到七级流水线架构来补偿,该架构具有三步执行阶段,可提高吞吐量和工作频率并实现循环展开,这在具有连续计算的应用中尤其有利,例如信号处理。根据实验结果,我们将基于 CSD 的三元解决方案与原始实现进行了比较,后者使用通常的纯二进制数表示操作数。与 FPGA 上的原始 RISC-V 处理器相比,我们的方法实现了 2.41 倍的运行频率提升,其中超过 20% 的增益归功于 CSD 编码。对于计算密集型基准测试应用程序,这种增强使吞吐量提高了 2.40 倍,执行时间缩短了 2.37 倍。
摘要 — 速度效率、内存优化和量子抗性对于保障云计算环境的性能和安全性至关重要。全同态加密 (FHE) 通过在无需解密的情况下对加密数据进行计算来满足这一需求,从而保护数据隐私。此外,基于格的 FHE 是量子安全的,可以防御潜在的量子计算机攻击。然而,当前 FHE 方案的性能仍然不令人满意,主要是因为操作数的长度和与几个资源密集型操作相关的计算成本。在这些操作中,密钥切换是最苛刻的过程之一,因为它涉及在更大的循环环中进行计算所需的复杂算术运算。在这项研究中,我们介绍了一种新算法,该算法在密钥切换的数论变换 (NTT) 中实现了线性复杂度。该算法提供了与最先进算法相当的效率,同时显著简单且消耗更少的 GPU 内存。值得注意的是,它将空间消耗减少了高达 95%,对 GPU 内存非常友好。通过优化 GPU 性能,我们的实现与基线方法和当前最先进的方法相比实现了高达 2.0 倍的加速。该算法有效地平衡了简单性和性能,从而增强了现代硬件平台上的加密计算,并为云计算环境中更实用、更高效的 FHE 实现铺平了道路。
传统锂离子电池建模没有提供足够的信息来准确验证在实时动态操作条件下电池的性能,尤其是在考虑各种老化模式和机制时。为了改善当前方法,本文提出了一个可以捕获实时数据并整合SEI层生长,阳极裂纹传播和锂电池之间的强耦合的锂离子电池数字双胞胎。它可以用来估算从宏观全细胞水平到显微镜颗粒水平的衰老行为,包括在动态老化条件下的电压 - 电流特征,可以预测基于镍甲虫 - 雄性 - 果胶(NMC)基于锂离子电池的降解行为,并有助于进行电化学分析。该模型可以改善细胞衰老的根本原因分析,从而对衰老机制耦合效应有定量的理解。开发了带有动态放电轮廓的三个充电协议,以模拟真实的车辆操作场景,并用于验证数字双胞胎,结合操作数阻抗测量,验尸后分析和SEM,以进一步证明结论。数字双胞胎可以准确预测电池容量在0.4%MAE之内淡出。结果表明,SEI层的生长是能力降解和阻力增加的主要因素。基于对模型的分析,得出的结论是,与标准的连续充电Pro烟光相比,提出的多步充电协议之一可以减少基于NMC的锂离子电池的降解。本文代表了未来物理知识的机器学习开发的坚定物理基础。
基于机器学习的应用程序的大量增长和摩尔定律的终结迫切需要重新设计计算平台。我们提出了 Lightning,这是第一个可重构的光子电子智能 NIC,用于满足实时深度神经网络推理请求。Lightning 使用快速数据路径将流量从 NIC 馈送到光子域,而不会产生数字数据包处理和数据移动瓶颈。为此,Lightning 利用了一种新颖的可重构计数动作抽象,可以跟踪每个推理包所需的计算操作。我们的计数动作抽象通过计算每个任务中的操作数将计算控制平面与数据平面分离,并在不中断数据流的情况下触发下一个任务的执行。我们使用四个平台评估 Lightning 的性能:原型、芯片综合、仿真和模拟。我们的原型展示了以 99.25% 的准确率执行 8 位光子乘法累加运算的可行性。据我们所知,我们的原型是频率最高的光子计算系统,能够以 4.055 GHz 的速度端到端处理实时推理查询。我们对大型 DNN 模型的模拟表明,与 Nvidia A100 GPU、A100X DPU 和 Brainwave smartNIC 相比,Lightning 将平均推理服务时间分别加快了 337 × 、329 × 和 42 × ,同时消耗的能量分别减少了 352 × 、419 × 和 54 × 。
Schwinger 模型(1+1 维量子电动力学)是研究量子规范场论的试验平台。我们给出了可扩展的显式数字量子算法来模拟 NISQ 和容错设置中的格子 Schwinger 模型。具体而言,我们使用最近推导的交换子界限对 Schwinger 模型的低阶 Trotter 公式模拟进行了严格分析,并给出了两种情况下模拟所需资源的上限。在格点中,我们发现在 N/2 个物理点上具有耦合常数 x − 1 / 2 和电场截止 x − 1 / 2 Λ 的 Schwinger 模型可以在量子计算机上使用 e O ( N 3 / 2 T 3 / 2 √ x Λ) 中的多个 T 门或 CNOT 进行模拟,时间为 2 xT,操作数为固定算子误差。这种使用截断 Λ 的缩放效果优于量子比特化或 QDRIFT 等算法的预期效果。此外,我们给出了可扩展的测量方案和算法来估计可观测量,这些可观测量在 NISQ 和容错设置中都是通过假设一个简单的目标可观测量(平均对密度)来计算的。最后,我们将通过模拟估计此可观测量的均方根误差限制为理想和实际 CNOT 通道之间的菱形距离的函数。这项工作提供了对模拟 Schwinger 模型的严格分析,同时还提供了可以测试后续模拟算法的基准。
本文研究了二元混合电极的电化学行为,其中包括等效量的锂离子电池活性材料,即lini 0.5 MN 0.3 CO 0.3 CO 0.2 O 0.2 O 2(NMC),LIMN 2 O 4(LMO),寿命0.35 MN 0.65 MN 0.65 PO 4(LFMP)和Lifepo 4(Lifepo 4(life testro controtro)和lif intres intros introse intros intros introse contring intring intring intring intring in actring in acting and a) Operando X射线衍射(XRD)。所有可能的50:50混合组合进行了研究,并在连续和脉冲电荷和放电过程中遵循混合组分之间的电流分布。结果表明,单个材料的电压曲线对当前分布的显着影响,每个组件的有效C率在整个电荷状态(SOC)中变化。脉冲解耦电化学测试揭示了在放松过程中混合成分之间的电荷交换,展示了“缓冲效果”,该效应也已通过时间分辨的操作数XRD实验在实际混合物中精心考虑考虑束诱导的效果的真实混合物中捕获。发现电荷转移的方向性和大小取决于组件和细胞SOC的性质,也受温度的影响。这些依赖性可以合理化,考虑到混合组成部分的热力学(电压谱)和反应动力学。这些发现有助于促进对混合电极内部动力学的理解,这是对合理设计的有价值的见解,以满足锂离子电池的多样化运营需求。
摘要 本研究论文介绍了一种用于“超大规模集成”(VLSI)应用的新型 22 晶体管 (22T)、1 位“全加器”(FA)。所提出的 FA 源自混合逻辑,该逻辑是“栅极扩散输入”(GDI)技术、“传输门”(TG)和“静态 CMOS”(SCMOS)逻辑的组合。为了评估所提出的 FA 的性能,在“设计指标”(DM)方面将其与最先进的 FA 进行了比较,例如功率、延迟、“功率延迟乘积”(PDP)和“晶体管数量”(TC)。为了进行公平比较,所有考虑的 FA 都是在常见的“工艺电压温度”(PVT)条件下设计和模拟的。模拟是使用 Cadences 的 Spectre 模拟器使用 45 nm“预测技术模型”(PTM)进行的。仿真表明,在输入信号频率 fin=200 MHz 和电源电压 V dd =1 V 时,所提出的 FA 的“平均功率耗散”(APD) 为 1.21 µW。它的“最坏情况延迟”(WCD) 为 135 ps,并且“功率延迟积”(PDP) =0.163 fJ。进一步为了评估所提出的 FA 在 V dd 和输入信号操作数大小方面的可扩展性,它嵌入在 64 位 (64b)“行波进位加法器”(RCA) 链中,并通过将 V dd 从 1.2 V 以 0.2 V 的步长降低到 0.4 V 来进行仿真。仿真结果表明,只有所提出的 FA 和其他 2 个报道的 FA 能够在不同的 V dd 值下在 64b RCA 中运行,而无需使用任何中间缓冲器。此外,我们观察到,与其他 2 个 FA 相比,所提出的 FA 具有更好的功率、延迟和 TC。关键词:全加器、PDP、低功耗、静态 CMOS、门扩散输入、传输门逻辑
抽象的时间域调查(例如ZTF,ASAS-SN和Panstarrs)发现了无数现象,例如在日常时间表上不断发展的超新星。这些系统通过观察单个瓷砖并定期重新访问先前观察到的区域,每晚每周至每周一次的全天空节奏,但它们可能会错过以更快的速度演变或出现在其视野外(FOV)以外的瞬态。达到这些快速,罕见的瞬态需要同时调查整个天空。evryscope遵循这种方法,每两分钟,一对北部和南部的望远镜每两分钟都在地平线上方调查天空。移至下一代的调查,Argus阵列是一个全天空系统,可将900个望远镜多路复用到单个安装座上。使用ArcSecond尺度采样,SCMOS探测器和宽场光学元件,Argus可以达到外层状瞬变。然而,随着分辨率接近观看限制的性能,Argus的物理数量级比Evryscope大。这需要一个自定义的安装座,能够支持和跟踪900望远镜,同时保持光学材料的挑战等同于为目前操作的机器人望远镜组合提供服务。我提出了针对这些挑战的解决方案,该挑战是在Argus Pathfinder阵列中实施的,这是我论文工作的中心主题。这个缩放的原型演示了如何构造和维护Argus数组。我详细介绍了我们的新假尾望远镜设计,在操作数百个单独的望远镜进行初始调试时,减少了维护开销。我们以Argus Pathfinder的早期绩效结果得出结论。i还提出可扩展的运动控制系统,驱动Argus阵列的当前设计。