第一作者 Ragini Singh 是电子和通信工程师,目前正在印度博帕尔 (MP) RGPV 攻读微电子和 VLSI 设计硕士学位。第二作者 Sandip Nemade 教授拥有 VLSI 设计学位,目前担任印度博帕尔 (MP) 技术学院电子和通信系助理教授。
摘要——本文提出了一种新颖的近似乘法器设计,该设计在保持高精度的同时实现了低功耗。所提出的设计利用近似高阶压缩器来降低部分乘积生成和累积的复杂性。通过放宽压缩器的精度要求,可以在不影响精度的情况下显著节省功耗。近似乘法器采用混合方法设计,结合了算法和电路级近似。所提出的近似乘法器适用于容错应用,例如数字信号处理、图像和视频处理以及机器学习。该设计展示了功率、面积和精度之间的最佳权衡,使其成为节能计算的有吸引力的解决方案。
摘要 近年来,针对通用矩阵乘法 (GEMM) 优化的硬件架构已得到深入研究,以为深度神经网络提供更好的性能和效率。随着分批、低精度数据(例如本文中的 FP8 格式)的趋势,我们观察到值重用的未开发潜力越来越大。我们提出了一种新颖的计算范式,即值级并行,其中唯一的乘积只计算一次,不同的输入通过时间编码订阅(选择)它们的乘积。我们的架构 Carat 采用值级并行并将乘法转换为累积,使用高效的无乘法器硬件执行 GEMM。实验表明,平均而言,Carat 可将等面积吞吐量和能源效率提高 1.02 ⇥ 和 1.06 ⇥(相对于脉动阵列)以及 3.2 ⇥ 和 4 ⇥。 3⇥当扩展到多个节点时。
摘要:乘法器在数字信号处理应用和专用集成电路中起着重要作用。华莱士树乘法器提供了一种具有面积高效策略的高速乘法过程。它使用全加器和半加器在硬件中实现。加法器的优化可以进一步提高乘法器的性能。提出了一种使用 NAND 门改进全加器的华莱士树乘法器,以实现减小的硅片面积、高速度和低功耗。用 NAND 门实现的改进全加器取代由 XOR、AND、OR 门实现的传统全加器。提出的华莱士树乘法器包含 544 个晶体管,而传统的华莱士树乘法器有 584 个晶体管用于 4 位乘法。
1. 引言 VLSI 技术在速度和尺寸方面的进步使得实现并行乘法器硬件成为可能。技术发展进一步确保了更好的性能特征和在 DSP 系统中的广泛使用。它执行诸如累加多个乘积之和之类的操作的速度比普通微处理器快得多。DSP 架构旨在执行并行操作,从而降低计算复杂性并提高此类应用中重复信号处理所需的速度[1]。这些功能旨在提高可编程 DSP 的速度和吞吐量。对于给定的应用,有大量可编程 DSP 可供选择,具体取决于速度、吞吐量、算术能力、精度、规模、成本和功耗等因素[2]。单芯片乘法器的引入及其与微处理器架构的结合是能够实现 DSP 功能的商用 VLSI 芯片面市的最重要原因[3]。并行前缀加法器被认为是最有效的二进制加法电路。它们的规则结构和快速性能使得它们特别适合实现 VLSI[4]。数字的乘积生成需要一个处理器周期。无论是基于软件的移位和加法算法,还是一个
摘要 本研究提出了一种创新技术,基于一种高效的低功耗 VLSI 方法,设计用于信号和图像处理中混频电路应用的 4 位阵列乘法器。建议的架构使用近阈值区域的绝热方法来优化传播延迟和功耗之间的权衡。乘法器是许多数字电子环境中必不可少的组件,因此诞生了许多针对特定应用定制的乘法器类型。与传统 CMOS 技术相比,该技术显著降低了动态和静态功耗。近阈值绝热逻辑 (NTAL) 使用单个时变电源实现,从而简化了时钟树管理并提高了能源效率。使用 Tanner EDA 工具和 Spectre 模拟器在 TSMC 65 nm 技术节点上对建议的设计进行仿真,以确保验证优化结果。与典型的 CMOS 方法相比,在保持相似设计参数的情况下,可变频率、电源电压和负载电容的功耗分别显著改善了约 66.6%、14.4% 和 64.6%。值得注意的是,随着频率变化,负载电容保持恒定在 C load = 10 pF 和 VDD (max) = 1.2 V;随着电源电压变化,负载电容保持恒定在 C load = 10 pF 和频率 F = 4 GHz;随着负载电容变化,频率保持在 F = 4 GHz 和电源电压 VDD (max) = 1.2 V。关键词:- 4 位阵列乘法器、绝热逻辑、低功耗 VLSI、近阈值区域、NTAL 方法、TSMC 65 nm CMOS 技术、混频器电路、信号和图像处理、能源效率、Tanner EDA、Spectre 模拟器和功耗优化。
本文介绍了 IBM 量子计算机中利用可逆逻辑门设计快速高效乘法器的方法。为了设计乘法器,设计了高效的二进制半加器和全加器用于加法过程。这些设计的实现和仿真是在 IBM 建立的云应用程序上完成的。这些设计针对不同输入的结果以图表的形式显示,显示了概率。与任何软件中的模拟输出相比,输出速度都非常快。最后,结果证实,所提出的加法器和乘法器设计降低了复杂性,输出高效,且不影响延迟。
tmohanrao2020@gmail.com 摘要:乘法器在信号处理和基于 VLSI 的环境应用中起着关键作用,因为与其他设备相比,它消耗更多的功耗和面积。在实时应用中,功率和面积是重要参数。乘法器是必不可少的组件,因为与任何其他元件相比,它占用较大的面积并消耗更多的功耗。我们有很多加法器来设计乘法器。在本文中,使用金字塔加法器,它使用半加器和全加器来提高速度并减少乘法器中使用的门数量,但延迟并没有显着减少。如果我们用 XNOR 和 MUX 代替普通的半加器和全加器来修改金字塔加法器,那么与普通的 16 位加法器相比,这种金字塔加法器使用的门更少,延迟也更少。金字塔加法器中 XNOR 和 MUX 的使用减少了延迟,因为 MUX 功能仅在输入中选择输出。使用这种金字塔加法器可以大大减少乘法器延迟。关键词:MUX,FPGA,DSP,加法器,2.1块,2.2块
摘要:便携式多媒体设备和通信系统的蓬勃发展,对节省面积和功耗的高速数字信号处理 (DSP) 系统的需求也随之增加。有限脉冲响应 (FIR) 滤波器是设计高效数字信号处理系统的重要组成部分。数字有限脉冲响应 (FIR) 滤波器的使用是 DSP 中的主要模块之一。数字乘法器和加法器是 FIR 滤波器中最关键的算术功能单元,也决定了整个系统的性能。因此,低功耗系统设计已成为主要的性能目标。本文提出了一种使用超前进位加法器和乘法器设计的 FIR 滤波器。其中乘法器由改进型超前进位加法器的内部电路提出。超前进位加法器 (CLA) 用于加法运算,它使用最快的进位生成技术,通过减少修复进位位所需的时间来提高速度,而乘法器则以分层方式执行乘法过程。因此,所提出的方法可以最大限度地降低 FIR 滤波器的有效功率和延迟。初步结果表明,与传统方法相比,使用所提出的乘法器方法的 FIR 滤波器实现了更少的延迟和功率降低。所提出的 FIR 滤波器使用 Verilog 代码进行编程,并使用 Xilinx ISE 14.7 工具进行综合和实现。并使用 Xpower 分析器分析功率。关键词:进位前瞻加法器、FIR 滤波器、乘法器、数字信号处理
执行算术运算的量子电路在量子计算中至关重要,因为经过验证的量子算法需要此类运算。尽管量子计算机资源越来越丰富,但目前可用的量子比特数量仍然有限。此外,这些量子比特受到内部和外部噪声的严重影响。已经证明,使用 Clifford+T 门构建的量子电路可以实现容错。然而,使用 T 门的成本非常高。如果电路中使用的 T 门数量没有优化,电路的成本将过度增加。因此,优化电路以使其尽可能节省资源并具有抗噪声能力至关重要。本文介绍了一种执行两个整数乘法的电路设计。该电路仅使用 Clifford+T 门构建,以兼容错误检测和校正码。在 T 计数和 T 深度方面,它的表现优于最先进的电路。