海报会议 1:数据高效和计算高效的机器学习 标题:矩阵的内存效率 PoC:Chien-Cu Chen 标题:舒张阵列:高效的神经网络推理加速 PoC:Michael Mishkin 和 Mikko Lipasti 摘要:绝大多数神经网络运算都是与点积计算相关的乘法和累加。基于舒张阵列的神经网络加速有助于实现基于收缩阵列的节能神经网络推理加速,该收缩阵列具有复杂单元的浅流水线,每个单元包含多个乘法器单元和一个加法器树以执行部分缩减。这些流水线比传统的矩阵乘法收缩阵列实现包含的触发器更少,从而大幅节省能源。由于通过较浅流水线的较低延迟传播,可以进一步提高性能,但这种延迟的减少很容易被带宽限制所掩盖。通过并行操作多个较小的舒张阵列图块以提高阵列利用率,可以进一步提高性能。平铺增加的功耗被舒张阵列功率节省所抵消,从而在组合时产生最佳能量延迟积。标题:学生声学基础词嵌入,用于改进声学到词的语音识别 PoC:Shane Settle 标题:学生序列的多视图表示学习 PoC:Qingming Tang T
程序设计第一部分:第1章 RISC、CISC体系结构、流水线 (2h) 回顾X86体系结构、RISC概念、流水线原理及其危害。第 2 章 PIC 16F84 系列架构和指令集 (5h) 微控制器简介、需求和主要特性、制造商 PIC16F84 主要汇编指令摘要 第 3 章 MiKroC 中 PIC 16F84 的中断 (4h) PIC 16F84 的 4 个中断的详细信息、中断编程、练习 第 4 章 PIC 16f877 系列 (2h) 与 PIC 16F84 的区别、A/D 转换器的编程、端口管理第 2 部分 第 5 章 微处理器的演变 第 6 章 最小微处理器系统和数据交换 第 7 章 微处理器信号:类别、功能和应用 第 8 章 中断 参考书目 [1] J. Hajjej 微处理器和微控制器简介 ELLIPSES,2018
ADS5410 是一款 12 位 ADC。其低功耗(360 mW)和 80 Msps 高采样率是使用基于先进低压 CMOS 工艺构建的最先进的开关电容流水线架构实现的。ADS5410 模拟核心主要由 3.3 V 电源供电,消耗大部分电量。数字核心由 1.8 V 电源供电。如果设计中没有 1.8 V 电源,则可以使用 TPS76318 从 3.3 V AVDD 电源获取 1.8 V。为了增加接口灵活性,数字输出电源 (OV DD ) 可设置为 1.6 V 至 3.6 V。ADC 核心由 10 个流水线级和一个闪存 ADC 组成。每个阶段产生 1.5 位。每半个时钟周期,上升沿和下降沿都用于将样本通过管道传播,总共六个时钟周期。
“微架构是一种三路超标量流水线架构。三路超标量意味着,通过使用并行处理技术,处理器平均能够在每个时钟周期解码、调度和完成(退出)三条指令。为了处理这种级别的指令吞吐量,P6 处理器系列使用了支持无序指令执行的解耦 12 级超级流水线。”
年轻的孤立中子星及其疑似位置是定向搜索连续引力波 (GWs) 的有希望的目标 [1]。即使没有从脉冲星的电磁观测中获得计时信息,这种搜索也可以以合理的计算成本实现有趣的灵敏度 [2]。包含候选非脉冲中子星的年轻超新星遗迹 (SNR) 是此类搜索的自然目标,即使在没有候选中子星的情况下,小型 SNR 或脉冲星风星云也是如此(只要 SNR 不是 Ia 型,即不会留下致密物体)。过去十年,已经发表了许多关于孤立、定位良好的中子星(除已知脉冲星外)的连续引力波的上限。它们使用的数据范围从初始 LIGO 运行到高级 LIGO 的第一次观测运行(O1)和第二次观测运行(O2)。大多数搜索都针对相对年轻的 SNR [3-11]。一些搜索瞄准了银河系中心等有希望的小区域 [4, 8, 11–13]。一项搜索瞄准了附近的球状星团,那里的多体相互作用可能会有效地使一颗老中子星恢复活力,从而产生连续的引力波 [14]。一些搜索使用了较短的相干时间和最初为随机引力波背景开发的快速、计算成本低的方法 [4, 8, 11]。大多数搜索速度较慢但灵敏度更高,使用较长的相干时间和基于匹配滤波和类似技术的针对连续波的专用方法。这里我们展示了对 12 个 SNR 的 O2 数据的首次搜索,使用完全相干的 F 统计量,该统计量是在代码流水线中实现的,该流水线源自首次发布的搜索 [3] 等 [5, 9] 中使用的代码流水线。由于 O2 噪声频谱并不比 O1 低很多,我们通过专注于与年轻脉冲星观测到的低频兼容的低频,加深了这些搜索(相对于 O1 搜索 [9])。这一重点使我们能够增加相干时间,并获得显着的改进
摘要。本文介绍了一种可综合的 µ 架构设计方法,通过在处理器流水线内的执行阶段利用规范有符号数字 (CSD) 表示来提高给定 RISC-V 处理器架构的性能。CSD 是一种独特的三进制数系统,无论字长 N 是多少,都可以在常数时间 O (1) 内实现无进位/无借位加法/减法。CSD 扩展以 Potato 处理器为例进行了演示,这是一种简单的 RISC-V FPGA 实现。但是,该方法原则上也可以应用于其他实现。我们通过 CSD 实现的性能提升需要二进制和 CSD 表示之间的转换开销。该开销通过扩展到七级流水线架构来补偿,该架构具有三步执行阶段,可提高吞吐量和工作频率并实现循环展开,这在具有连续计算的应用中尤其有利,例如信号处理。根据实验结果,我们将基于 CSD 的三元解决方案与原始实现进行了比较,后者使用通常的纯二进制数表示操作数。与 FPGA 上的原始 RISC-V 处理器相比,我们的方法实现了 2.41 倍的运行频率提升,其中超过 20% 的增益归功于 CSD 编码。对于计算密集型基准测试应用程序,这种增强使吞吐量提高了 2.40 倍,执行时间缩短了 2.37 倍。
摘要 — 图形处理单元 (GPU) 越来越多地被应用于可靠性至关重要的多个领域,例如自动驾驶汽车和自主系统。不幸的是,GPU 设备已被证明具有很高的错误率,而实时安全关键应用程序所施加的限制使得传统的(且昂贵的)基于复制的强化解决方案不足。这项工作提出了一种有效的方法来识别 GPU 模块中的架构易受攻击的位置,即如果损坏则最影响正确指令执行的位置。我们首先通过基于寄存器传输级 (RTL) 故障注入实验的创新方法来识别 GPU 模型的架构漏洞。然后,我们通过对已确定为关键的触发器应用选择性强化来减轻故障影响。我们评估了三种强化策略:三重模块冗余 (TMR)、针对 SET 的三重模块冗余 (∆ TMR) 和双联锁存储单元(骰子触发器)。在考虑功能单元、流水线寄存器和 Warp 调度器控制器的公开 GPU 模型 (FlexGripPlus) 上收集的结果表明,我们的方法可以容忍流水线寄存器中 85% 到 99% 的故障、功能单元中 50% 到 100% 的故障以及 Warp 调度器中高达 10% 的故障,同时降低硬件开销(与传统 TMR 相比,在 58% 到 94% 的范围内)。最后,我们调整了该方法以针对永久性故障执行补充评估,并确定了容易在 GPU 上传播故障影响的关键位置。我们发现,对瞬态故障至关重要的触发器中相当一部分(65% 到 98%)对永久性故障也至关重要。
Donald F. Hooper Don Hooper 是逻辑设计和 CAD 领域的咨询工程师。他发起并领导了“综合设计”程序的开发,这是 Digital 的第一个综合工具。在 1979 年加入 Digital 之前,他是 Itel 7031 大型机的架构师和 !tel Advanced System 4 的缓存设计师。他毕业于 Don Bosco 技术学院。Don 拥有语音识别电路、Digital 第一个流水线 CPU 的标签和排队系统以及 VAX 8600 系统的控制存储管道的专利。此外,他在逻辑综合方面还有几项专利正在申请中。
工艺改进。本研究的具体研究贡献包括:(1) 确定与开关电容电路相关的 MOS 器件可靠性问题,(2) 引入一种新的自举技术,用于在低压电源上操作 MOS 传输门,而不会显著缩短器件寿命,(3) 开发低压运算放大器设计技术。利用这些设计技术,可以实现开关电容电路所需的构建模块,从而能够在低压电源上创建采样、滤波和数据转换电路。作为演示,介绍了实验性 1.5 V、10 位、14.3MS/s、CMOS 流水线模数转换器的设计和特性。
历史表明,颠覆性技术成功的最重要条件是易于获取和应用的多功能性。生成式人工智能在这两个方面都表现出色。在详细介绍每个属性之前,必须注意的是,生成式人工智能是建立在先前颠覆性技术的肩膀上的,这些颠覆性技术实现了以前被认为不可能实现的进步。特别是,就在十年前,创建训练数据集在经济上是不可行的,因为它的成本过高。图形卡 (GPU)、互连和框架的广泛采用使技术能够利用这些高性能 CPU 组件,允许模型对庞大的训练数据集 (token) 进行流水线传输和处理,从而使这项技术真正具有变革性。