海报会议 1:数据高效和计算高效的机器学习 标题:矩阵的内存效率 PoC:Chien-Cu Chen 标题:舒张阵列:高效的神经网络推理加速 PoC:Michael Mishkin 和 Mikko Lipasti 摘要:绝大多数神经网络运算都是与点积计算相关的乘法和累加。基于舒张阵列的神经网络加速有助于实现基于收缩阵列的节能神经网络推理加速,该收缩阵列具有复杂单元的浅流水线,每个单元包含多个乘法器单元和一个加法器树以执行部分缩减。这些流水线比传统的矩阵乘法收缩阵列实现包含的触发器更少,从而大幅节省能源。由于通过较浅流水线的较低延迟传播,可以进一步提高性能,但这种延迟的减少很容易被带宽限制所掩盖。通过并行操作多个较小的舒张阵列图块以提高阵列利用率,可以进一步提高性能。平铺增加的功耗被舒张阵列功率节省所抵消,从而在组合时产生最佳能量延迟积。标题:学生声学基础词嵌入,用于改进声学到词的语音识别 PoC:Shane Settle 标题:学生序列的多视图表示学习 PoC:Qingming Tang T
能够分析算法的性能 能够为指定的应用程序选择合适的数据结构和算法设计方法 能够理解数据结构的选择和算法设计方法如何影响程序的性能 UNIT - I 简介:算法、性能分析-空间复杂度、时间复杂度、渐近符号-大 oh 符号、欧米茄符号、西塔符号和小 oh 符号。 分而治之:一般方法,应用-二分查找、快速排序、归并排序、施特拉森矩阵乘法。 UNIT - II 不相交集:不相交集合运算、联合和查找算法 回溯:一般方法、应用、n 皇后问题、子集和问题、图着色 UNIT - III 动态规划:一般方法,应用-最佳二叉搜索树、0/1 背包问题、所有对最短路径问题、旅行商问题、可靠性设计。第四单元贪婪法:通用方法,应用-有截止期限的工作排序,背包问题,最小成本生成树,单源最短路径问题。第五单元分支定界:通用方法,应用-旅行商问题,0/1背包问题-LC分支定界解决方案,FIFO分支定界解决方案。NP-Hard和NP-Complete问题:基本概念,非确定性算法,NP-Hard和NP-Complete类,Cook定理。教科书:
能够分析算法的性能 能够为指定的应用程序选择合适的数据结构和算法设计方法 能够理解数据结构的选择和算法设计方法如何影响程序的性能 UNIT - I 简介:算法、性能分析-空间复杂度、时间复杂度、渐近符号-大 oh 符号、欧米茄符号、西塔符号和小 oh 符号。 分而治之:一般方法,应用-二分查找、快速排序、归并排序、施特拉森矩阵乘法。 UNIT - II 不相交集:不相交集合运算、联合和查找算法 回溯:一般方法、应用、n 皇后问题、子集和问题、图着色 UNIT - III 动态规划:一般方法,应用-最佳二叉搜索树、0/1 背包问题、所有对最短路径问题、旅行商问题、可靠性设计。第四单元贪婪法:通用方法,应用-有截止期限的工作排序,背包问题,最小成本生成树,单源最短路径问题。第五单元分支定界:通用方法,应用-旅行商问题,0/1背包问题-LC分支定界解决方案,FIFO分支定界解决方案。NP-Hard和NP-Complete问题:基本概念,非确定性算法,NP-Hard和NP-Complete类,Cook定理。教科书:
正是对建立一整套新的数学工具以分析和评估未来神经形态计算系统的启发。忆阻器于1971年被提出[4],并于2008年通过实验建立[5],它是一种电阻性器件,是针对这种非冯·诺依曼计算优化的未来神经形态器件。忆阻器可以根据内部状态和外部刺激(如电压脉冲)改变其电阻。先前的研究表明,基于忆阻器的交叉结构可以依靠欧姆定律和基尔霍夫定律,将计算最密集的组件矢量矩阵乘法(VMM)直接映射到电参数,从而加速各种人工神经网络(ANN)。[6,7]在此原理下,VMM计算过程直接在原位进行,从而避免了因从内存中获取数据而导致的内存墙(冯·诺依曼瓶颈)。尤其是在监督学习中,它可以降低前馈过程和从 NP 到 P 的反向传播的计算复杂度。[8] 因此,当前的研究主要集中在分类和回归任务上,以利用这种新的计算机制作为互补金属氧化物半导体 (CMOS) 电路的补充。然而,忆阻器的不同物理机制,如导电丝的形成/溶解和相变,决定了器件存在需要进一步优化的缺陷。[9,10]
摘要:光子综合电路正在成为一个有前途的平台,用于加速深度学习中的矩阵乘法,利用光的固有平行性质。尽管已经提出并证明了各种方案是为了实现这种光子矩阵加速器,但由于在光子芯片上直接芯片后反向传播的困难,使用光子加速器对人工神经网络的原位培训仍然具有挑战性。在这项工作中,我们提出了一个具有对称结构的硅微孔谐振器(MRR)光学横杆阵列,该横梁允许简单的芯片反向传播,有可能使深度学习的推理和训练阶段加速。我们在Si-On-On-On-On-On-On-On-On-On-On平台上演示了一个4×4电路,并使用它来执行简单神经网络的推理任务,用于对虹膜花进行分类,从而达到了93.3%的分类精度。随后,我们使用模拟的芯片反向传播训练神经网络,并在训练后同一推理任务中达到91.1%的精度。此外,我们使用9×9 MRR横梁阵列模拟了卷积神经网络(CNN)进行手写数字识别,以执行卷积操作。这项工作有助于实现紧凑和节能的光子加速器进行深度学习。
2.1 参考应用程序 第一个参考应用程序 Nek5000 (C1) [1] 是一个基于谱元法 (SEM) 的流体和传热求解器,具有悠久的开发历史。在 20 世纪 90 年代中期,它是第一个可用于分布式内存计算机的代码,并于 1999 年因算法质量和持续并行性能而获得 Gordon Bell 奖。良好的缩放特性是通过将基于 SEM 的域分解为一组不相交的谱子域来实现的,这允许将全局运算符拆分为一组局部执行的密集矩阵-矩阵乘法,并结合通过直接刚度求和的通信步骤。这种域分解也可用于提高模拟可靠性,因为可以在运行过程中动态修改域分解以最小化估计的计算误差。在 EXCELLERAT 中,KTH 将致力于 Nek5000 的开发,重点关注与 WP4 服务数量相对应的多个方面,例如:使用伴随算法(内在优化方法)进行自适应网格细化、不确定性量化(数值方法、数据缩减算法)、使用加速器(移植到新架构、节点级性能工程)或后处理数据缩减(现场可视化)。它涵盖了从预处理阶段开始的整个模拟周期,其中必须生成相对复杂几何形状的粗六边形网格(网格划分算法)。在模拟阶段,我们将专注于非一致网格的压力预处理器(数值方法)和通信内核(系统级性能工程)。
深度神经网络 (DNN) 是图像、语音和文本处理的最新技术。为了解决训练时间长和能耗高的问题,自定义加速器可以利用稀疏性,即零值权重、激活和梯度。提出的稀疏卷积神经网络 (CNN) 加速器支持使用不超过一个动态稀疏卷积输入进行训练。在现有的加速器类别中,唯一支持双面动态稀疏性的是基于外积的加速器。然而,当将卷积映射到外积时,会发生与任何有效输出都不对应的乘法。这些冗余笛卡尔积 (RCP) 降低了能源效率和性能。我们观察到在稀疏训练中,高达 90% 的计算都是 RCP,它们是由 CNN 训练后向传递期间大矩阵的卷积产生的,用于更新权重。在本文中,我们设计了一种机制 ANT 来预测和消除 RCP,与外积加速器结合使用时可以实现更高效的稀疏训练。通过预测超过 90% 的 RCP,在使用 DenseNet- 121 [ 38 ]、ResNet18 [ 35 ]、VGG16 [ 73 ]、Wide ResNet (WRN) [ 85 ] 和 ResNet-50 [ 35 ] 的 90% 稀疏训练中,ANT 比类 SCNN 加速器 [67] 实现了 3.71 倍的几何平均速度提升,能耗降低了 4.40 倍,面积增加了 0.0017 平方毫米。我们将 ANT 扩展到稀疏矩阵乘法,以便同一个加速器可以预测稀疏全连接层、Transformer 和 RNN 中的 RCP。
b'we考虑了与随机噪声(LPN)问题的经典学习奇偶的稀疏变体。我们的主要贡献是一种新的算法框架,它为学习稀疏平等(LSPN)问题和稀疏LPN问题提供了针对低噪声的学习算法。与以前的LSPN和稀疏LPN的方法不同(Grigorescu等人,2011年;英勇,2015年; Karppa等。,2018年; Raghavendra等。,2017年; Guruswami等。,2022),该框架具有一个简单的结构,而无需快速矩阵乘法或张量方法,因此其算法易于实现并在多项式空间中运行。令n为尺寸,k表示稀疏性,\ xce \ xb7是噪声率,使每个标签都会被概率\ xce \ xb7串起。是计算学习理论中的基本问题(Feldman等人。,2009年),学习与噪声的稀疏平等(LSPN)假定隐藏的平等是K -Sparse,而不是潜在的密集载体。虽然简单的枚举算法采用n k = o(n/k)k时间,但以前已知的结果静止图至少需要n k/2 = \ xe2 \ x84 \ xa6(n/k)k/2 k/2对于任何噪声率\ xce \ xb7(Grigorescu等人(Grigorescu等)),2011年;英勇,2015年; Karppa等。,2018年)。我们的框架提供了LSPN算法在时间O(\ XCE \ XB7 \ XC2 \ XC2 \ XB7 N/K)K中,对于任何噪声率\ XCE \ XB7
强化学习(RL)借助深度神经网络中的广告,使多样化的学科中的重大分解。一些早期的亮点是在计算机游戏中(Mnih等,2015),国际象棋和GO(Silver等,2016)和机器人技术(Lillicrap等,2015; Haarnoja等,2018b)。最近的高光包括开发有效的算法,例如矩阵乘法(Fawzi等,2022)和分类(Mankowitz等,2023)。RL在天文学上也有一些应用。Telescope automation is closely related to robotics and RL can be used in telescope control including adaptive optics (Nousiainen et al., 2022; Landman et al., 2021; Nousiainen et al., 2021) and adaptive reflective surface control (Peng et al., 2022) as well as in observation scheduling (Jia et al., 2023a,b, 2022)。进一步向下数据流,RL已应用于射电天文数据处理管道(Yatawatta and Avruch,2021; Yatawatta,2023)进行超参数调整。将模范天文学视为从观察望远镜到科学家的数据流或信息,我们可以看到RL的更多应用以帮助和完善这种流程并激发该出版物。几种方法属于机器学习的伞(ML):监督学习是最常用的方法,在该方法中既可以赋予计算机的输入和所需的输出,以学习执行某个任务。无监督
我的研究领域是理论计算机科学,即从数学角度研究计算的学科。我主要研究算法、计算复杂性和量子计算。我对算法的研究主要集中在图算法和代数算法上。特别是对于代数算法,我的主要目标是为出现在多个科学和技术领域的代数问题开发良好的算法。具体来说,我已经发现了用于测试代数结构(如群)同构的算法,以及用于线性和双线性代数的基本运算的算法。例如,我的一个成果(参考文献 [6])关注矩阵乘法的复杂性,这是理论计算机科学中的主要开放问题之一,并在这个问题上取得了进展。复杂性理论是理论计算机科学的另一个核心问题。其目标是阐明几种计算模型的计算能力并证明它们的局限性(即证明它们无法计算什么)。该领域最著名的开放问题是 P ̸ =NP 猜想,它被克莱研究所选为千年难题。最近,我对分布式计算的计算复杂性特别感兴趣。量子计算是基于量子力学定律的计算范例。我最具代表性的成果是改进了三角形查找问题的量子复杂性(参考文献 [7])。这个问题在量子环境中研究了 15 年多,要求确定给定的 n 节点图是否包含三角形。虽然先前的研究发现了一种运行时间为 O(n 9 / 7)的量子算法,但我的结果将复杂性进一步降低到 O(n 5 / 4)。