通讯作者* 博士研究员,威斯康星大学密尔沃基分校生物医学工程系,电子邮箱:bozorgp2@uwm.edu 简介 经典分子动力学 (MD) 依靠原子间势(力场)严格模拟固体和流体的热力学、机械和化学特性。该势根据原子位置和其他属性定义系统的能量。早期应用包括研究固体中的辐射效应和简单流体的动力学,凸显了该方法的多功能性 [1-3]。自诞生以来,分子动力学已广泛应用于物理、化学、生物、材料科学和相关领域。在水净化等纳米技术领域 [4],分子动力学还可以在原子水平上理解纳米粒子的行为方面发挥关键作用,有助于深入了解纳米粒子的结构稳定性、表面属性以及与周围分子的相互作用。它将系统建模为粒子(通常是原子)的集合,并通过在多个时间步长上对牛顿方程进行数值积分来计算它们的时间演化。原子上的力由定义势函数的解析方程的导数决定。这种方法计算效率高,特别是对于分子液体和固态金属,可以准确捕捉电子介导的原子相互作用。标准工作站上的 MD 代码可以高效模拟具有 10,000 到 100 万个原子的系统,覆盖皮秒到微秒内重要物理和化学现象的相关长度和时间尺度 [5-8]。MD 模拟的流行可以归因于它们与摩尔定律和广泛并行性推动的显著计算进步的兼容性。在过去的几十年里,传统 CPU 和最近的 GPU 都经历了大幅提速。例如,1988 年,8 处理器的 Cray YMP 实现了 2 千兆次浮点运算的 Linpack 速度,而在 2012 年,单个具有 16 个内核的 IBM Blue Gene/Q CPU 达到了 175 千兆次浮点运算。最大的 BG/Q 机器 Sequoia 拥有近 100,000 个 CPU。预计在未来一两年内,基于 GPU 的超级计算机将达到百亿亿次浮点运算 (10−18) 的速度,这意味着最强大的超级计算机在短短 30 年内速度将提高 5 亿倍。这一趋势还转化为台式机和小型集群的速度提升,可供更广泛的科学计算社区使用 [9, 10]。MD 的计算效率源于其每个时间步的成本线性扩展为 O(N),对于具有短程相互作用的模型,这是由于在指定的截止距离内相邻原子的数量有限。即使对于长程库仑相互作用,MD 也表现出有效的扩展性,对于基于 FFT 的方法(如粒子网格 Ewald),其成本为 O (N log N)
Applied Digital 认为,最适合其用户的系统是 Supermicro SYS- 821GE-TNHR,它配备双第四代英特尔® 至强® 铂金处理器 8462Y+。这些服务器使用 NVIDIA HGX H100 GPU,每个 GPU 配备 80GB 内存。NVIDIA H100 为 HPC 提供 67 万亿次浮点运算的 FP64 Tensor Core 计算,而融合 AI 的 HPC 应用程序可以利用 H100 的 TF32 精度实现单精度矩阵乘法运算的 1 千万亿次浮点运算吞吐量。该系统在计算节点内托管八个 H100 Tensor Core GPU 和 900GB/s NVSwitch,用于 GPU 到 GPU 的通信。Applied Digital 选择 2TB 的系统 RAM 来在转移到 GPU 内存之前暂存工作负载。对于网络,Applied Digital 使用 100GbE 进行带内管理和对象存储,并使用 NDR 结构进行 GPU Direct 和融合闪存文件系统流量。利用 NVIDIA DGX 参考架构,Applied Digital 可扩展到在单个并行计算集群中工作的数千个 H100 GPU。
过去半个世纪,计算机技术和电子技术的飞速发展彻底改变了我们的日常生活,为所有科学和工程分支提供了强大的新工具。水利工程实践和研究也不例外。例如,笔记本电脑每秒执行的浮点运算比四十年前推出的 Cray 1 超级计算机高出几个数量级,如今通常用于运行数值模型,解决各种水利问题。此类模型结果的可信度取决于其使用现场或实验室数据进行验证的程度。在大多数情况下,现场数据的收集非常昂贵且耗时,这使得使用实验室数据成为模型验证的更具吸引力的选择。此外,水利实验室中的物理模型提供了在受控条件下进行测试的可能性,并可以提供对基本过程的新见解,有助于加深对基础物理的理解。利用当今技术提供的工具,研究人员和从业人员能够分析复杂的流动问题和过程,这导致了液压实验室发展的两种趋势,即使用越来越复杂的仪器和设计用于研究特殊流动问题的创新实验设施。
摘要 —本文提出了 LightSleepNet——一种基于轻量级 1-d 卷积神经网络 (CNN) 的个性化实时睡眠分期架构,可在硬件资源有限的各种移动平台上实现。所提出的架构仅需要输入 30 秒单通道 EEG 信号即可进行分类。使用由组 1-d 卷积组成的两个残差块代替传统的卷积层来消除 CNN 中的冗余。在每个卷积层中插入通道混洗以提高准确性。为了避免过度拟合训练集,使用全局平均池化 (GAP) 层替换全连接层,这进一步显著减少了模型参数的总数。提出了一种结合自适应批量归一化 (AdaBN) 和梯度重新加权的个性化算法,用于无监督域自适应。易于转移到新受试者的示例具有更高的优先级,并且该算法可以针对新受试者进行个性化而无需重新训练。实验结果表明,仅需 4576 百万次每秒浮点运算 (MFLOP) 计算和 43.08 K 个参数,就能达到 83.8% 的最佳总体准确率。
摘要 — 物联网 (IoT) 支持的网络边缘人工智能 (AI) 的最新进展通过实现低延迟和计算效率,在智能农业、智能医院和智能工厂等多个应用中实现了边缘智能。然而,在资源受限的边缘设备上部署 VGG-16 和 ResNets 等最先进的卷积神经网络 (CNN) 实际上是不可行的,因为它们有大量的参数和浮点运算 (FLOP)。因此,作为一种模型压缩的网络修剪概念正在引起人们的关注,以加速低功耗设备上的 CNN。最先进的修剪方法,无论是结构化的还是非结构化的,都没有考虑卷积层所表现出的复杂性的不同潜在性质,而是遵循训练-修剪-再训练流程,这会导致额外的计算开销。在这项工作中,我们通过利用 CNN 固有的层级复杂性,提出了一种新颖且计算高效的修剪流程。与典型方法不同,我们提出的复杂性驱动算法根据其对整体网络复杂性的贡献选择特定层进行过滤器修剪。我们遵循直接训练修剪模型的过程,避免计算复杂的排名和微调步骤。此外,我们定义了三种修剪模式,即参数感知 (PA)、FLOP 感知 (FA) 和内存感知 (MA),以引入 CNN 的多功能压缩。我们的结果表明,我们的方法在准确性和加速方面具有竞争力。最后,我们提出了不同资源和准确性之间的权衡,这有助于开发人员在资源受限的物联网环境中做出正确的决策。
世界首屈一指的高性能计算设施之一 劳伦斯利弗莫尔是利弗莫尔计算 (LC) 的所在地,利弗莫尔计算是世界首屈一指的高性能计算设施之一。LC 拥有超过 188 千万亿次浮点运算能力和众多 TOP500 系统,包括 125 千万亿次浮点运算的 Sierra。Sierra 延续了世界级 LLNL 超级计算机的悠久历史,代表着迈向百亿亿次计算的倒数第二步,预计到 2023 年,LLNL 系统 El Capitan 将实现这一目标。这些旗舰系统支持 GPU,能够以前所未有的分辨率生成 3D 多物理场模拟,满足各种关键任务需求。2020 年,LLNL 和 Cerebras Systems 将世界上最大的计算机芯片集成到 Lassen 系统中,用尖端的 AI 技术升级了这台顶级超级计算机。这种结合创造了一种全新的计算解决方案,使研究人员能够研究预测建模的新方法。这些平台由我们经 LEED 认证的创新基础设施、电力和冷却设施提供支持;存储基础设施包括三种文件系统和世界上最大的 TFinity 磁带存档;以及顶级客户服务。我们行业领先的软件生态系统展示了我们在许多大型开源项目中的领导地位,从带有 Lustre 和 ZFS 的 TOSS 到获得 R&D 100 奖的 SCR 和 Spack。
逆问题持续引起人们的极大兴趣,特别是在量子控制动力学和量子计算应用领域。在此背景下,量子最优控制理论试图构建一个外部控制场 E(t),使量子系统从已知的初始状态演化到目标最终状态。预测 E(t) 的时间形式对于控制量子计算 [1]、量子信息处理[2–4]、激光冷却[5, 6] 和超冷物理 [7, 8] 中的潜在动力学至关重要。在复杂的多体量子系统中,预测最优 E(t) 场为控制光捕获复合物和多体相干系统中所需的动力学效应提供了关键的初始条件 [9–13]。解决这些量子控制问题的传统方法是使用基于梯度的方法或其他数值密集型方法最大化所需的跃迁概率 [14–17]。这些方法包括量子轨迹上的随机梯度下降 [18]、Krotov 方法 [19]、梯度上升脉冲工程 (GRAPE) [20] 方法和斩波随机基算法 (CRAB) [21] 方法。虽然每种算法都有自己的目的和优势,但大多数方法都需要复杂的数值方法来求解最优控制场。此外,由于这些逆问题的非线性特性,这些算法中的迭代次数和浮点运算次数可能非常大,有时甚至会导致相对简单的一维问题的结果不收敛 [16, 22])。为了解决前面提到的计算瓶颈,我们小组最近探索了使用监督机器学习来解决这些复杂的逆问题
背景:类脑计算将传统计算技术与受人脑启发的计算和认知思想、原理和模型相结合,以构建智能信息系统,用于我们的日常生活。图像和语音处理、盲信号分离、创造性规划和设计、决策、自适应控制、知识获取和数据库挖掘只是类脑计算应用的一些领域。我们对大脑功能了解得越多,信息系统就越智能。本书还介绍了心智和意识建模的一个主题,以及人工智能领域的其他新理论模型和应用。人脑是一种非常节能的装置。从计算角度来说,它仅需 20 瓦的功率就能每秒执行相当于十亿亿亿亿次浮点运算(1 后面跟着 18 个零)的数学运算。相比之下,世界上最强大的超级计算机之一“橡树岭前沿” (Oak Ridge Frontier) 最近演示了百亿亿次计算能力。然而,要实现这一壮举需要数百万倍的功率,即 20 兆瓦。我和我的同事希望通过大脑来指导开发强大而节能的计算机电路设计。你看,能源效率已经成为阻碍我们制造更强大的计算机芯片的一个主要因素。虽然更小的电子元件已成倍地提高了我们设备的计算能力,但进展却正在放缓。有趣的是,我们对大脑如何运作的看法一直是计算机世界的灵感源泉。为了理解我们是如何得出这种方法的,我们需要简单回顾一下计算的历史。人脑是宇宙中最复杂的物体之一。它能够在不断变化的环境中执行高级认知任务,例如抽象、概括、预测、决策、识别和导航。大脑这种较高的认知能力得益于它的功耗非常低,只有20W。大脑能效高的原因主要有两点:一是信息交换和处理是事件驱动的;因此,尖峰能量仅在需要的时间和地点被消耗。其次,神经元和突触位于同一个神经网络中,高度互联,每个神经元平均与104个其他神经元相连。神经元/突触共位意味着数据处理(由突触兴奋和神经元放电组成)和记忆(由突触权重和神经元阈值组成)在大脑内共享同一位置。许多研究工作旨在模仿人类大脑的计算类型,以实现非凡的能源效率。这是神经形态工程的目标,其中,脉冲神经网络(SNN)是利用人工神经元和突触开发出来的。 SNN 通常采用与 Rosenblatt 和 Minsky 开创的传统感知器网络相同的全连接 (FC) 架构。然而,在 SNN 中,神经元和突触通常表现出对施加的尖峰的时间依赖性响应,例如神经元内的整合和发射以及跨突触的兴奋性突触后电流 (EPSC)。这与用于计算机视觉和语音识别的人工智能 (AI) 加速器中的传统人工神经网络 (ANN) 形成对比,其中信息是同步的并且基于信号幅度而不是时间。大多数 SNN 通常依赖于互补金属氧化物半导体 (CMOS) 技术,具有两个显著的关键优势:首先,CMOS 技术在半导体行业生态系统中广泛可用,包括设计、制造和鉴定,为基于 CMOS 的神经形态工程成为成熟主题创造了条件。其次,CMOS晶体管可以按照摩尔定律小型化,其中减小