摘要。可变形图像配准是医学图像分析中的关键步骤,用于找到一对固定图像和运动图像之间的非线性空间变换。基于卷积神经网络 (CNN) 的深度配准方法已被广泛使用,因为它们可以快速、端到端地执行图像配准。然而,这些方法通常对具有较大变形的图像对性能有限。最近,迭代深度配准方法已被用来缓解这一限制,其中变换以由粗到细的方式迭代学习。然而,迭代方法不可避免地延长了配准运行时间,并且倾向于在每次迭代中学习单独的图像特征,这阻碍了利用这些特征来促进以后的迭代配准。在本研究中,我们提出了一种用于可变形图像配准的非迭代由粗到细配准网络 (NICE-Net)。在 NICE-Net 中,我们提出了:(i) 单次深度累积学习 (SDCL) 解码器,可以在网络的单次(迭代)中累积学习从粗到细的转换;(ii) 选择性传播特征学习 (SFL) 编码器,可以学习整个从粗到细配准过程的常见图像特征并根据需要选择性传播这些特征。在 3D 脑磁共振成像 (MRI) 的六个公共数据集上进行的大量实验表明,我们提出的 NICE-Net 可以胜过最先进的迭代深度配准方法,而只需要与非迭代方法类似的运行时间。
摘要:高性能计算(HPC)的局限性严重制约着数值模型的发展。传统数值模型通常采用双精度来保证结果的准确性,但这种做法计算成本较高。虽然使用较低的精度可以大幅降低计算成本,但可能会引入舍入误差,这在特定条件下会影响精度。准双精度算法(QDP 算法)通过保留修正值来补偿这些舍入误差,从而提高结果精度。为了探究该算法对提高数值模型结果精度的有效性,本文将其应用于单精度版本的跨尺度预测模型——大气(MPAS-A),并在两个理想情况和两个真实数据案例中评估其性能。结果表明,应用QDP算法在三种情况下可使表面压力偏差分别降低68%、75%、97%和96%。与双精度试验相比,运行时间分别减少了28.6%、28.5%、21.1%和5.7%。本研究表明,QDP算法为数值模型提供了有效且经济的计算能力。
ARM 提供基于硬件的矢量浮点 (VFP) 协处理器,可加速浮点运算。ARM VFP 支持以 CPU 时钟速度执行单精度和双精度加法、减法、乘法、除法、乘法累加运算和除法/平方根运算。ARM VFP 可用于提高成像应用程序(如缩放、2D 和 3D 变换、字体生成、数字滤波器或任何使用浮点运算的应用程序)的性能。由于 ARM VFP 是由 ARM 开发和支持的协处理器,因此它在各种工具链、RTOS 和操作系统(如 Keil MDK 开发环境或 Linux)中都受到支持。ARM VFP 符合 IEEE 754 标准。
我们在新型神威超级计算机上开发了一个基于张量的高性能随机量子电路模拟器。主要创新包括:(1)近乎最优的切片方案和兼顾复杂度和计算密度的路径优化策略;(2)三级并行方案,可扩展到约 4200 万个核心;(3)融合排列和乘法设计,可提高各种张量收缩场景的计算效率;(4)混合精度方案,进一步提升性能。模拟器有效扩展了可模拟 RQC 的范围,包括 10 × 10(量子比特)×(1+40+1)(深度)电路,并能保持 1.2 Eflops(单精度)或 4.4 Eflops(混合精度)的性能,成为经典量子电路模拟的新里程碑;并将Google Sycamore的模拟采样时间从之前宣称的10000年缩短至304秒。
Sam 学习微电子学,而他的爱好是生物学和密码学。他将所有这些领域整合到一个研究项目中,旨在为蚂蚁构建一个微型 GPS 追踪器,以监测其运动。确定坐标后,它们会被加密并传输到 Sam 的计算机,然后在计算机中自动解密。Sam 为此开发了一种对称密码 AntCipher,但它相当弱。这就是为什么 Sam 开发了一种名为 AntCipher 2.0 的新对称流密码。追踪器每分钟使用卫星确定一次其 GPS 坐标。然后,纬度作为 IEEE 754 单精度浮点值被转换为 32 位二进制序列,而经度也是如此。这两个序列被连接起来(纬度 ∥ 经度)以形成 64 位明文。明文与密码生成的密钥流进行按位异或,从而形成 64 位密文并传输到计算机。
Applied Digital 认为,最适合其用户的系统是 Supermicro SYS- 821GE-TNHR,它配备双第四代英特尔® 至强® 铂金处理器 8462Y+。这些服务器使用 NVIDIA HGX H100 GPU,每个 GPU 配备 80GB 内存。NVIDIA H100 为 HPC 提供 67 万亿次浮点运算的 FP64 Tensor Core 计算,而融合 AI 的 HPC 应用程序可以利用 H100 的 TF32 精度实现单精度矩阵乘法运算的 1 千万亿次浮点运算吞吐量。该系统在计算节点内托管八个 H100 Tensor Core GPU 和 900GB/s NVSwitch,用于 GPU 到 GPU 的通信。Applied Digital 选择 2TB 的系统 RAM 来在转移到 GPU 内存之前暂存工作负载。对于网络,Applied Digital 使用 100GbE 进行带内管理和对象存储,并使用 NDR 结构进行 GPU Direct 和融合闪存文件系统流量。利用 NVIDIA DGX 参考架构,Applied Digital 可扩展到在单个并行计算集群中工作的数千个 H100 GPU。
• 内核 Arm Cortex-M7 在典型条件下以 100 MHz 运行 – 16 KB I-Cache 和 16 KB D-Cache,具有错误代码校正 (ECC) – 单精度和双精度硬件浮点单元 (FPU) – 具有 16 个区域的内存保护单元 (MPU) – DSP 指令、Thumb ® -2 指令集 – 具有指令跟踪流的嵌入式跟踪模块 (ETM),包括跟踪端口接口单元 (TPIU) • 内存 – 128 KB 嵌入式闪存,内置 ECC(最多 2 个错误校正) – 384 KB 嵌入式 SRAM 用于紧耦合存储器 (TCM) 接口,以与 Cortex-M7 相同的频率运行,内置 ECC(最多 1 个错误校正) – 768 KB 嵌入式多端口 SRAM,内置 ECC(最多 1 个错误校正),连接到 AHB 系统,以与系统时钟相同的频率运行 – 硬化外部存储器控制器 (HEMC) 用于寻址具有可变数据大小(从 8 位到 48 位)的 PROM、SRAM 和 SDRAM • 六个独立芯片选择 • 最多可访问 2 GB 的外部存储器 • 内置 ECC,允许每 32 位纠正最多 2 位 • 系统外设 – 内置电源故障检测 (PFD)、可编程电源监视器和独立看门狗,确保安全运行
摘要。使用单个精度的渗透点反应在操作天气预测中变得越来越普遍。同时,气候模拟通常仍以双重精度运行。这样做的原因可能是多种多样的,范围从对依从性和保护法的关注到对缓慢过程的未知效果,或者仅仅是较不频繁的机会和较高的验证计算成本。使用基于合奏的统计方法,Zeman和Schär(2022)可以检测区域天气和气候模型Cosmo的双重和单位仿真之间的差异。但是,这些差异是最小的,通常只能在模拟的第一个小时或几天内检测到。为了评估这些差异是否与区域气候模拟相关,我们已经对100年的区域气候下限实验(Euro-Cordex)进行了为期10年的集合模拟,并与100个合奏成员进行了单一和双重精度。通过基于所有测试变量的分布差异,我们仅在每12或24小时以47个输出变量应用47个输出变量的统计测试每12或24 h,每12或24 h都会发现单精度气候模拟的排斥率略有增加。拒绝率的增加远小于模型中水平差异系数的较小变化而产生的。因此,我们认为它可以被模型不确定性掩盖,因为它被忽略了。据我们所知,这项研究代表了迄今为止对
摘要:涉及高斯过程 (GP) 的多保真度 (MF) 替代物用于设计激光定向能量沉积 (L-DED) 增材制造 (AM) 中的时间过程图。过程图用于建立熔池特性(例如熔池深度)与工艺参数(例如激光功率和扫描速度)之间的关系。MFGP 替代物涉及高保真度 (HF) 和低保真度 (LF) 模型。选择 Autodesk Netfabb ® 有限元模型 (FEM) 作为 HF 模型,而选择 Eagar-Tsai 开发的分析模型作为 LF 模型。结果表明,MFGP 替代物能够成功地融合不同保真度模型中存在的信息,以设计时间前向过程图(例如,给定一组真实深度未知的工艺参数,熔池深度是多少?)。为了扩展新开发的建立时间逆过程图的公式(例如,为了实现所需的熔池深度,但不知道真实工艺参数,那么作为时间函数的工艺参数的最佳预测是什么?),在计算预算约束下,通过将 MFGP 代理与贝叶斯优化 (BO) 相结合来进行案例研究。结果表明,与单精度 (SF) GP-BO 相比,MFGP-BO 可以显著提高优化解决方案的质量,同时降低计算预算。与仅限于开发稳态正向过程图的现有方法相比,当前的工作成功地展示了在 L-DED 中实现结合不确定性量化 (UQ) 的时间正向和逆过程图。
摘要 — 低功耗(1-20 mW)近传感器计算的最新应用需要采用浮点算法来协调高精度结果和宽动态范围。在本文中,我们提出了一种低功耗多核计算集群,该集群利用跨精度计算的细粒度可调原理,以最低的功率预算为近传感器应用提供支持。我们的解决方案基于开源 RISC-V 架构,将并行化和子字矢量化与专用互连设计相结合,能够在内核之间共享浮点单元 (FPU)。在此架构的基础上,我们提供了全面的软件堆栈支持,包括并行低级运行时、编译工具链和高级编程模型,旨在支持端到端应用程序的开发。我们对周期精确的 FPGA 仿真器上的跨精度集群的设计空间进行了详尽的探索,并改变了内核和 FPU 的数量以最大限度地提高性能。正交地,我们进行了垂直探索,以确定在非功能性要求(工作频率、功率和面积)方面最有效的解决方案。我们对一组代表近传感器处理域的基准进行了实验评估,并通过对功耗进行布局布线后分析来补充时序结果。与最先进的技术相比,我们的解决方案在能源效率方面优于竞争对手,在单精度标量上达到 97 Gflop/s/W 的峰值,在半精度矢量上达到 162 Gflop/s/W。最后,一个实际用例证明了我们的方法在满足精度约束方面的有效性。