摘要 - 基于张量网络的量子电路模拟中的关键问题之一是构造收缩树,它可以最大程度地减少模拟成本,其中可以在操作数量中表达成本作为模拟运行时间的代理。在各种应用领域中出现了同样的问题,例如组合科学计算,概率图形模型中的边缘化以及解决约束满意度问题。在本文中,我们将该问题的计算严重部分减少到一个线性排序之一,并演示如何利用该领域的现有方法在相同的运行时间内实现比现有最先进的方法更好的数量级。为此,我们引入了一种新型的多项式时间算法,用于从给定的顺序构造最佳收缩树。此外,我们引入了一个快速,高质量的线性订购求解器,并证明了其适用性,作为为收缩树提供订购的启发式。最后,我们将我们的求解器与量子电路模拟中构造收缩树构造收缩树的竞争方法比较了随机生成的量子近似优化算法最大切割电路,并表明我们的方法在大多数测试的量子电路上都取得了卓越的结果。可重复性:我们的源代码和数据可在https://github.com/cameton/hpec2022 ContractionTrees上获得。索引术语 - 收集树,张量网络,量子电路模拟,QAOA
药物发现和开发过程漫长而昂贵,平均每种药物花费超过 10 亿美元,耗时 10 至 15 年。为了减少整个过程中的高损耗,近十年来,人们对将机器学习方法应用于药物发现和开发的各个阶段的兴趣日益浓厚,尤其是在最早的阶段——识别可用药的疾病基因。在本文中,我们开发了一种新的张量分解模型来预测治疗疾病的潜在药物靶标(基因或蛋白质)。我们使用从 Open Targets 和 PharmaProjects 数据库中提取的数据,创建了一个三维数据张量,包含 1,048 个基因靶标、860 种疾病和 230,011 个证据属性以及将它们联系起来的临床结果。我们利用从面向药物发现的知识图谱中学习到的基因靶标表示丰富了数据,并应用我们提出的方法来预测未知基因靶标和疾病对的临床结果。我们设计了三种评估策略来衡量预测性能,并对几种常用的机器学习分类器以及贝叶斯矩阵和张量分解方法进行了基准测试。结果表明,结合知识图谱嵌入可显著提高预测准确性,并且训练张量分解和密集神经网络的效果优于所有其他基线。总之,我们的框架结合了两种积极研究的机器学习方法来识别疾病目标,即张量分解和知识图谱表示学习,这可能是进一步探索数据驱动药物发现的有希望的途径。
作用 β 在 S 上是传递的,并将其变成齐次流形[2-5]。因此,U(H) 正则作用的基本向量场形成 GL(H) 作用的基本向量场代数的李子代数。[6] 证明了,为了描述 β 的基本向量场,只需考虑 U(H) 在 S(H) 上的正则作用的基本向量场以及与期望值函数 la(ρ)=Tr(aρ) 相关的梯度向量场,其中 a 是 H 上有界线性算子空间 B(H) 中的任意自伴元素,借助于所谓的 Bures-Helstrom 度量张量 [7-12]。这个例子提供了酉群 U(H)、S(H) 的 GL(H) - 齐次流形结构、Bures–Helstrom 度量张量和期望值函数之间的意外联系。然而,这并不是单调度量张量与一般线性群 GL(H) “相互作用”的唯一例子。事实上,在 [6] 中,还证明了 U(H) 正则作用的基本向量场以及与期望值函数相关的梯度向量场通过 Wigner–Yanase 度量
目的:识别电生理信号的信息特征对于理解脑发育模式很重要,其中诸如磁脑电图(MEG)等技术特别有用。然而,更少的关注是完全利用MEG数据的多层次性质来提取描述这些模式的组件。方法:MEG产量成分的张量因子化封装数据的多维性质,提供了简约的模型,从而识别潜在的大脑模式,以实现有意义的neu-ral过程汇总。为了满足对小儿队列研究有意义的MEG签名的需求,我们提出了一种基于张量的方法来提取多受试者MEG数据的发育特征。我们采用规范多核(CP)分解来估计数据的潜在时空组件,并将这些组件用于组级别的统计推断。结果:使用CP分解以及层次聚类,我们能够提取典型的早期和晚期延迟事件相关场(ERF)组件,这些磁场(ERF)组件是高分和低性能组的歧视性(P <0。05),与主要认知领域(例如注意力,情节记忆,执行功能和语言理解力)显着相关。结论:我们证明,MEG的基于张量的组级别统计推断可以产生对多维MEG数据的描述。此外,这些特征可用于研究健康儿童的脑模式和认知功能的群体差异。意义:我们提供了一种有效的工具,该工具可能直接从电生理测量中评估儿童发育状况和大脑功能有用,并促进认知过程的前瞻性评估。
组合优化在理论研究和实际应用中都具有普遍意义。快速发展的量子算法为解决组合优化问题提供了不同的视角。在本文中,我们提出了一种基于量子启发的张量网络算法,用于解决一般的局部约束组合优化问题。我们的算法为感兴趣的问题构建了一个汉密尔顿量,有效地将其映射到量子问题,然后将约束直接编码到张量网络状态中,并通过将系统演化到汉密尔顿量的基态来求解最优解。我们用露天采矿问题演示了我们的算法,结果得出了二次渐近时间复杂度。我们的数值结果表明了这种构造的有效性以及在一般组合优化问题的进一步研究中的潜在应用。
1 加利福尼亚大学圣地亚哥分校放射学系,美国加利福尼亚州圣地亚哥 92121;dharrington@health.ucsd.edu (DLH);rtheilmann@health.ucsd.edu (RJT);adangeles@health.ucsd.edu (AA-Q.);arobb@health.ucsd.edu (AR-S.);tao.song@megin.fi(TS);z2ji@health.ucsd.edu (ZJ);rrlee@health.ucsd.edu (RRL) 2 VA圣地亚哥医疗保健系统研究、放射学和精神病学服务部,美国加利福尼亚州圣地亚哥 92161 3 加利福尼亚大学计算机科学与工程系,美国加利福尼亚州圣地亚哥 92093;p8hsu@eng.ucsd.edu (P.-YH); ckcheng@ucsd.edu (C.-KC) 4 加利福尼亚大学神经科学系,加利福尼亚州圣地亚哥 92093,美国;slnichols@health.ucsd.edu 5 ASPIRE 中心,VASDHS 住宅康复治疗计划,加利福尼亚州圣地亚哥 92110,美国;lu.le@va.gov (LL);carl.rimmele@va.gov (CR);scmatthews@health.ucsd.edu (SM) 6 洛约拉大学心理科学系,路易斯安那州新奥尔良 70118,美国;kyurgil@loyno.edu 7 VA 压力和心理健康卓越中心,加利福尼亚州圣地亚哥 92161,美国;dgbaker@health.ucsd.edu 8 加利福尼亚大学精神病学和行为医学系,加利福尼亚州戴维斯 95817,美国; aidrake@ucdavis.edu 9 南京邮电大学计算机学院,南京 210023,中国;guoj@njupt.edu.cn 10 加利福尼亚大学精神病学系,加利福尼亚州圣地亚哥 92093,美国 * 通信地址:mxhuang@ucsd.edu;电话:+1-858-534-1254;传真:+1-858-534-6046 † 这些作者对这项工作做出了同等贡献。
○ 与 A100 相比,新的第四代 Tensor Cores 的芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。在每个 SM 的基础上,与上一代 16 位浮点选项相比,Tensor Cores 在等效数据类型上提供 2 倍的 A100 SM MMA(矩阵乘法累加)计算速率,使用新的 FP8 数据类型提供 4 倍的 A100 速率。Sparsity 功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 加速高达 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。○ 与 A100 相比,IEEE FP64 和 FP32 芯片间处理速度提高了 3 倍,这是由于每个 SM 的时钟对时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。集群支持跨多个 SM 同时运行的多个线程块同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。● 新的 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型训练和推理。Transformer Engine 可智能管理并动态选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少 HBM3 的访问次数。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽
○ 与 A100 相比,新的第四代 Tensor Cores 芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。与上一代 16 位浮点选项相比,在每个 SM 上,Tensor Cores 在等效数据类型上提供 A100 SM 的 2 倍 MMA(矩阵乘法累加)计算速率,在使用新的 FP8 数据类型时提供 A100 的 4 倍速率。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 快 7 倍。两个例子包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。 ○ 与 A100 相比,由于每个 SM 的时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟频率,因此芯片到芯片的 IEEE FP64 和 FP32 处理速度提高了 3 倍。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。群集支持跨多个 SM 同时运行的多个线程块以同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持群集中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。 ● 新型 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型的训练和推理。Transformer Engine 可以智能地管理和动态地选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少对 HBM3 的访问。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽
摘要:单分子磁铁{Mn 84}是对理论的挑战,因为它的核性很高。我们使用无参数理论直接计算两个实验可访问的可观察到的可观察到的可观察到的磁化值,最高为75 t和温度依赖的热容量。特别是,我们使用第一个原理计算来得出短期和远程交换相互作用,并计算所有84 MN S = 2旋转的所得经典Potts和Ising Spin模型的确切分区函数,以获得可观察的物品。通过使用绩效张量张量网络收缩来实现后一种计算,这是一种用于模拟量子至上电路的技术。我们还合成了磁铁并测量其热容量和磁化,观察理论与实验之间的定性一致性,并确定热容量中异常的颠簸和磁化强度的高原。我们的工作还确定了大磁铁中当前理论建模的某些局限性,例如对小型,远程交换耦合的敏感性。
为了揭示 Google Tensor 芯片的所有细节,本报告进行了多项分析:前端构造分析以揭示三星 5nm 工艺最有趣的特性,以及后端构造分析以了解封装结构。本报告还通过横截面分析对 SoC 芯片进行了详细研究。除了使用 SEM 横截面、材料分析和分层进行完整的构造分析外,我们还展示了三星 Exynos 2100 5nm 的高分辨率 TEM 横截面。还提供了 CT 扫描(3D X 射线)以揭示整个芯片封装的布局结构。此外,还包括 SoC 芯片的平面图,以便清楚地了解 IP 块和通用芯片架构。最后,本报告包含 Google Tensor 芯片的完整成本分析和销售价格估算。