GPU

2025年1月8日机构名称:

赛普拉斯：带有GPU加速度的VLSI启发的PCB放置

印刷电路板（PCB）设计的规模已大大提高，现代商业设计具有10,000多个组件。但是，放置过程大大依赖了需要数周完成的手动努力，强调了对自动PCB放置方法的需求。PCB放置的挑战来自其灵活的设计空间和有限的路由资源。现有的自动PCB放置工具在质量和可扩展性方面取得了有限的成功。相比之下，非常大规模的集成（VLSI）放置方法已被证明是可扩展的，对于具有数百万个细胞并提供高质量结果的设计是可扩展的。因此，我们提出了柏树，这是一种受VLSI启发的可扩展的，加速的PCB放置方法。它结合了适合PCB布局的量身定制的成本功能，约束处理和优化的技术。此外，对现实和开源基准的需求不断增长，以（1）在工具和（2）建立Performance基准之间进行有意义的比较以跟踪PCB放置技术的进度。为了解决这一差距，我们提出了一个从实际商业设计中合成的PCB基准套件。我们使用基准套件来评估针对最先进的商业和学术PCB放置工具的方法。我们的方法在提出的基准测试标准上证明了1-5.9倍的可路由。对于完全路由的设计，赛普拉斯达到了1-19.7×较短的路由轨道长度。随着GPU加速度，柏树在运行时间内最多可提供492.3倍的加速。最后，我们展示了对真实商业设计的可扩展性，这是现有工具无与伦比的功能。

查看详细

在OpenFoam Master的论文计算科学与工程中，GPU加速基于激光制造的FVM-DEM模拟的进步

File

2025年1月6日机构名称:

在OpenFoam Master的论文计算科学与工程中，GPU加速基于激光制造的FVM-DEM模拟的进步

方法和实现整个求解器均建立在OpenFoam®上。在序列上，它解决了相位和能量对流，梁的预测，热传导，相变，然后是压力速度计算[2]。粒子发动机仅修饰光束传播，现在使用并行化的粒子。CPU收集网格和粒子数据并将其传输到GPU，颗粒横穿网格，计算其轨迹并计算吸收能量。在GPU上计算完成后，吸收的能量场将返回到CPU。

查看详细

Juniper® 验证设计 JVD 测试报告摘要：采用 Juniper Apstra、NVIDIA GPU 和 WEKA 存储的 AI 数据中心网络

File

2024年12月27日机构名称:

Juniper® 验证设计 JVD 测试报告摘要：采用 Juniper Apstra、NVIDIA GPU 和 WEKA 存储的 AI 数据中心网络

• DLB 不使用端口 BW 来计算链路质量。相反，链路质量基于最近通过每个 ECMP 链路传输的流量，以及每个 ECMP 链路上排队等待传输的流量。这可能导致流量被分配到较低 BW 的链路而不是较高 BW 的链路，从而导致拥塞。此外，如果链路质量下降，已分配给链路的流量将不会被重新分配，除非该链路暂停的时间长于不活动间隔。可以调整端口质量指标和不活动间隔以克服这种情况；请参阅自定义 DLB 的出口端口链路质量指标。此外，请考虑实施反应路径重新平衡。

查看详细

采用瞻博网络 Apstra、NVIDIA GPU 和 WEKA 存储的 AI 数据中心网络 - 瞻博网络验证设计 (JVD)

File

2024年12月23日机构名称:

采用瞻博网络 Apstra、NVIDIA GPU 和 WEKA 存储的 AI 数据中心网络 - 瞻博网络验证设计 (JVD)

• 性能监控和错误分析：遥测系统跟踪与 AI 模型相关的关键性能指标，例如准确度、精确度、召回率和计算资源利用率（例如 CPU、GPU 使用率），这些指标对于评估训练和推理作业期间的模型有效性至关重要。这些系统还可以深入了解训练和推理操作期间的错误率和故障模式，并帮助识别可能影响 AI 性能的问题，例如模型漂移、数据质量问题或算法错误。这些系统的示例包括 Juniper Apstra 仪表板、TIG Stack 和 Elasticsearch。

查看详细

File

2024年12月11日机构名称:

在GPU-POOR的生成AI时代的自动文本评分

用于自动文本评分（ATS）的生成语言模型（GLM）的抽象当前研究几乎专注于通过应用程序编程接口（API）查询专有模型。然而，这种做法引发了透明度和安全性的问题，这些方法几乎没有效率或可定制性的方式。随着较小的开源型号的最新扩散，可以选择使用配备适度的消费级硬件的计算机来探索GLM，也就是说，对于“ GPU差”。在这项研究中，我们分析了用于ATS的开源，小规模GLM的性能和效率。结果表明，经过微调时，少量的开源GLM的表现要比大量专有GLMS，但没有最先进的性能。除了ATS外，我们还采取了一些小步骤来分析模型通过促使GLM解释其分数来生成反馈的能力。模型生成的反馈表现出了希望，但需要更严格的评估，重点是目标用例。

查看详细

File

2024年11月13日机构名称:

利用张量网络方法在现代 GPU 上进行高效的量子电路模拟

随着量子硬件的快速发展，量子电路的高效模拟已变得不可或缺。主要的模拟方法基于状态向量和张量网络。随着目前量子器件中量子比特和量子门的数量不断增加，传统的基于状态向量的量子电路模拟方法由于希尔伯特空间的庞大和广泛的纠缠而显得力不从心。因此，野蛮的张量网络模拟算法成为此类场景下的唯一可行解决方案。张量网络模拟算法面临的两个主要挑战是最优收缩路径寻找和在现代计算设备上的高效执行，而后者决定了实际的效率。在本研究中，我们研究了此类张量网络模拟在现代 GPU 上的优化，并从计算效率和准确性两个方面提出了通用的优化策略。首先，我们提出将关键的爱因斯坦求和运算转化为 GEMM 运算，利用张量网络模拟的具体特性来放大 GPU 的效率。其次，通过分析量子电路的数据特性，我们采用扩展精度保证模拟结果的准确性，并采用混合精度充分发挥GPU的潜力，使模拟速度更快、精度更高。数值实验表明，在Sycamore的18周期情况下，我们的方法可以将随机量子电路样本的验证时间缩短3.96倍，在一台A100上持续性能超过21 TFLOPS。该方法可以轻松扩展到20周期的情况，保持相同的性能，与最先进的基于CPU的结果相比加速12.5倍，与文献中报道的最先进的基于GPU的结果相比加速4.48-6.78倍。此外，本文提出的策略对

查看详细

File

2024年11月13日机构名称:

使用MMSEQS2

通过计算工具从参考数据库中检索进化相关的序列（HO-MOLOGS）已经实现了许多生物学的进步（1-4）。在基于序列的蛋白质同源性范式上构建这些工具（5，6），通过搜索类似的氨基酸性序列来检测数百万到数十亿参考条目中输入查询的同源物。在数十年中，同源性搜索对于推断蛋白质特性至关重要（7-9），例如二级结构预测（10），检测蛋白质残基对之间的直接耦合（11）和第三纪结构预测，长期以来对生物学的巨大挑战（12）。特定的远程同源物已被证明是对当代深度学习方法（如Alphafold2等）（13 - 15）（13-15）的输入，以预测准确的结构（16-18）。要检索远程同源物，需要在数据库中查询和参考序列之间检测对成对的相似性的敏感工具。从理论上讲，可以通过应用基于动态编程的，间隙的史密斯 - 水手-GotoH算法（19，20）来找到高灵敏度，以在每个查询参考对准时找到最佳路径（对准）（21）。但是，参考序列数据库的不断增长的大小（17）使这种详尽的方法不切实际。结果，基于启发式的方法，例如BLAST（1），PSI-BLAST（22），MMSEQS2（4）和DIAMOND（3），在执行计算价格昂贵的间隙计算之前，融合了预滤波技术，以修剪大多数不同的序列。这通常是通过采用种子和扩展策略来完成的，其中简短的k-mer单词（“种子”）被索引和匹配，然后将其扩展到间隙比对。敏感的对准器（2）和hhblits（23）都采用了简化的动态编程方法，该方法在序列对之间的对齐矩阵的所有无间隙路径（严格的对角线）中得分，以找到最高得分的未射程匹配。与基于k的方法不同，是较低的比对的较低结合的近似值，无间隙对准会导致所有对以计算效率为代价的分数。探索了几种方法以达到更高的执行速度，无论启发式如何，例如中央处理单元

查看详细

File

2024年11月7日机构名称:

混合CPU，GPU，QPU基础架构用于混合量子...

混合量子经典计算基础架构是研究用例的有趣场景和研究，以便最好地使用当前的量子硬件。这种方法允许使用CPU和GPU基础架构和算法最有效地使用现有的量子硬件。目标演示的目标是介绍多个QPU+CPU+GPU混合量子量子计算集成和用例。位于远端端的量子 - 经典计算测试台 - Poznan超级计算和网络中心（PSNC）办公室和SC24场地将与专用的经典直接链路相互联系，该连接在量子加密后（PQC）和量子密钥分布（QKD）技术的基础上均可确保其固定。在长距离链接上，数据将由PQC算法加密，并在PSNC Office和Short QKD链接中本地进行SC24场地。此设置将展示分布式混合量子基础架构如何工作以及如何从计算认证和安全性的角度与最新的PQC和QKD Technologies相互连接。PQC算法将使用经典的DWDM服务和加密发电机确保长距离链接加密。在本地，作为最后一英里解决方案，链接可以通过QKD技术直接确定并与本地网络数据传输（例如MacSec服务）集成。这样的分布式环境将实施来自不同领域的许多用例

查看详细

Ramdeobaba University（RBU）Nagpur – 440013 ...

File

2024年10月28日机构名称:

Ramdeobaba University（RBU）Nagpur – 440013 ...

Unit 1: Introduction to Quantum Mechanics Wave-particle duality, Heisenberg uncertainty relations, the quantum state wave function and its probability interpretation, Schrodinger's equation, Particle in an infinite potential well, Quantum tunneling Unit 2: Electronic Materials Formation of energy bands in solids, Classification of electronic materials, Kronig-Penny model, E-k diagram, Direct and indirect bandgaps, Valence and conduction带，状态密度，费米 - 迪拉克统计，费米水平，有效质量。单元3：固有和外在的半导体内在和外在半导体，费米水平对载体 - 浓缩和温度的依赖性，载体传输：扩散和漂移。单元4：非平衡半导体载体的产生和重组，连续性方程，p-n结二极管，零施加偏见，正向偏见，反向偏置。单元5：光电设备在半导体，发光二极管，激光二极管，刺激发射和光子扩增中的光吸收，爱因斯坦系数，太阳能，太阳能电池，太阳能电池。单元6：振荡快速回顾简单的谐波运动，机械和电振荡器，矢量和复数，相sor代表，抑制振荡：下，关键和过度阻尼，强迫振荡，启动，能量，能量和功率由驱动力，Q-因素，相关数字/问题。教科书：1。半导体物理和设备（第四版），Donald A. Neamen，McGraw-Hill，2012年。

查看详细

File

2024年10月11日机构名称:

高效按键切换，实现字型FHE和GPU加速

摘要 — 速度效率、内存优化和量子抗性对于保障云计算环境的性能和安全性至关重要。全同态加密 (FHE) 通过在无需解密的情况下对加密数据进行计算来满足这一需求，从而保护数据隐私。此外，基于格的 FHE 是量子安全的，可以防御潜在的量子计算机攻击。然而，当前 FHE 方案的性能仍然不令人满意，主要是因为操作数的长度和与几个资源密集型操作相关的计算成本。在这些操作中，密钥切换是最苛刻的过程之一，因为它涉及在更大的循环环中进行计算所需的复杂算术运算。在这项研究中，我们介绍了一种新算法，该算法在密钥切换的数论变换 (NTT) 中实现了线性复杂度。该算法提供了与最先进算法相当的效率，同时显著简单且消耗更少的 GPU 内存。值得注意的是，它将空间消耗减少了高达 95%，对 GPU 内存非常友好。通过优化 GPU 性能，我们的实现与基线方法和当前最先进的方法相比实现了高达 2.0 倍的加速。该算法有效地平衡了简单性和性能，从而增强了现代硬件平台上的加密计算，并为云计算环境中更实用、更高效的 FHE 实现铺平了道路。

查看详细

XiaoMi-AI文件搜索系统

GPU

赛普拉斯：带有GPU加速度的VLSI启发的PCB放置

在OpenFoam Master的论文计算科学与工程中，GPU加速基于激光制造的FVM-DEM模拟的进步

Juniper® 验证设计 JVD 测试报告摘要：采用 Juniper Apstra、NVIDIA GPU 和 WEKA 存储的 AI 数据中心网络

采用瞻博网络 Apstra、NVIDIA GPU 和 WEKA 存储的 AI 数据中心网络 - 瞻博网络验证设计 (JVD)

在GPU-POOR的生成AI时代的自动文本评分

利用张量网络方法在现代 GPU 上进行高效的量子电路模拟

使用MMSEQS2

混合CPU，GPU，QPU基础架构用于混合量子...

Ramdeobaba University（RBU）Nagpur – 440013 ...

高效按键切换，实现字型FHE和GPU加速

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI