在过去十年中,图形处理单元 (GPU) 的进步推动了人工智能 (AI)、高性能计算 (HPC) 和数据分析领域的重大发展。要在这些领域中的任何一个领域继续保持这一趋势,就需要能够不断扩展 GPU 性能。直到最近,GPU 性能一直是通过跨代增加流式多处理器 (SM) 的数量来扩展的。这是通过利用摩尔定律并在最先进的芯片技术节点中使用尽可能多的晶体管数量来实现的。不幸的是,晶体管的缩放速度正在放缓,并可能最终停止。此外,随着现代 GPU 接近光罩极限(约 800 平方毫米),制造问题进一步限制了最大芯片尺寸。而且,非常大的芯片会导致产量问题,使大型单片 GPU 的成本达到不理想的水平。GPU 性能扩展的解决方案是将多个物理 GPU 连接在一起,同时向软件提供单个逻辑 GPU 的抽象。一种方法是在印刷电路板 (PCB) 上连接多个 GPU。由于提供的 GPU 间带宽有限,在这些多 GPU 系统上扩展 GPU 工作负载非常困难。封装内互连(例如通过中介层技术)比封装外互连提供更高的带宽和更低的延迟,为将 GPU 性能扩展到少数 GPU 提供了一个有希望的方向 [1]。晶圆级集成更进一步,通过将预制芯片粘合在硅晶圆上,为具有数十个 GPU 的晶圆级 GPU 提供了途径 [2]。不幸的是,使用电互连在长距离上以低功耗提供高带宽密度从根本上具有挑战性,从而限制了使用电中介层技术进行 GPU 扩展。在本文中,我们提出了光子晶圆网络 (NoW) GPU 架构,其中预先制造和预先测试的 GPU 芯片和内存芯片安装在晶圆级中介层上,该中介层通过光子网络层连接 GPU 芯片,同时将每个 GPU 芯片与其本地内存堆栈电连接,如图 1 所示。光子-NoW GPU 架构的关键优势在于能够在相对较长的晶圆级距离(高达数十厘米)内以低功耗实现高带宽密度。本文的目标是展示光子-NoW 的愿景
AI由于成本,集成复杂性和部署时间而无法实现。以前,组织依靠最新数据依靠llms来验证其LLM,这是一个昂贵且耗时的过程。NETAPP AIPOD与Lenovo一起使用NVIDIA OVX结合了NVIDIA认证的OVX Lenovo Thinksystem SR675 V3服务器,具有经过验证的NetApp存储,以创建专门为AI工作负载设计的融合基础架构。使用此解决方案,客户将能够为聊天机器人,知识管理和对象识别等用例进行AI抹布和推理操作。
电子老虎机的第二个关键特性是可靠性。任何赌场运营商都会告诉你,机器停机就等于收入损失。地面空间非常宝贵,运营商不能让任何一个角落闲置。游戏机(以及许多其他类型的计算机设备)的常见故障点是机械设备,例如存储游戏数据的硬盘驱动器,以及保持 CPU 和 GPU 等电子元件冷却的风扇。从本质上讲,机械设备包括最终会磨损的移动部件。领先的设备制造商已经通过用由内存芯片构建的固态介质替换旋转硬盘驱动器来帮助解决这些问题。他们还使用更大、高可靠性且使用寿命长的风扇来帮助避免故障,但必须格外小心,以阻止无处不在的灰尘和碎屑,因为灰尘和碎屑会迅速堵塞进气过滤器、风扇和冷却组件。选择设备供应商需要了解他们的设计选择以及这些选择如何影响系统可靠性。
为了克服通过网络传输 X 的低性能问题,必须启用远程节点上的渲染。图 4 显示了具有远程可视化应用程序的配置。该应用程序通过 Xlib 与计算节点上的 X 服务器通信。OpenGL 上下文、窗口和用户交互均由计算节点上的 X 服务器完成。当从本地 GPU 捕获渲染的帧并将其传输到在用户工作站上运行的应用程序客户端时,计算节点上的应用程序完全处于控制之中。鉴于可视化应用程序完全控制客户端和服务器端,因此可以实现压缩协议等,从而实现高性能的图像传输解决方案。这是“远程可视化”部分中描述的情况。
摘要 — 图形处理单元 (GPU) 越来越多地被应用于可靠性至关重要的多个领域,例如自动驾驶汽车和自主系统。不幸的是,GPU 设备已被证明具有很高的错误率,而实时安全关键应用程序所施加的限制使得传统的(且昂贵的)基于复制的强化解决方案不足。这项工作提出了一种有效的方法来识别 GPU 模块中的架构易受攻击的位置,即如果损坏则最影响正确指令执行的位置。我们首先通过基于寄存器传输级 (RTL) 故障注入实验的创新方法来识别 GPU 模型的架构漏洞。然后,我们通过对已确定为关键的触发器应用选择性强化来减轻故障影响。我们评估了三种强化策略:三重模块冗余 (TMR)、针对 SET 的三重模块冗余 (∆ TMR) 和双联锁存储单元(骰子触发器)。在考虑功能单元、流水线寄存器和 Warp 调度器控制器的公开 GPU 模型 (FlexGripPlus) 上收集的结果表明,我们的方法可以容忍流水线寄存器中 85% 到 99% 的故障、功能单元中 50% 到 100% 的故障以及 Warp 调度器中高达 10% 的故障,同时降低硬件开销(与传统 TMR 相比,在 58% 到 94% 的范围内)。最后,我们调整了该方法以针对永久性故障执行补充评估,并确定了容易在 GPU 上传播故障影响的关键位置。我们发现,对瞬态故障至关重要的触发器中相当一部分(65% 到 98%)对永久性故障也至关重要。
版权所有 © 2023,Oracle 和/或其附属公司。本文档仅供参考,其内容如有更改,恕不另行通知。本文档不保证无错误,也不受任何其他保证或条件的约束,无论是口头表达还是法律暗示,包括适销性或特定用途适用性的暗示保证和条件。我们明确声明对本文档不承担任何责任,本文档不直接或间接形成任何合同义务。未经我们事先书面许可,不得以任何形式或任何电子或机械手段出于任何目的复制或传播本文档。
摘要 - 遵循其他关键安全行业(如汽车和航空电子产品)的趋势,太空领域正在见证车载计算绩效需求的增加。性能需求的提高来自航天器的控制和有效载荷部分,并呼吁高级电子系统能够在苛刻的空间环境的限制下提供高计算能力。在非技术方面,由于战略原因,必须在二手计算技术上获得欧洲独立性。在这个项目中,我们研究了嵌入式GPU在太空中的适用性,这些GPU在基于竞争激烈的欧洲技术的消费市场中的增殖表明,其每瓦的绩效比例显着提高。为此,我们对现有空间应用程序域进行分析,以确定哪些软件域可以从其使用中受益。此外,我们调查了嵌入式的GPU域,以评估嵌入式GPU是否可以提供所需的计算能力并确定需要解决其在空间中需要解决的挑战。在本文中,我们描述了该项目中遵循的步骤,以及从我们的分析中获得的结果摘要。
这一需求以及对供应的多个限制,创造了一个新兴的替代投资类别,GPU和DCS越来越广泛地受到多元化投资策略中的组成部分的追捧。诸如更高效的代码或量子计算之类的创新仅略微降低了此需求/供应差距,DeepSeek与低成本绩效有关的主张引发了关于开发成本可比性的辩论,尤其是来自Openai的辩论。值得注意的是,无论可用的效率提高,都有可能进一步推动GPU需求而破坏它。但是,市场的短期反应突出了单个公司直接股权投资的风险。相比之下,GPU债券提供了每日市场情绪中的一些隔热材料,反映了共同定位租约,实物供应链,地缘政治偏好以及将新筹码推向市场所需的时间的现实世界复杂性。在整个系列中,我们将检查这些动态,绘制不断发展的DC景观,并洞悉投资者投资组合中GPU的吸引力和使用。