摘要TPUV4(张量处理单元)是Google的机器学习培训的第三个生成加速器,用自定义的3D圆环互连部署为4096节点超级计算机。在本文中,我们描述了我们设计和操作软件基础架构的经验,该软件基础架构允许TPUV4超级计算机大规模运行,包括自动故障弹性和硬件恢复的功能。我们采用软件定型网络(SDN)方法来管理TPUV4的高频带芯片间互连(ICI)Fab-fab-fab-fab-ric,使用光电路切换到动态配置围绕机器,chip和链接故障的操作路线。我们的基础架构检测故障,并自动触发对构造的结果,以最大程度地减少运行工作负载的破坏,并为受影响的组件启动修复和维修工作流。与硬件和软件的维护和升级工作流相似的技术接口。我们的动态重新配置方法使我们的TPUV4超级计算机可以实现99.98%的系统可用性,优雅地处理约1%的培训工作经历的硬件中断。
主要关键词