• DLB 不使用端口 BW 来计算链路质量。相反,链路质量基于最近通过每个 ECMP 链路传输的流量,以及每个 ECMP 链路上排队等待传输的流量。这可能导致流量被分配到较低 BW 的链路而不是较高 BW 的链路,从而导致拥塞。此外,如果链路质量下降,已分配给链路的流量将不会被重新分配,除非该链路暂停的时间长于不活动间隔。可以调整端口质量指标和不活动间隔以克服这种情况;请参阅自定义 DLB 的出口端口链路质量指标。此外,请考虑实施反应路径重新平衡。
• 性能监控和错误分析:遥测系统跟踪与 AI 模型相关的关键性能指标,例如准确度、精确度、召回率和计算资源利用率(例如 CPU、GPU 使用率),这些指标对于评估训练和推理作业期间的模型有效性至关重要。这些系统还可以深入了解训练和推理操作期间的错误率和故障模式,并帮助识别可能影响 AI 性能的问题,例如模型漂移、数据质量问题或算法错误。这些系统的示例包括 Juniper Apstra 仪表板、TIG Stack 和 Elasticsearch。
此JVD涵盖了网络体系结构的组合,其中MX系列路由器和SRX系列防火墙以单个或双配置连接(请参见第4页的图2)。它使用网络冗余机制在MX系列路由器转发层和SRX系列防火墙服务层之间提供流动弹性(MNHA,又名L3群集在文档稍后将在文档中说明)。使用ECMP配置双MX系列路由器,使用服务冗余守护程序(SRD)来监视触发第二个MX系列路由器故障转移的故障事件。请注意,交通负载平衡器(TLB)不需要。另外,当发生任何其他故障时,BFD协议也用于从路由的角度捕获故障转移机制。SRX的MNHA允许在两个节点之间同步会话(状态会话),以便现有的流量和隧道可以继续不间断。