自主系统是风险分析中最具挑战性的部分。另一个挑战涉及与软件方面相关的风险。调查由硬件故障和人为错误导致的危害的方法相对成熟;然而,对于软件实施而言,情况并非如此。评估不仅必须解决软件错误响应的发生,还必须解决因此在系统中引起的故障模式。然而,大多数软件可靠性方法都关注代码中剩余的错误数量,而不管它们对系统的影响如何。此外,与硬件不同,软件的历史性能不能被视为未来性能的指标。对于自主系统而言,问题在于软件可以结合自学习,并且没有明确的基于规则的算法可供检查。最后一个特性可能会使对潜在危害的系统评估变得困难,从而使风险量化失效。
硬件故障和系统中断(2023 年 12 月 - 2024 年 1 月):2023 年 12 月 2 日,由于 AEMO 对与 Acacia 调度系统的接口进行更新,FN1 发生意外中断。该问题很快得到解决,FN1 运行平稳,直到 2023 年 12 月 24 日 Pixii 发现通信问题。第二个问题是由电池模块故障引起的,影响了 4G 路由器的电源并导致系统离线。在 1 月 12 日解决这些问题后,系统又离线了 9 天,调度指挥责任从 Mill Software 转移到 Acacia Energy。累积结果是系统中断,直到 2024 年 1 月 21 日。在此期间,Pixii 继续调查功率尖峰问题,探索电网电压问题可能引起尖峰的可能性,但未发现明确原因。
OCI物理托管在区域和可用性域中。一个区域是局部地理区域,可用性域是一个区域内的一个或多个数据中心。一个区域由一个或多个可用性域组成。每个可用性域都包含三个故障域。故障域是可用性域内硬件和基础架构的分组。故障域提供反亲和力:他们让客户分发其实例,以使实例不在单个可用性域内的物理硬件上。影响一个故障域的硬件故障或计算硬件维护事件不会影响其他故障域中的实例。此外,故障域中的物理硬件具有独立和冗余的电源,这可以防止一个故障域内的电源硬件发生故障,不会影响其他故障域。
我们提出了一种设计方法来促进深度学习模型的容错。首先,我们实现了一个多核容错神经形态硬件设计,其中每个神经形态核心中的神经元和突触电路都包裹在星形胶质细胞电路中,星形胶质细胞是大脑的星形神经胶质细胞,它通过使用闭环逆行反馈信号恢复故障神经元的尖峰放电频率来促进自我修复。接下来,我们在深度学习模型中引入星形胶质细胞,以实现对硬件故障所需的容忍度。最后,我们使用系统软件将支持星形胶质细胞的模型划分为集群,并在所提出的容错神经形态设计上实现它们。我们使用七种深度学习推理模型评估了这种设计方法,并表明它既节省面积又节能。
DNX-DIO-403提供高密度I/O和灵活性,具有48个兼容的5V兼容TTL数字线,可将其配置为八位端口组的输入或输出。DNX-DIO-403是UEI受欢迎的Guardian系列的成员,该系列提供了高水平的用户诊断。DIO-403板提供了电压监视功能,可以通过保护板来保护董事会免受外部硬件故障的影响来帮助您减少平均停机时间。所有DIO系列都与系统的其余部分分离(它们共享相同的内部地面),并且每个PIN都可以单独保护ESD和过电压,从而使该层适合于严酷的工业环境使用。保证的2.4V @15 mA输出允许将此层直接接口到固态继电器和其他与TTL兼容的设备。DNX-DIO-403是一种出色的数字I/O解决方案,用于广泛的数据获取和控制应用程序。
大多数数据中心设计良好,且位于环境相对清洁的区域,大多数污染都是良性的。因此,大多数数据中心不会出现与颗粒物或气体污染相关的信息技术 (IT) 设备故障。但少数数据中心会出现这种情况。据主要 IT 设备制造商称,出现污染相关故障的数据中心数量正在增加,尽管数量仍然很少。2009 年,ASHRAE TC 9.9 的 IT 制造商成员撰写了一份白皮书 (ASHRAE 2009a),题为“数据中心颗粒物和气体污染指南”,主要针对少数可能因室外颗粒物和/或气体污染进入而导致有害环境的数据中心。该文件指出,对于少数数据中心(主要位于新兴市场)而言,污染可能是一个严重的风险,并提供了有关如何管理污染风险的见解。本白皮书是对 2009 年 ASHRAE 原始论文的更新。更新基于 ASHRAE 对数据中心空气质量的调查以及在清洁受污染数据中心的空气方面获得的经验教训。越来越多的数据中心出现与腐蚀相关的硬件故障,原因如下:
摘要—软件故障模式和影响分析 (SFMEA) 是一种系统安全分析技术,广泛应用于航空航天、汽车和其他安全关键型系统。FMEA 方法难以识别和分析由接口或功能之间的动态逻辑信息(例如软件-硬件交互)引起的故障模式。为了直观地假设模块故障对系统的影响,已经提出了许多方法。这项工作通过对安全关键型嵌入式控制系统进行实验来解决 SFMEA 的使用问题。本文介绍的工作提供了一个通用示例,说明了 SFMEA 应用于几乎没有或根本没有硬件保护的基于微处理器的计算机控制系统。本文展示了功能 FMEA、接口 FMEA 和详细软件 FMEA 在安全关键型软件系统中的应用。通过 SFMEA 方法,解决了硬件故障和软件故障。安全分析揭示了几个设计缺陷和物理故障,并提出了修改建议。本文还表明,如果在软件开发生命周期的正确阶段正确实施 SFMEA,则需求、设计和代码审查将更加有效。它还可以识别由软件导致的单点故障。本文介绍的工作可以推广并应用于任何安全关键嵌入式领域的设计师未来使用
摘要—软件故障模式和影响分析 (SFMEA) 是一种系统安全分析技术,广泛应用于航空航天、汽车和其他安全关键型系统。FMEA 方法难以识别和分析由接口或功能之间的动态逻辑信息(例如软件-硬件交互)引起的故障模式。为了直观地假设模块故障对系统的影响,已经提出了许多方法。这项工作通过对安全关键型嵌入式控制系统进行实验来解决 SFMEA 的使用问题。本文介绍的工作提供了一个通用示例,说明了 SFMEA 应用于几乎没有或根本没有硬件保护的基于微处理器的计算机控制系统。本文展示了功能 FMEA、接口 FMEA 和详细软件 FMEA 在安全关键型软件系统中的应用。通过 SFMEA 方法,解决了硬件故障和软件故障。安全分析揭示了几个设计缺陷和物理故障,并提出了修改建议。本文还表明,如果在软件开发生命周期的正确阶段正确实施 SFMEA,则需求、设计和代码审查将更加有效。它还可以识别由软件导致的单点故障。本文介绍的工作可以推广并应用于任何安全关键嵌入式领域的设计师未来使用
• 早期故障(也称为早期失效):其特点是初始故障率相对较高,但随后会迅速降低。可以通过执行加速寿命测试(如老化或 I DDQ 测试)进一步减少早期故障,这些测试是德州仪器 (TI) 工厂出厂测试的一部分。早期故障主要是由未有效筛选的制造缺陷引起的。缺陷总是会发生。开发和持续改进有效的筛选是一项要求。• 正常寿命故障:这是浴缸曲线的区域,其中故障率相对较低且恒定。BFR 估算解决了半导体元件生命周期的这一部分。此故障率以故障时间 (FIT) 为单位进行量化 - 这是产品运行十亿 (10 9 ) 个累计小时内可能发生的故障数量的估计值。• 固有磨损:这是产品生命周期中固有磨损占主导地位且故障呈指数增加的时期。产品使用寿命的结束被指定为磨损开始的时间。这些类型的故障是由众所周知的因素引起的,例如通道热载流子效应、电迁移、时间相关的电介质击穿和负偏置温度不稳定性。ISO 26262 和 IEC 61508 等功能安全标准不支持基于非常量故障率计算随机硬件指标。因此,在产品的整个生命周期内,使用一个恒定的(但悲观的)近似值来估计 BFR。系统集成商必须应对正常使用寿命期间的随机硬件故障以及磨损的开始。在这种情况下,系统集成商必须依靠安全机制,它提供了一定的
(例如[aws22a,aws22b,akv22,gk22]),它被委托用于存储关键材料的材料必须在硬件故障的情况下将其安全导出以备份。这些备份必须使用另一个设备的公钥加密(或“包装”),以便绝不会在安全硬件之外暴露出明文键[YC22,PK15]。该设备的管理员负责创建备份,无法确保备份已良好,并且将在新设备上成功导入。她可以尝试进口操作,但这可能很昂贵(例如,如果备份设备在单独的设施中)或风险(因为它将钥匙散布到更多的范围内)。在基于云的HSM的情况下,后一种风险很好地说明了,在该情况下,通过将钥匙导入辅助云提供商来测试备份可以大大扩展信任边界。即使导入操作成功,管理员仍应测试导入的私钥对应于预期的公共密钥,该密钥通常需要使用它来创建测试签名或解密。这是不可取的两个原因:它添加了必须登录的键的额外用途,并且它也可能涉及与其创建的目的不同的目的。理想情况下,导出设备可以向管理员证明,密文是接收设备的公钥下的合理的加密,此外,此外,该设备是与特定公共密钥相对应的私钥,例如,该设备声称“我对ECDSA签名密钥进行了加密X的访问,而不应访问ecdsa prefific y”,而不应访问y”,而y nondeft yondeft yondeft yondeft yon and Indrocteact y = g g g g g x x x x y = g x x x y = g x.如果导出的密钥是对称密钥,则该设备应证明授权是与对密钥的承诺或使用密钥创建的Ciphertext或Mac一致的键。可验证的加密是解决此问题的自然解决方案。