摘要 — 使用精确时间事件监控变电站及其互连拓扑对于现代复杂电力系统网络至关重要。电力系统故障从简单到复杂,需要提供适当的时间同步数字事件和模拟数据,例如电压、电流和频率。电力系统分析师、资产管理团队和工程师必须全面了解电力动态、高分辨率瞬态故障记录和比瞬态故障持续时间更长的低分辨率动态扰动记录,以及相应的顺序事件记录,以评估孤立和互连电力系统故障,准确找到故障源,并采取预防措施避免这些故障再次发生。
摘要 — 使用精确时间事件监控变电站及其互连拓扑对于现代复杂电力系统网络至关重要。电力系统故障从简单到复杂,需要提供适当的时间同步数字事件和模拟数据,例如电压、电流和频率。电力系统分析师、资产管理团队和工程师必须全面了解电力动态、高分辨率瞬态故障记录和比瞬态故障持续时间更长的低分辨率动态扰动记录,以及相应的顺序事件记录,以评估孤立和互连电力系统故障,准确找到故障源,并采取预防措施避免这些故障再次发生。
摘要 — 使用精确时间事件监控变电站及其互连拓扑对于现代复杂电力系统网络至关重要。电力系统故障从简单到复杂,需要提供适当的时间同步数字事件和模拟数据,例如电压、电流和频率。电力系统分析师、资产管理团队和工程师必须全面了解电力动态、高分辨率瞬态故障记录和比瞬态故障持续时间更长的低分辨率动态扰动记录,以及相应的顺序事件记录,以评估孤立和互连电力系统故障,准确找到故障源,并采取预防措施避免这些故障再次发生。
摘要 — 使用精确时间事件监控变电站及其互连拓扑对于现代复杂电力系统网络至关重要。电力系统故障从简单到复杂,需要提供适当的时间同步数字事件和模拟数据,例如电压、电流和频率。电力系统分析师、资产管理团队和工程师必须全面了解电力动态、高分辨率瞬态故障记录和比瞬态故障持续时间更长的低分辨率动态扰动记录,以及相应的顺序事件记录,以评估孤立和互连电力系统故障,准确找到故障源,并采取预防措施避免这些故障再次发生。
考虑到这些目标和限制,案例研究所选的设备是 NASA 兰利研究中心正在开发的一种新型容错架构的核心子系统。有几个因素促使我们为这次演习选择容错系统。容错协议的硬件实现通常是紧凑的设计;这允许在训练演习的时间限制内进行全面处理。此外,容错设备的行为本质上很复杂;这种设备显然属于 DO-254 的范围。此外,有大量研究文献涉及容错协议的形式化分析;容错系统是形式化方法演示的良好候选者。最后,任何预期从瞬态故障中恢复的设备也必然需要处理一组有限的永久故障。
GPU 在多个领域得到日益广泛的应用,包括高性能计算 (HPC)、自主机器人、汽车和航空航天应用。GPU 在传统领域之外的应用(游戏、多媒体和消费市场)突然引起了人们的兴趣,也提出了有关其可靠性的问题 [3]。目前,活跃的 GPU 研究旨在评估可靠性并确定可行的改进方法。大多数研究都强调 GPU 对瞬态故障的高度敏感性 [11、13、16、24、27、32、44、47、51],这是由于 GPU 拥有大量可用资源且采用了先进的半导体技术。此外,GPU 的并行管理和控制单元已被证明尤为关键,因为它们的损坏会影响多个线程 [24、38]。 GPU 的并行性在性能方面提供了无可置疑的优势,但它也是该设备最脆弱的特性之一。GPU 制造商通过改进存储单元设计 [ 39 ]、添加纠错码 [ 15 ] 等措施提供了有效的可靠性对策,
1 简介 1 1.1 概述 1 1.1.1 软错误的证据 2 1.1.2 软错误的类型 3 1.1.3 减轻软错误影响的经济有效的解决方案 4 1.2 故障 6 1.3 错误 7 1.4 指标 9 1.5 可靠性模型 11 1.5.1 可靠性 12 1.5.2 可用性 13 1.5.3 其他模型 13 1.6 互补金属氧化物半导体技术中的永久性故障 14 1.6.1 金属故障模式 15 1.6.2 栅极氧化物故障模式 17 1.7 CMOS 晶体管中的辐射诱发瞬态故障 20 1.7.1 阿尔法粒子 20 1.7.2 中子 21 1.7.3 阿尔法粒子和中子与硅晶体的相互作用 26 1.8 阿尔法粒子和中子撞击的架构故障模型 30 1.9 静默数据损坏和检测到的不可恢复错误 32 1.9.1 基本定义:SDC 和 DUE 32 1.9.2 SDC 和 DUE 预算 34
随着 GPU 逐渐脱离其传统领域(游戏、多媒体和消费市场),其可靠性引起了人们的关注和质疑 [3]。目前,活跃的 GPU 研究旨在评估可靠性并确定可行的改进方法。大多数研究都强调 GPU 对瞬态故障的高度敏感性 [11、13、16、24、27、32、44、47、51],这是由 GPU 拥有的大量可用资源和采用的先进半导体技术造成的。此外,GPU 的并行管理和控制单元已被证明尤为关键,因为它们的损坏会影响多个线程 [24、38]。GPU 的并行性在性能方面提供了无可置疑的优势,因此,它是该设备最脆弱的特性之一。 GPU 制造商已提供了有效的可靠性对策,例如改进存储单元设计[39]、添加纠错码[15]、用于故障测试的硬件结构[25],以及提出软件校验和[21]或多线程冗余[49]。现有的大多数 GPU 可靠性研究都针对瞬态故障及其作为软件错误的影响,而永久性故障基本上未被探究。这是有道理的,因为在大多数应用中,GPU 的预期寿命不超过两年。然而,用于汽车、航空航天和军事应用的 GPU 预计可以使用很多年。此外,HPC 级 GPU 的典型工作条件,例如过载、高温、高频率运行和技术节点缩小,都会加速老化[23],甚至会使设备暴露于地面辐射引起的永久性故障[20]。延长的使用时间和过早的老化突然引发了人们对 GPU 及其应用程序在出现永久性故障时如何表现的疑问。至关重要的是,只有少数初步研究针对 GPU 中的永久性故障 [ 17 , 26 , 46 ],而没有一项研究关注并行性管理单元。在本文中,我们旨在通过提出一种方法来针对一个完全未探索的方面显著提高对 GPU 可靠性的理解:负责并行性管理的 GPU 电路中永久性故障的影响。我们决定专注于调度器、提取和解码器单元,因为 (a) 它们是主要针对并行操作进行优化的特殊 GPU 资源,(b) 影响它们的永久性故障将对代码执行产生不小的影响,(c) 它们无法轻易通过纠错码或硬件冗余进行保护,(d) 它们很可能
硬件安全实验室和破坏最新电路处理的需求导致了对新扰动方法的不断研究。Skorobogatov 和 Anderson [1] 揭示了使用可见光和红外光的可能性。故障分析界已经对这种物理现象进行了研究和解释 [2–5]。激光可以同步和聚焦,以诱发瞬态故障。在安全评估实践中,这些故障可能会产生强大的效果。电磁辐射扰动为电路破坏提供了新的突破口 [8, 6, 7]。这种方法可能不如光那么通用,但也能产生非常有趣的结果。对电路的访问限制较少,不一定需要拆开包装。为了继续研究扰动的波长谱,这里建议先了解一下 X 射线的可能性。过去曾分析过 X 射线与电子电路的相互作用 [9–12],但其在安全性评估中的应用主要局限于芯片和封装成像,并被提及为一种扰动手段,但没有实际效果。聚焦于被测设备的特定区域可以看作是扰动技术的关键点。最终的挑战可能是聚焦到激进技术节点上的单个晶体管。同步加速器设备能够利用 X 射线辐射实现这一目标。
摘要 — 量子计算是近年来最有前途的技术进步之一。量子比特对噪声高度敏感,噪声会使输出变得毫无用处。最近有研究表明,超导量子比特极易受到外部故障源(如电离辐射)的影响。当超导量子比特大规模采用时,辐射引起的错误预计将成为量子比特可靠性的严峻挑战。我们提出了一种评估瞬态故障对超导芯片上量子电路执行的影响的方法。受广泛用于经典计算的架构和程序脆弱性因子的启发,我们提出了量子脆弱性因子 (QVF) 来衡量量子比特损坏对电路输出的影响。我们根据对真实机器和辐射实验的最新研究,对故障进行建模,并设计故障注入器。我们报告了在三种算法上发现的超过 388,000,000 次故障注入(考虑单故障和双故障),从而确定了最有可能影响输出的故障和量子比特。我们给出了如何在实际设备中映射量子比特以减少输出误差并降低辐射引起的损坏修改输出的概率的指南。最后,我们将模拟与物理量子计算机上的实验进行了比较。