摘要 — 深度神经网络 (DNN) 加速器可靠性的严格要求与减少硬件平台计算负担的需求相伴而生,即降低能耗和执行时间以及提高 DNN 加速器的效率。此外,对具有定制要求的专用 DNN 加速器的需求不断增长,特别是对于安全关键型应用,这需要进行全面的设计空间探索,以开发出满足这些要求的高效且强大的加速器。因此,硬件性能(即面积和延迟)与 DNN 加速器实现的可靠性之间的权衡变得至关重要,需要分析工具。本文提出了一种全面的方法来探索和实现对量化对模型精度、激活故障可靠性和硬件效率的三方影响的整体评估。介绍了一个完全自动化的框架,该框架能够应用各种量化感知技术、故障注入和硬件实现,从而实现硬件参数的测量。此外,本文提出了一种集成在框架内的新型轻量级保护技术,以确保最终基于脉动阵列的 FPGA 实现的可靠部署。在已建立的基准上进行的实验展示了分析流程以及量化对可靠性、硬件性能和网络准确性的深远影响,特别是关于网络激活中的瞬态故障。索引术语 — 深度神经网络、设计空间探索、量化、故障模拟、可靠性评估
嵌入式系统的广泛部署对我们的社会产生了重大影响,因为它们在许多关键的实时应用中与我们的生活相互作用。通常,用于安全或任务关键型应用(例如航空航天、航空电子、汽车或核领域)的嵌入式系统在恶劣的环境中工作,在这些环境中,它们会频繁遭受瞬态故障,例如电源抖动、网络噪声和辐射。它们还容易受到设计和生产故障导致的错误的影响。因此,它们的设计目标是即使在发生错误的情况下也能保持及时性和功能正确性。容错对于实现可靠性起着至关重要的作用,而设计有效和高效的容错机制的基本要求是潜在故障及其表现的现实和适用模型。在这种情况下需要考虑的一个重要因素是故障和错误的随机性,如果在时序分析中通过假设严格的最坏情况发生场景来解决这些问题,可能会导致不准确的结果。同样重要的是,通过有效利用可用资源实现容错,解决嵌入式系统的功率、重量、空间和成本限制。本论文提出了一个框架,用于设计可预测的可靠嵌入式实时系统,同时解决及时性和可靠性问题。它提出了一系列容错策略,特别是针对嵌入式实时系统。通过考虑系统构建块的不同关键性级别,可以实现高效的资源利用。容错策略与所提出的概率可调度性分析技术相辅相成,这些技术基于全面的随机故障和错误模型。
摘要 — 图形处理单元 (GPU) 越来越多地被应用于可靠性至关重要的多个领域,例如自动驾驶汽车和自主系统。不幸的是,GPU 设备已被证明具有很高的错误率,而实时安全关键应用程序所施加的限制使得传统的(且昂贵的)基于复制的强化解决方案不足。这项工作提出了一种有效的方法来识别 GPU 模块中的架构易受攻击的位置,即如果损坏则最影响正确指令执行的位置。我们首先通过基于寄存器传输级 (RTL) 故障注入实验的创新方法来识别 GPU 模型的架构漏洞。然后,我们通过对已确定为关键的触发器应用选择性强化来减轻故障影响。我们评估了三种强化策略:三重模块冗余 (TMR)、针对 SET 的三重模块冗余 (∆ TMR) 和双联锁存储单元(骰子触发器)。在考虑功能单元、流水线寄存器和 Warp 调度器控制器的公开 GPU 模型 (FlexGripPlus) 上收集的结果表明,我们的方法可以容忍流水线寄存器中 85% 到 99% 的故障、功能单元中 50% 到 100% 的故障以及 Warp 调度器中高达 10% 的故障,同时降低硬件开销(与传统 TMR 相比,在 58% 到 94% 的范围内)。最后,我们调整了该方法以针对永久性故障执行补充评估,并确定了容易在 GPU 上传播故障影响的关键位置。我们发现,对瞬态故障至关重要的触发器中相当一部分(65% 到 98%)对永久性故障也至关重要。
摘要 — 使用精确时间事件监控变电站及其互连拓扑对于现代复杂电力系统网络至关重要。电力系统故障从简单到复杂,需要提供适当的时间同步数字事件和模拟数据,例如电压、电流和频率。电力系统分析师、资产管理团队和工程师必须全面了解电力动态、高分辨率瞬态故障记录和比瞬态故障持续时间更长的低分辨率动态扰动记录,以及相应的顺序事件记录,以评估孤立和互连电力系统故障,准确找到故障源,并采取预防措施避免这些故障再次发生。现代变电站保护和控制智能电子设备 (IED) 提供高分辨率故障记录、时间同步相量数据和带时间戳的事件序列。由于 IED 可以通过全球定位系统 (GPS) 时钟源以亚微秒精度进行时间同步,因此现代 IED 是干扰监测所需的所有数据的完美来源。用于监控和数据采集 (SCADA) 的变电站以太网通信网络(IED 连接在其中)提供了一种经济的解决方案,可将干扰监测数据从 IED 传输到本地归档系统或远程集中系统。本文讨论了新的、优化的干扰监测系统组件及其要求、设计和性能。它展示了如何根据变电站的类型、基础设施或项目时间表,将优化的干扰监测系统经济地调整为独立、混合或完全 IED 集成的系统。它讨论了从不同变电站收集数据并使用工业协议将它们路由到集中位置。它讨论了现代