随着 GPU 逐渐脱离其传统领域(游戏、多媒体和消费市场),其可靠性引起了人们的关注和质疑 [3]。目前,活跃的 GPU 研究旨在评估可靠性并确定可行的改进方法。大多数研究都强调 GPU 对瞬态故障的高度敏感性 [11、13、16、24、27、32、44、47、51],这是由 GPU 拥有的大量可用资源和采用的先进半导体技术造成的。此外,GPU 的并行管理和控制单元已被证明尤为关键,因为它们的损坏会影响多个线程 [24、38]。GPU 的并行性在性能方面提供了无可置疑的优势,因此,它是该设备最脆弱的特性之一。 GPU 制造商已提供了有效的可靠性对策,例如改进存储单元设计[39]、添加纠错码[15]、用于故障测试的硬件结构[25],以及提出软件校验和[21]或多线程冗余[49]。现有的大多数 GPU 可靠性研究都针对瞬态故障及其作为软件错误的影响,而永久性故障基本上未被探究。这是有道理的,因为在大多数应用中,GPU 的预期寿命不超过两年。然而,用于汽车、航空航天和军事应用的 GPU 预计可以使用很多年。此外,HPC 级 GPU 的典型工作条件,例如过载、高温、高频率运行和技术节点缩小,都会加速老化[23],甚至会使设备暴露于地面辐射引起的永久性故障[20]。延长的使用时间和过早的老化突然引发了人们对 GPU 及其应用程序在出现永久性故障时如何表现的疑问。至关重要的是,只有少数初步研究针对 GPU 中的永久性故障 [ 17 , 26 , 46 ],而没有一项研究关注并行性管理单元。在本文中,我们旨在通过提出一种方法来针对一个完全未探索的方面显著提高对 GPU 可靠性的理解:负责并行性管理的 GPU 电路中永久性故障的影响。我们决定专注于调度器、提取和解码器单元,因为 (a) 它们是主要针对并行操作进行优化的特殊 GPU 资源,(b) 影响它们的永久性故障将对代码执行产生不小的影响,(c) 它们无法轻易通过纠错码或硬件冗余进行保护,(d) 它们很可能