Loading...
机构名称:
¥ 1.0

摘要 — 卫星极易受到太空中敌对故障或高能辐射的影响,这可能导致机载计算机出现故障。过去几十年来,人们探索了各种辐射和容错方法,例如纠错码 (ECC) 和基于冗余的方法,以缓解软件和硬件上的临时软错误。然而,传统的 ECC 方法无法处理硬件组件中的硬错误或永久性故障。这项工作引入了一种基于检测和响应的对策来处理部分损坏的处理器芯片。它可以从永久性故障中恢复处理器芯片,并利用芯片上可用的未损坏资源实现连续运行。我们在目标处理器的芯片上加入了基于数字兼容延迟的传感器,以便在发生故障之前可靠地检测到芯片物理结构上的传入辐射或故障尝试。在检测到处理器算术逻辑单元 (ALU) 的一个或多个组件出现故障后,我们的对策采用自适应软件重新编译来重新合成受影响的指令,并用仍在运行的组件的指令替换这些指令,以完成任务。此外,如果故障范围更广,并妨碍了整个处理器的正常运行,我们的方法将部署自适应硬件部分重新配置来替换故障组件并将其重新路由到芯片的未损坏位置。为了验证我们的说法,我们在 28 nm FPGA 上实现的 RISC-V 处理器上部署了高能近红外 (NIR) 激光束,通过部分损坏 FPGA 结构来模拟辐射甚至硬错误。我们证明我们的传感器可以自信地检测到辐射并触发处理器测试和故障恢复机制。最后,我们讨论了我们的对策带来的开销。

逻辑机动:检测和缓解太空中的对抗性硬件故障

逻辑机动:检测和缓解太空中的对抗性硬件故障PDF文件第1页

逻辑机动:检测和缓解太空中的对抗性硬件故障PDF文件第2页

逻辑机动:检测和缓解太空中的对抗性硬件故障PDF文件第3页

逻辑机动:检测和缓解太空中的对抗性硬件故障PDF文件第4页

逻辑机动:检测和缓解太空中的对抗性硬件故障PDF文件第5页