图形处理单元 (GPU) 承受着过大的压力,以加速高性能计算应用程序,并用于加速多个领域的深度神经网络,这些领域的预期寿命长达数年。这些条件使 GPU 硬件面临(过早)老化,导致在通常的制造结束测试之后出现永久性故障。因此,迫切需要评估 GPU 永久性故障影响的技术,从而可以估计可靠性风险并可能减轻它。在本文中,我们提出了一种评估永久性故障对 GPU 调度器和控制单元(最特殊、压力最大的资源)的影响的方法,以及可以量化这些影响的第一个数字。我们描述了门级 GPU 模型的调度器和控制器中超过 5.83x10 5 个永久性故障效应。然后,我们通过检测 13 个应用程序和两个卷积神经网络的代码,在软件中映射观察到的错误类别,注入超过 1.65x105
摘要 — 卫星极易受到太空中敌对故障或高能辐射的影响,这可能导致机载计算机出现故障。过去几十年来,人们探索了各种辐射和容错方法,例如纠错码 (ECC) 和基于冗余的方法,以缓解软件和硬件上的临时软错误。然而,传统的 ECC 方法无法处理硬件组件中的硬错误或永久性故障。这项工作引入了一种基于检测和响应的对策来处理部分损坏的处理器芯片。它可以从永久性故障中恢复处理器芯片,并利用芯片上可用的未损坏资源实现连续运行。我们在目标处理器的芯片上加入了基于数字兼容延迟的传感器,以便在发生故障之前可靠地检测到芯片物理结构上的传入辐射或故障尝试。在检测到处理器算术逻辑单元 (ALU) 的一个或多个组件出现故障后,我们的对策采用自适应软件重新编译来重新合成受影响的指令,并用仍在运行的组件的指令替换这些指令,以完成任务。此外,如果故障范围更广,并妨碍了整个处理器的正常运行,我们的方法将部署自适应硬件部分重新配置来替换故障组件并将其重新路由到芯片的未损坏位置。为了验证我们的说法,我们在 28 nm FPGA 上实现的 RISC-V 处理器上部署了高能近红外 (NIR) 激光束,通过部分损坏 FPGA 结构来模拟辐射甚至硬错误。我们证明我们的传感器可以自信地检测到辐射并触发处理器测试和故障恢复机制。最后,我们讨论了我们的对策带来的开销。
拜占庭式缺陷耐受性(BFT)状态机器复制(SMR)协议构成了现代区块链的基础,因为它们在所有区块链节点上保持一致的状态,同时耐受界数的拜占庭故障数量。我们在过度故障设置中遇到了Alyze BFT SMR,拜占庭断层的实际数量超过了协议的公差。我们首先设计了第一种基于链式和法定人数的第一种修复算法部分同步SMR,以从过度故障引起的错误状态中恢复。可以使用任何佣金故障检测模块来实现此类过程 - 一种算法,该算法可以识别故障复制品而不错误地找到任何正确的复制品。我们以稍弱的可将其保证来实现这一目标,因为在过多的故障的情况下,原始的策略概念是不可能满足的。我们在Rust中实现可回收的热门。在恢复例程终止7副复制品后,通行简历达到了正常水平(没有过多的故障),并略微缩短了≤4。30副复制品的3%。平均而言,它将延迟增加12。7%的7%和8个复制品。30副本的85%。除了采用现有检测模块外,我们还为一般的BFT SMR供应机构建立了足够的条件,以便在最多(n-2)拜占庭式复制品(来自n个总复制品中)的完全故障检测。我们首先为任何SMR协议提供第一个闭合盒故障检测算法,而无需任何额外的通信。然后,我们在Tendermint和Hotstuff中描述了我们的断层检测例程的开盒构成,进一步逐渐降低了渐近和具体的开销。
到达日期 |收讫日期:04.12.2024 接受日期|接受日期:2024 年 12 月 23 日 出版日期 | 发布日期:2024 年 12 月 25 日 Mohammad Ekram Yawar https://orcid.org/0000-0003-3198-5212 Dr.,Türkiye,ekramyawar93@gmail.com 引用 印记 |引用信息 Yawar,M.E.(2024)。阿富汗的民族、宗派矛盾与政治、社会僵局危机。历史与思想学术期刊,11(6),4391-4412。
摘要。这项工作调查了NIST美国最近对Ascon Cipher进行的持续故障分析,用于轻巧的加密应用。在持续的故障中,在整个加密阶段,系统中都存在曾经通过Rowhammer注入技术注入的故障。在这项工作中,我们提出了一个模型,以安装Ascon Cipher上的持续故障分析(PFA)。在Ascon Cipher的最终回合中,我们确定置换回合中注入故障的S-box操作P 12很容易泄漏有关秘密密钥的信息。该模型可以存在于两个变体中,其中一个平行S-box调用中的单个输出s-box的实例,同一错误的S-box迭代64次。攻击模型表明,具有经过身份验证的加密使用相关数据(AEAD)模式运行的任何spongent构造都容易受到持续故障的影响。在这项工作中,我们演示了单个故障的场景,其中一旦注射后,在设备关闭电源之前,该故障持续了。使用采用的方法,我们成功地检索了Ascon中的128位键。我们的实验表明,所需查询的最小数字和最大数量分别为63个明文和451个明文。此外,我们观察到,安装攻击所需的查询数量取决于S-box LUT中的故障位置,如报告的图所示,该图报告了最小查询数量和100个键值的平均查询数量。
摘要 - 无人驾驶汽车(UAV)系统的协调受到了机器人和控制社区的极大关注。在本文中,我们通过轴承测量研究了异质非线性多UAV网络中的分布式形成跟踪问题。首先,一种新颖的仅轴承协议是为追随者代理而设计的,以实现所需的形成。,我们基于轴承测量值建立补偿功能,以处理代理动力学中的非线性和执行器断层。在存在特定时间延迟的情况下,Lyapunov方法可以确保提出的策略的稳定性。此外,为了确保在实际情况下进行安全操作,我们扩展了协议,并提出了足够的条件,以避免代理之间的潜在碰撞。在协议设计中还考虑了无碰撞控制器的鲁棒性。最后,提出了模拟案例研究以验证理论结果的可行性。
摘要:由于其固有的优势,例如零污染,灵活性,可持续性和高可靠性,太阳能光伏发电引起了重大的兴趣。确保PV功率设施的有效运行在精确的故障检测中取决于。这不仅可以增强其可靠性和安全性,而且还可以优化利润并避免昂贵的维护。但是,使用通用保护设备的PV系统直流电(DC)侧的故障检测和分类带来了重大挑战。这项研究深入研究了对光伏(PV)阵列中复杂断层的探索和分析,尤其是那些表现出类似I-V曲线的阵列,这是PV故障诊断的重大挑战,在先前的研究中未充分解决。本文探讨了支持向量机(SVM)和极端梯度提升(XGBoost)的设计和实施,重点是它们有效地识别小型PV阵列中各种故障状态的能力。这项研究扩大了将优化算法的使用,特别是蜜蜂算法(BA)和粒子群优化(PSO),目的是提高基本SVM和XGBoost分类器的性能。优化过程涉及完善机器学习模型的超参数,以实现故障分类的卓越精度。发现蜜蜂算法的弹性和效率的有说服力的案例。使用用于优化SVM和XGBOOST分类器以检测PV阵列中的复杂故障时,蜜蜂算法显示出显着的精度。相比之下,使用PSO算法进行细调的分类器表现出相对较低的性能。这些发现强调了蜜蜂算法在光伏系统中故障检测中提高分类器准确性的潜力。
GPU 在多个领域得到日益广泛的应用,包括高性能计算 (HPC)、自主机器人、汽车和航空航天应用。GPU 在传统领域之外的应用(游戏、多媒体和消费市场)突然引起了人们的兴趣,也提出了有关其可靠性的问题 [3]。目前,活跃的 GPU 研究旨在评估可靠性并确定可行的改进方法。大多数研究都强调 GPU 对瞬态故障的高度敏感性 [11、13、16、24、27、32、44、47、51],这是由于 GPU 拥有大量可用资源且采用了先进的半导体技术。此外,GPU 的并行管理和控制单元已被证明尤为关键,因为它们的损坏会影响多个线程 [24、38]。 GPU 的并行性在性能方面提供了无可置疑的优势,但它也是该设备最脆弱的特性之一。GPU 制造商通过改进存储单元设计 [ 39 ]、添加纠错码 [ 15 ] 等措施提供了有效的可靠性对策,
摘要。操作员是指挥和控制系统中的主要漏洞来源之一;例如,79% 的航空致命事故归因于“人为错误”。根据 Avizienis 等人的故障分类系统,操作时的人为错误可以描述为操作员在与指挥和控制系统交互时未能提供服务。然而,之前很少有研究尝试将导致操作员处于错误模式的多种不同故障来源区分开来。本文提出了对 Avizienis 等人分类法的扩展,以便更全面地考虑人类操作员,明确导致操作员偏离正确服务交付的故障、错误状态和故障。我们的新分类法提高了对故障的理解和识别,并提供了关于可以避免或修复人为服务故障的方法的系统见解。我们提供了来自航空和其他领域的影响操作员和容错机制的故障的多个具体示例,涵盖了人机交互循环操作员侧的关键方面。
摘要 — 电网形成 (GFM) 逆变器控制已展示出许多理想的特性,以使可再生资源能够大规模整合到未来的电网中;然而,GFM 逆变器在发生不平衡故障时的性能仍未得到充分探索。本文提出了一种新的电流限制方法,用于 GFM 逆变器处理不平衡故障情况,同时为主电网提供电压支持。所提出的电流限制器结合了动态虚拟阻抗和电流参考饱和限制的概念,所有这些都建立在静止参考系中,以在负载/故障不平衡条件下实现更好的电流限制性能。使用多个 GFM 逆变器进行的全系统全阶瞬态模拟展示了该方法的潜力,并将其性能与最先进的电流限制器进行了对比。模拟结果表明,与电流参考饱和和虚拟阻抗限制相比,所提出的方法的电压平衡性能有所改善。
