摘要:为满足产品个性化制造的需求,智能制造系统(SMS)需要频繁进行重构。为了快速验证工业软件在针对新产品订单或升级产品订单重构SMS时的可靠性和适应性,提出了一种基于数字孪生驱动技术的工业软件测试评估半实物仿真方法。通过建立SMS半实物仿真模型,通过在各种制造场景中运行工业软件来快速验证软件系统的可靠性和鲁棒性。本文详细阐述了面向SMS开展工业软件半实物仿真测试评估的关键技术,包括如何同步信息系统和物理系统、如何进行半实物加速仿真测试、如何快速识别实际生产环境中使用的工业软件中的缺陷等。通过建立步进电机半实物仿真生产线模型,验证了所提方法的有效性和实用性,并显著缩短了工业软件的测试验证时间。最后,通过故障注入测试进一步验证了SMS工业软件的鲁棒性,以期为故障预测或故障预防研究提供参考。
摘要:为满足产品个性化制造的需求,智能制造系统(SMS)需要频繁进行重构。为了快速验证工业软件在针对新产品订单或升级产品订单重构SMS时的可靠性和适应性,提出了一种基于数字孪生驱动技术的工业软件测试评估半实物仿真方法。通过建立SMS半实物仿真模型,通过在各种制造场景中运行工业软件来快速验证软件系统的可靠性和鲁棒性。本文详细阐述了面向SMS开展工业软件半实物仿真测试评估的关键技术,包括如何同步信息系统和物理系统、如何进行半实物加速仿真测试、如何快速识别实际生产环境中使用的工业软件中的缺陷等。通过建立步进电机半实物仿真生产线模型,验证了所提方法的有效性和实用性,并显著缩短了工业软件的测试验证时间。最后,通过故障注入测试进一步验证了SMS工业软件的鲁棒性,以期为故障预测或故障预防研究提供参考。
摘要 — 研究人员目前正在探索基于云的量子计算机使用模型,其中可以使用多租户在多个用户之间共享量子计算机硬件。多租户有望更好地利用量子计算机硬件,但也使量子计算机面临新型安全攻击。正如这项研究和其他最近的研究表明,当受害者和攻击者电路在同一台量子计算机上实例化为共同租户时,有可能使用串扰对量子计算机进行故障注入攻击。为了确保不会发生此类攻击,本文建议开发新技术来帮助在恶意电路加载到量子计算机硬件之前捕获它们。根据经典计算机的思想,可以设计一种编译时技术来扫描量子计算机程序以查找恶意或可疑的代码模式,然后再将它们编译成在量子计算机上运行的量子电路。本文介绍了正在进行的工作,展示了串扰如何影响 Grover 算法,然后提出了如何分析量子程序以捕获产生大量恶意串扰的电路的建议。
卷积神经网络(CNN)被广泛用于图像分类。为了使CNN适合在资源有限的系统(如FPGA)上实现,剪枝是一种降低复杂度的流行技术。本文以VGG16为例,评估了剪枝后的CNN对FPGA加速器权重和配置内存错误的鲁棒性,并考虑了两种流行的剪枝方法(基于幅度和过滤器剪枝)。特别地,基于故障注入实验测试了原始VGG16和具有不同剪枝率的VGG16的精度损失,结果表明两种剪枝方法对权重和配置内存的错误影响不同。对于权重错误,使用两种方法剪枝的网络在剪枝率较高的情况下表现出更高的可靠性,但使用过滤器剪枝的网络可靠性相对较低。对于配置内存错误,大约30%的配置位上的错误会影响CNN操作,其中只有14%会导致显着的精度损失。但相同关键比特位对于两种剪枝方法的影响是不同的,采用基于量级方法剪枝后的网络可靠性低于原始VGG16,而采用过滤器剪枝后的网络可靠性高于原始VGG16。从CNN加速器的结构和两种剪枝方法的性质出发,解释了这种不同的影响,并评估了基于量级方法量化对CNN可靠性的影响。
摘要 — 深度神经网络 (DNN) 加速器可靠性的严格要求与减少硬件平台计算负担的需求相伴而生,即降低能耗和执行时间以及提高 DNN 加速器的效率。此外,对具有定制要求的专用 DNN 加速器的需求不断增长,特别是对于安全关键型应用,这需要进行全面的设计空间探索,以开发出满足这些要求的高效且强大的加速器。因此,硬件性能(即面积和延迟)与 DNN 加速器实现的可靠性之间的权衡变得至关重要,需要分析工具。本文提出了一种全面的方法来探索和实现对量化对模型精度、激活故障可靠性和硬件效率的三方影响的整体评估。介绍了一个完全自动化的框架,该框架能够应用各种量化感知技术、故障注入和硬件实现,从而实现硬件参数的测量。此外,本文提出了一种集成在框架内的新型轻量级保护技术,以确保最终基于脉动阵列的 FPGA 实现的可靠部署。在已建立的基准上进行的实验展示了分析流程以及量化对可靠性、硬件性能和网络准确性的深远影响,特别是关于网络激活中的瞬态故障。索引术语 — 深度神经网络、设计空间探索、量化、故障模拟、可靠性评估
摘要 — 图形处理单元 (GPU) 越来越多地被应用于可靠性至关重要的多个领域,例如自动驾驶汽车和自主系统。不幸的是,GPU 设备已被证明具有很高的错误率,而实时安全关键应用程序所施加的限制使得传统的(且昂贵的)基于复制的强化解决方案不足。这项工作提出了一种有效的方法来识别 GPU 模块中的架构易受攻击的位置,即如果损坏则最影响正确指令执行的位置。我们首先通过基于寄存器传输级 (RTL) 故障注入实验的创新方法来识别 GPU 模型的架构漏洞。然后,我们通过对已确定为关键的触发器应用选择性强化来减轻故障影响。我们评估了三种强化策略:三重模块冗余 (TMR)、针对 SET 的三重模块冗余 (∆ TMR) 和双联锁存储单元(骰子触发器)。在考虑功能单元、流水线寄存器和 Warp 调度器控制器的公开 GPU 模型 (FlexGripPlus) 上收集的结果表明,我们的方法可以容忍流水线寄存器中 85% 到 99% 的故障、功能单元中 50% 到 100% 的故障以及 Warp 调度器中高达 10% 的故障,同时降低硬件开销(与传统 TMR 相比,在 58% 到 94% 的范围内)。最后,我们调整了该方法以针对永久性故障执行补充评估,并确定了容易在 GPU 上传播故障影响的关键位置。我们发现,对瞬态故障至关重要的触发器中相当一部分(65% 到 98%)对永久性故障也至关重要。
摘要 - 随着云服务,智能设备和IoT设备的使用指数级增长,高级网络攻击变得越来越复杂且无处不在。此外,计算体系结构和内存技术的快速演变已经迫切需要理解和适应硬件安全性漏洞。在本文中,我们回顾了当代计算系统中漏洞和缓解策略的当前状态。我们讨论缓存侧通道攻击(包括幽灵和崩溃),功率侧渠道攻击(例如简单功率分析,差异功率肛门,相关功率分析和模板攻击)以及电压毛病和电磁分析等先进技术,以帮助了解和建立强大的网络环境辩护系统和建立强大的网络抗性辩护系统。我们还研究记忆加密,重点是指示性,粒度,密钥管理,掩盖和重新接键策略。此外,我们涵盖了加密指导集架构,安全启动,信任机制的根,物理无统治功能和硬件故障注入技术。本文以对RISC-V架构独特的安全挑战的分析结束。本文提供的综合分析对于建立有弹性的硬件安全解决方案至关重要,这些解决方案可以在越来越具有挑战性的安全环境中保护当前和新兴的威胁。索引术语 - 硬件安全性,网络安全性,缓存侧通道,加密指令集扩展,故障输入,内存加密,电源分析攻击,RISC-V,安全启动,侧通道耐药设计,投机性执行
稳健性和可靠性 许多领域在经典的设计约束列表中都具有功能安全性,例如汽车领域的 ISO 26262 标准。我们的工作旨在改进对可靠性的早期评估。环境干扰引起的错误。目标是降低开发和生产成本,能够在设计的早期阶段准确评估软错误和永久错误的潜在功能影响。我们最近提出了一种跨层故障模拟方法来执行关键嵌入式系统的稳健性评估,该方法基于事务级模型 (TLM) 和寄存器传输级 (RTL) 描述中的故障注入,以在模拟时间和模拟高级故障行为的真实性之间进行权衡。该方法的另一个重要特征是考虑全局系统规范,以便区分实际的关键故障和导致对系统行为没有实际影响的故障。该方法已应用于机载案例研究。2021 年,该方法通过迭代流程得到改进,既可以全局减少故障注入持续时间,又可以随着迭代改进 TLM 模型,从而实现在 TLM 和 RTL 级别注入故障的后果之间的良好相关性。2021 年开始的另一项研究旨在更好地评估(和预测)软件工作负载对微控制器和 SoC 等复杂数字组件可靠性的影响。最终,一个目标是定义一组代表性基准,以便在实际应用程序可用之前对关键系统进行可靠性评估。第一步是开发一种基于适用于多种处理器的虚拟平台的多功能分析工具,与 QEMU 的修改版本相对应。该分析流程已应用于 RISC-V 目标和 Mibench 软件,使我们能够更好地了解软件负载对 SoC 容错的影响。我们提出的指标“似然百分比”表明,使用我们的工具进行高级评估可以非常有效地获得有关程序行为的重要信息,与从参考指令集模拟器和硬件架构获得的结果一致。我们还表明,我们的分析工具使我们能够比较多个程序的行为并表现出特定的特征。主要目标是在 SoC 设计领域传输和应用 RAMS 方法和工具。这些数据有助于理解处理器架构将如何用于每个应用程序,从而了解根据软件负载可以预期的容错级别。我们提出了三个假设,这些假设必须通过更多的程序示例、多个硬件平台的使用以及最终在粒子束下的实际测试来证实。在自动质量或安全保证水平评估领域,我们提出了第一种方法,用于自动提取片上系统内有效和故障状态机的过程。通过此方法自动提取的数据是行为建模和 FMEA(故障模式和影响分析)分析的相关输入。该方法基于一种半自动化方法,用于在单粒子翻转 (SEU) 或触发器卡住的假设下系统地提取数字设计的故障模式。此过程旨在增强人为故障分析,并在复杂设备的质量保证过程中为 RAMS(可靠性、可用性、可维护性和安全性)框架提供输入。已经在 I2C - AHB 系统上进行了实验结果,为对整个 SoC [CI3] 进行完整且更复杂的分析奠定了基础。 由于技术规模扩大和晶体管尺寸越来越小并更接近原子尺寸,上一代 CMOS 技术在各种物理参数中呈现出更多的可变性。此外,电路磨损退化会导致额外的时间变化,可能导致时序和功能故障。为了处理此类问题,一种传统方法是在设计时提供更多的安全裕度(也称为保护带)。因此,使用延迟违规监视器成为必须。放置监视器是一项关键任务,因为设计师必须仔细选择最容易老化且可能成为给定设计中潜在故障点的位置。
摘要 IEC 61508 是国际电工委员会发布的一项适用于工业领域的国际标准。其标题为《电气/电子/可编程电子安全相关系统(E/E/PE 或 E/E/PES)的功能安全》。它是一个适用于所有行业的基本功能安全标准。它将功能安全定义为:“与 EUC(受控设备)和 EUC 控制系统相关的整体安全的一部分,它依赖于 E/E/PE 安全相关系统、其他技术安全相关系统和外部风险降低设施的正确运行。”然而,IEC 61508 并不太适合汽车开发,而且经常受到不同的解释。而且很难将其与传统的汽车工程 V 方法保持一致。ISO 26262 是专门针对汽车行业的国际标准。它适用于与安全相关的道路车辆电子和电气 (E/E) 系统,并解决因故障而导致的危害。危害分析和风险评估确定 ASIL 和安全目标。考虑危害分析和 ASIL 分类,我们得到软件和硬件的要求。功能测试用于制造结束测试、进货检验、现场(或现场)测试。现场测试对于安全关键系统尤其重要。基于软件的自测试 (SBST) 是一种针对处理器和片上系统 (SoC) 的特殊功能测试。ISO 26262 中有一些可靠性工程方法:故障模式和影响分析 (FMEA)、硬件架构指标。故障模式和影响分析 (FMEA) 是一种旨在识别问题的系统技术。这是一种自下而上的方法,用于识别潜在故障。用于分析中使用的材料和方法。瑞萨 TB-S5D5 目标板应用于汽车案例研究。从系统级角度来看,有两种方法可以检查嵌入式系统的硬件设计:手工和自动 FMEA 结果比较。硬件设计的验证应用于 Simulink 环境中。这里考虑使用微控制器来构建整个系统。ISO26262 硬件开发包含硬件评估、硬件架构指标。分析完指标后,可以轻松获得目标 ASIL。故障注入技术也被广泛用于评估系统对故障的敏感性。
分布式系统正在在IT组织中广泛采用。这些系统中的监视故障,包括松散的耦合应用程序,很麻烦,需要手动关注。本研究重点是在运行Kafka的沙箱中实现异常检测,以自动检测故障。用于训练和测试模型,“混乱工程”用于将受控故障注入系统。由于沙盒当前不在负载下,因此创建了负载模拟器以模拟五种不同的方案:恒定负载,线性增加负载,线性减小负载,正弦负载和现实生活中的场景负载。该研究还研究了从5、10到未来30分钟的各种预测范围上预测指标的能力。预测模型显示出不同的性能结果,具体取决于沙箱上的当前负载和预测度量,因为一些指标显示出较高的波动性,从而导致预测性能较差。总体而言,增加预测范围会导致预测较差,但在合理的利润率之内。该研究得出的结论是,CPU使用度量对于现实生活中的模拟以及所有模型的正弦载荷表现最佳。对于线性增加,消费者组滞后的指标对于所有型号都是最好的。该度量在线性减少载荷期间也对LSTM表现最好。但是,KNN最好的指标是网络错误增加和内存使用量。隔离森林的最佳指标是主题偏移。在整体模型性能方面,KNN是现实生活模拟和线性增加负载的最佳选择。对于持续的模拟,Kafka延迟是LSTM和KNN的最佳指标,而网络错误最适合隔离林。隔离森林最适合正弦,线性减少和恒定模拟。该研究还得出结论,与常规负载模拟相比,沙盒中的混乱工程能够注入足够的误差,以使模型对负载的反应不同。本研究中引入的新方法提供了一种方法,用于使用混乱工程在测试环境中建立机器学习模型,而无需生产数据或现实生活中的使用。