在最低层次上,故障与技术有关。金属或多晶硅信号线的短路或开路等物理缺陷会改变电压、开关时间和其他特性。3 外部干扰也在这个层次上起作用,影响信号线、电荷存储和其他特性。在逻辑层次上,数字系统由门和存储元件建模,所有信号都表示为二进制值。低级容错策略旨在检测或屏蔽产生错误逻辑值的故障。由于其简单性,“卡住”模型是最广泛使用的逻辑故障模型,该模型假设故障在信号线上表现为固定的逻辑值。更复杂的模型是“桥接”故障,其中信号线之间的耦合导致一条线的逻辑值影响另一条线的值。其他复杂故障会改变门的基本逻辑功能,这在可编程逻辑阵列中经常发生,其中 AND/OR 阵列中连接的存在或不存在会导致功能中添加或删除蕴涵项。在更高的抽象级别(寄存器、算术逻辑单元、处理器等)中,故障通常表现为模块行为的变化,由其真值表或状态表表示。在此级别,故障建模通常更抽象,以方便在行为级别进行模拟;因此,通常会牺牲准确性。
摘要:电力已成为我们所有人最抢手的便利设施。电力仅限于城市的时代已经一去不复返了。现在,它已经覆盖了世界每个遥远的地方。所以我们现在有一个复杂的电力系统网络。这种电力由输电线路传输。这些故障的发生是自然的。这些故障会损坏许多重要的电气设备,如变压器、发电机、输电线路。对于不间断电源,我们需要尽可能地防止这些故障。线路在输送电力时要延伸很长的距离,因此,该项目需要在尽可能短的时间内检测到故障。用于这些故障检测的基于微处理器和微控制器的系统发展迅速。本文模拟了使用 PIC 微控制器和 ADC 电流传感器检测故障的数值过流继电器。这些继电器比传统的机电继电器和静态继电器更可靠,响应更快。它们具有更大的设置范围、更高的精度、更小的尺寸和更低的成本,以及许多其他功能,例如故障事件记录、自动复位等。使用基于智能 GSM 的故障检测和定位系统来充分准确地指示和定位发生故障的确切位置。这将确保技术人员更短的响应时间来纠正这些故障,从而帮助避免变压器损坏和灾难。该系统使用电流变压器、电压变压器、PIC 16F877 微控制器、RS-232 连接器和 GSM 调制解调器。该系统自动检测故障、分析和分类这些故障,然后使用基于阻抗的算法方法计算故障与控制室的距离。最后,故障信息被传输到控制室。该项目是关于设计数字继电器,当输入值超过继电器中设置的参考值时,检测到故障,然后向断路器发出跳闸信号。总之,由于系统自动准确地提供准确的故障位置信息,因此定位故障所需的时间大大减少。关键词:PIC 微控制器、ADC 电流传感器、GSM。
1 简介 1 1.1 概述 1 1.1.1 软错误的证据 2 1.1.2 软错误的类型 3 1.1.3 减轻软错误影响的经济有效的解决方案 4 1.2 故障 6 1.3 错误 7 1.4 指标 9 1.5 可靠性模型 11 1.5.1 可靠性 12 1.5.2 可用性 13 1.5.3 其他模型 13 1.6 互补金属氧化物半导体技术中的永久性故障 14 1.6.1 金属故障模式 15 1.6.2 栅极氧化物故障模式 17 1.7 CMOS 晶体管中的辐射诱发瞬态故障 20 1.7.1 阿尔法粒子 20 1.7.2 中子 21 1.7.3 阿尔法粒子和中子与硅晶体的相互作用 26 1.8 阿尔法粒子和中子撞击的架构故障模型 30 1.9 静默数据损坏和检测到的不可恢复错误 32 1.9.1 基本定义:SDC 和 DUE 32 1.9.2 SDC 和 DUE 预算 34
在最低层次上,故障与技术有关。金属或多晶硅信号线的短路或开路等物理缺陷会改变电压、开关时间和其他特性。3 外部干扰也在这个层次上起作用,影响信号线、电荷存储和其他特性。在逻辑层次上,数字系统由门和存储元件建模,所有信号都表示为二进制值。低级容错策略旨在检测或屏蔽产生错误逻辑值的故障。由于其简单性,“卡住”模型是最广泛使用的逻辑故障模型,该模型假设故障在信号线上表现为固定的逻辑值。更复杂的模型是“桥接”故障,其中信号线之间的耦合导致一条线的逻辑值影响另一条线的值。其他复杂故障会改变门的基本逻辑功能,这在可编程逻辑阵列中经常发生,其中 AND/OR 阵列中连接的存在或不存在会导致功能中添加或删除蕴涵项。在更高的抽象级别(寄存器、算术逻辑单元、处理器等)中,故障通常表现为模块行为的变化,由其真值表或状态表表示。在此级别,故障建模通常更抽象,以方便在行为级别进行模拟;因此,通常会牺牲准确性。
在最低层次上,故障与技术有关。金属或多晶硅信号线的短路或开路等物理缺陷会改变电压、开关时间和其他特性。3 外部干扰也在这个层次上起作用,影响信号线、电荷存储和其他特性。在逻辑层次上,数字系统由门和存储元件建模,所有信号都表示为二进制值。低级容错策略旨在检测或屏蔽产生错误逻辑值的故障。由于其简单性,“卡住”模型是最广泛使用的逻辑故障模型,该模型假设故障在信号线上表现为固定的逻辑值。更复杂的模型是“桥接”故障,其中信号线之间的耦合导致一条线的逻辑值影响另一条线的值。其他复杂故障会改变门的基本逻辑功能,这在可编程逻辑阵列中经常发生,其中 AND/OR 阵列中连接的存在或不存在会导致功能中添加或删除蕴涵项。在更高的抽象级别(寄存器、算术逻辑单元、处理器等)中,故障通常表现为模块行为的变化,由其真值表或状态表表示。在此级别,故障建模通常更抽象,以方便在行为级别进行模拟;因此,通常会牺牲准确性。
在最低层次上,故障与技术有关。金属或多晶硅信号线的短路或开路等物理缺陷会改变电压、开关时间和其他特性。3 外部干扰也在这个层次上起作用,影响信号线、电荷存储和其他特性。在逻辑层次上,数字系统由门和存储元件建模,所有信号都表示为二进制值。低级容错策略旨在检测或屏蔽产生错误逻辑值的故障。由于其简单性,“卡住”模型是最广泛使用的逻辑故障模型,该模型假设故障在信号线上表现为固定的逻辑值。更复杂的模型是“桥接”故障,其中信号线之间的耦合导致一条线的逻辑值影响另一条线的值。其他复杂故障会改变门的基本逻辑功能,这在可编程逻辑阵列中经常发生,其中 AND/OR 阵列中连接的存在或不存在会导致功能中添加或删除蕴涵项。在更高的抽象级别(寄存器、算术逻辑单元、处理器等)中,故障通常表现为模块行为的变化,由其真值表或状态表表示。在此级别,故障建模通常更抽象,以方便在行为级别进行模拟;因此,通常会牺牲准确性。
随着 GPU 逐渐脱离其传统领域(游戏、多媒体和消费市场),其可靠性引起了人们的关注和质疑 [3]。目前,活跃的 GPU 研究旨在评估可靠性并确定可行的改进方法。大多数研究都强调 GPU 对瞬态故障的高度敏感性 [11、13、16、24、27、32、44、47、51],这是由 GPU 拥有的大量可用资源和采用的先进半导体技术造成的。此外,GPU 的并行管理和控制单元已被证明尤为关键,因为它们的损坏会影响多个线程 [24、38]。GPU 的并行性在性能方面提供了无可置疑的优势,因此,它是该设备最脆弱的特性之一。 GPU 制造商已提供了有效的可靠性对策,例如改进存储单元设计[39]、添加纠错码[15]、用于故障测试的硬件结构[25],以及提出软件校验和[21]或多线程冗余[49]。现有的大多数 GPU 可靠性研究都针对瞬态故障及其作为软件错误的影响,而永久性故障基本上未被探究。这是有道理的,因为在大多数应用中,GPU 的预期寿命不超过两年。然而,用于汽车、航空航天和军事应用的 GPU 预计可以使用很多年。此外,HPC 级 GPU 的典型工作条件,例如过载、高温、高频率运行和技术节点缩小,都会加速老化[23],甚至会使设备暴露于地面辐射引起的永久性故障[20]。延长的使用时间和过早的老化突然引发了人们对 GPU 及其应用程序在出现永久性故障时如何表现的疑问。至关重要的是,只有少数初步研究针对 GPU 中的永久性故障 [ 17 , 26 , 46 ],而没有一项研究关注并行性管理单元。在本文中,我们旨在通过提出一种方法来针对一个完全未探索的方面显著提高对 GPU 可靠性的理解:负责并行性管理的 GPU 电路中永久性故障的影响。我们决定专注于调度器、提取和解码器单元,因为 (a) 它们是主要针对并行操作进行优化的特殊 GPU 资源,(b) 影响它们的永久性故障将对代码执行产生不小的影响,(c) 它们无法轻易通过纠错码或硬件冗余进行保护,(d) 它们很可能
摘要:现代航空电子设备约占飞机总成本的 30%。因此,降低航空电子设备在使用寿命内的运行成本至关重要。本文讨论了创建适当的数字航空电子系统维护模型这一关键科学问题,从而显著提高其运行效率。在本研究中,我们提出了生命周期成本方程,以选择数字航空电子设备维护的最佳方案。所提出的成本方程考虑了飞行过程中发生的永久性故障、间歇性故障和误报。生命周期成本方程是针对飞机运行的保修期和保修期后间隔确定的。我们为每个服务期建模了几种维护方案。成本方程考虑了永久性故障和间歇性故障的特征、飞行中误报和真报的条件概率以及不同维护操作的成本、飞行时间和一些其他参数。我们已经证明,带有间歇性故障检测器的三级保修后维护方案是最佳的,因为与其他维护选项相比,它将预期总维护成本降低了几倍。
摘要 自 2000 年代初以来,许多飞机驾驶舱就已使用交互式驾驶舱,但即使在最新的飞机中,交互的使用仍然仅限于非关键功能。事实上,设计这样的交互式系统仍然是一个挑战,而且它们的设计尚未达到关键功能所需的设计保证水平。在交互式驾驶舱中,交互通过图形输入设备和键盘进行(例如空客系列中的键盘光标控制单元),而用户界面 (UI) 的行为必须符合 ARINC 661 标准中定义的规范。本文提出的工具支持的三重方法提出了提高交互式系统保证水平的方法。该方法包括用于描述交互系统每个组件的正式描述技术(检测和预防开发故障)、专用于交互系统组件的命令和监控技术(检测自然故障)以及隔离运行时环境(防止故障传播)我们报告了使用此方法实现的飞行控制单元 (FCU) 面板,其灵感来自 A380 的 FCU。
这些早期故障的原因之一在于大型电池存储项目的复杂性。硬件,软件和电化学反应的具有挑战性的组合必须共同起作用。同时,新技术和供应商通常以有限的经验冲入市场。因此,许多电池项目在调试过程中遇到了无法预测的故障。当发生这种故障时,可以将项目时间表延迟数月,因为不同的各方争先恐后地确定根本原因并找到修复它的方法。随着时间表的伸展和压力的增强,许多利益相关者的手指指向开始。