Kockum Sonics AG |布兰德霍尔茨韦格 2 | CH-8304 瓦利塞伦 info@kockumsonics.ch |电话 +41 44 820 31 91 | www.kockumsonics-ag.ch
图形处理单元 (GPU) 承受着过大的压力,以加速高性能计算应用程序,并用于加速多个领域的深度神经网络,这些领域的预期寿命长达数年。这些条件使 GPU 硬件面临(过早)老化,导致在通常的制造结束测试之后出现永久性故障。因此,迫切需要评估 GPU 永久性故障影响的技术,从而可以估计可靠性风险并可能减轻它。在本文中,我们提出了一种评估永久性故障对 GPU 调度器和控制单元(最特殊、压力最大的资源)的影响的方法,以及可以量化这些影响的第一个数字。我们描述了门级 GPU 模型的调度器和控制器中超过 5.83x10 5 个永久性故障效应。然后,我们通过检测 13 个应用程序和两个卷积神经网络的代码,在软件中映射观察到的错误类别,注入超过 1.65x105
GPU 在多个领域得到日益广泛的应用,包括高性能计算 (HPC)、自主机器人、汽车和航空航天应用。GPU 在传统领域之外的应用(游戏、多媒体和消费市场)突然引起了人们的兴趣,也提出了有关其可靠性的问题 [3]。目前,活跃的 GPU 研究旨在评估可靠性并确定可行的改进方法。大多数研究都强调 GPU 对瞬态故障的高度敏感性 [11、13、16、24、27、32、44、47、51],这是由于 GPU 拥有大量可用资源且采用了先进的半导体技术。此外,GPU 的并行管理和控制单元已被证明尤为关键,因为它们的损坏会影响多个线程 [24、38]。 GPU 的并行性在性能方面提供了无可置疑的优势,但它也是该设备最脆弱的特性之一。GPU 制造商通过改进存储单元设计 [ 39 ]、添加纠错码 [ 15 ] 等措施提供了有效的可靠性对策,
控制单元控制 CPU 周围的数据流。控制单元还向不同组件发送控制信号,指示它们执行哪些操作,例如读取、写入、添加、减去。控制单元解码指令(转换为操作码和操作数)。控制单元控制操作的时间(时钟速度)。算术逻辑单元 (ALU) 执行执行指令所需的计算,包括加法和减法。ALU 还执行逻辑运算,如比较。ALU 有一个内置寄存器,用于存储计算的临时结果
1。电动机控制单元(MCU)2。板载充电器(OBC)3。电源分配单元(PDU)4。DC/DC转换器(DC/DC)5。电池管理系统(BMS)6。车辆控制单元(VCU)
作为Eemotion项目的一部分,ZF集团和Infineon Technologies AG共同开发和实施了用于开发和控制车辆软件的AI算法。该项目由德国联邦经济事务和气候行动部共同资助。在项目中开发的AI算法在测试工具中经过证明,在自动驾驶过程中根据指定的驾驶轨迹控制和优化所有执行器。ZF已在其现有的两个软件解决方案Cubix和Eco Control 4 ACC中添加了AI算法,这些解决方案已在Infineon的Aurix Aurix TM TM TC4X微控制器(MCU)上实施,并具有集成并行处理单元(PPU)。结果:更有效的人工智能算法和更好地利用计算能力。这又导致更好的驾驶性能和提高驾驶安全性。与没有AI的常规方法相比,两家公司现在
计算机的下一个组件是控制单元,它的作用就像主管一样,确保事情以正确的方式完成。控制单元负责使用时间信号协调各种操作。控制单元确定计算机程序和指令的执行顺序。诸如处理存储在主存储器中的程序、解释指令以及发出信号让计算机的其他单元执行这些指令。当多个用户同时访问计算机时,它还充当接线员。因此,它在执行输入和输出时协调计算机外围设备的活动。