Meta敲响警钟:硬件缺陷危及人工智能的未来

该公司正在提供一种新系统来对抗恼人的“位翻转”。

来源:安全实验室新闻频道

该公司正在提供一种新系统来对抗烦人的“位翻转”。

AI模型面临许多挑战,其中之一就是Bit Flips等硬件故障。在此类故障期间,系统中的数据值从零变为一并可能导致错误,这对人工智能模型的准确性和可靠性构成严重风险。

Meta* 研究人员指出,AI 推理或维护过程中的此类错误可能会导致模型结果不正确或降级,最终影响所提供的 AI 服务的质量。 Meta 记录了其基础设施中此类位错误的频率,强调处理这些故障一直是一个挑战。现代人工智能硬件系统的复杂性和多样性使它们更容易受到此类故障的影响。

标记,

为了解决这个问题,Meta 提出了一种测量硬件故障的新方法,以便 AI 系统开发人员能够更好地理解和管理风险。他们引入了一个新的指标,即参数脆弱性因子(PVF),它标准化了人工智能模型对参数损坏的脆弱性的评估。

PVF可以适应不同的硬件故障模型,并针对不同的模型和任务进行配置。此外,它还可以在训练阶段用于评估参数损坏对模型收敛能力的影响。

Meta 研究人员使用 DLRM 工具模拟无声数据损坏事件,该工具用于生成个性化内容推荐。在某些情况下,他们发现由于位错误,千分之四的推论是不正确的。

去年提出的

* Meta 公司及其产品被认为是极端分子,其活动在俄罗斯联邦被禁止。

* Meta 公司及其产品被认为是极端分子,其活动在俄罗斯联邦被禁止。