Loading...
机构名称:
¥ 1.0

摘要 — 在本文中,我们提出了一个正式的理论框架,用于评估和分析针对通用人工智能 (AI) 系统的两类恶意行为。我们的结果适用于从输入空间映射到决策空间的通用多类分类器,包括深度学习应用中使用的人工神经网络。考虑两类攻击。第一类涉及对抗性示例,涉及引入导致错误分类的输入数据的小扰动。第二类是首次引入的,称为隐形攻击,涉及对 AI 系统本身的小扰动。在这里,受扰动的系统会在特定的小数据集(甚至可能是单个输入)上产生攻击者想要的任何输出,但在验证集(攻击者不知道)上表现正常。我们表明,在两种情况下,即在基于对抗性示例的攻击和隐形攻击的情况下,人工智能决策空间的维数是人工智能易受攻击的主要原因。对于基于对抗性示例的攻击,第二个关键参数是数据概率分布中不存在局部集中,这一属性称为“弥散绝对连续性”。根据我们的研究结果,对抗性示例的鲁棒性要求 (a) 人工智能特征空间中的数据分布具有集中的概率密度函数,或 (b) 人工智能决策变量的维数足够小。我们还展示了如何构建对高维人工智能系统的隐形攻击,除非验证集呈指数级增长,否则很难发现这些攻击。索引术语 — 对抗性示例、对抗性攻击、随机分离定理、人工智能、机器学习

关于人工智能中的对抗性示例和隐形攻击......

关于人工智能中的对抗性示例和隐形攻击......PDF文件第1页

关于人工智能中的对抗性示例和隐形攻击......PDF文件第2页

关于人工智能中的对抗性示例和隐形攻击......PDF文件第3页

关于人工智能中的对抗性示例和隐形攻击......PDF文件第4页

关于人工智能中的对抗性示例和隐形攻击......PDF文件第5页

相关文件推荐

2024 年
¥1.0