是一个障碍。我们已经开发了许多具有概率正确性保证的不确定性量化技术。典型的不确定性定量技术使I.I.D.假设训练和测试分布是相同的(或密切相关的交换性假设);因此,我们还设计了用于检测和减轻分配转移影响的技术。最后,我们设计了受到离线增强学习技术启发的算法,该算法可以从大规模批处理数据中以安全的方式进行学习,而无需与环境进行潜在危险的互动。神经词系统的保形预测。共构预测是通过将基本模型改为输出标签而不是单个标签的统计量来量化预测不确定性的技术的集合[1]。这些算法具有覆盖范围的范围,尤其是在假设训练和测试分布相同的假设下,预测集可以保证包含具有很高概率的地面真相标签。用于建立值得信赖的神经符号程序,与更传统的不确定性量化技术相比,共形预测具有多个优势,这些技术预测了每个标签的概率(例如,校准预测)。首先,与概率相比,预测集往往更容易纳入存在的软件(例如,传统的机器人计划算法可以避免障碍的预测集,而在概率预测下的计划需要修改计划算法)。此外,覆盖范围保证通常直接转化为整个系统的安全保证(例如,可以保证机器人避免具有很高概率的障碍),而为预测概率提供的保证是易于解释的。我们最近的工作已经证明了如何使用学习理论的技术来设计可能带有近似正确(PAC)瓜素的共形算法[2]。我们的工作也是第一个证明了如何将保形预测应用于包括Resnet [3]在内的深神经网络,随后在结合形式预测和深度学习方面有很大一部分[4,5]。在后续工作中,我们已经证明了共形预测提供的覆盖范围保证是如何用于为更广泛的神经成像计划提供概率保证。例如,我们将其与模型预测性屏蔽结合在一起 - 我们在先前的工作中开发的安全强化学习算法[6,7,8]),以使从视觉观察结果获得安全的加强学习,其中强化学习代理使用DNN策略直接映射图像[9]。在另一项工作中,我们展示了如何为大型语言模型构建共形预测集,并构成它们以提供概率保证,以检索增强问题回答[10]。最后,在正在进行的工作中,我们通过使用抽象解释来通过程序传播预测集[11],致力于将这些技术扩展到一般程序组成。分布偏移下的不确定性定量。如果可以区分它们,则不确定性量化的传统算法,包括共形和校准预测,在很大程度上取决于I.I.D.训练和测试分布是相同的(或稍弱的交换性假设)。 在许多现实世界中,这些假设分解了 - 例如,在不断变化的环境中运行的机器人或部署在患者人群不同的新医院中的机器学习模型。 因此,除了量化I.I.D.下的不确定性外 假设,我们需要检测该假设何时失败。 我们考虑了无监督的域适应设置(即,我们从移位的测试分布中使用了未标记的示例),这在许多设置中都存在,因为系统可以观察到所需的预测输出的输入。 然后,我们建议使用基于分类器的测试来检测协变量分布的变化[12]。 直观地,想法是训练DNN以区分培训和测试输入。训练和测试分布是相同的(或稍弱的交换性假设)。在许多现实世界中,这些假设分解了 - 例如,在不断变化的环境中运行的机器人或部署在患者人群不同的新医院中的机器学习模型。因此,除了量化I.I.D.下的不确定性外假设,我们需要检测该假设何时失败。我们考虑了无监督的域适应设置(即,我们从移位的测试分布中使用了未标记的示例),这在许多设置中都存在,因为系统可以观察到所需的预测输出的输入。然后,我们建议使用基于分类器的测试来检测协变量分布的变化[12]。直观地,想法是训练DNN以区分培训和测试输入。
主要关键词