详细内容或原文请订阅后点击阅览
识别法学硕士的大规模互动
了解复杂机器学习系统的行为,特别是大型语言模型 (LLM),是现代人工智能的一项关键挑战。可解释性研究旨在使决策过程对模型构建者和受影响的人类更加透明,这是迈向更安全、更值得信赖的人工智能的一步。为了获得全面的理解,我们可以通过不同的视角来分析这些系统:特征归因,它隔离驱动预测的特定输入特征(Lundberg & Lee,2017;Ribeiro et al.,2022);数据归因,将模型行为与有影响力的训练示例联系起来(Koh&Liang,2017;Ilyas 等人,2022);以及机械可解释性,它剖析了内部组件的功能(Conmy 等人,2023;Sharkey 等人,2025)。在这些观点中,相同的基本障碍仍然存在:规模的复杂性。模型行为很少是孤立组件的结果;相反,它是从复杂的依赖关系和模式中产生的。为了实现最先进的性能,模型综合复杂的特征关系,从不同的训练示例中找到共享模式,并通过高度互连的内部组件处理信息。因此,扎根或经过现实检验的可解释性方法还必须能够捕获这些有影响力的相互作用。随着特征、训练数据点和模型组件数量的增加,潜在交互的数量呈指数级增长,使得 exha
来源:BAIR了解复杂机器学习系统的行为,特别是大型语言模型 (LLM),是现代人工智能的一项关键挑战。可解释性研究旨在使决策过程对模型构建者和受影响的人类更加透明,这是迈向更安全、更值得信赖的人工智能的一步。为了获得全面的理解,我们可以通过不同的视角来分析这些系统:特征归因,它隔离驱动预测的特定输入特征(Lundberg&Lee,2017;Ribeiro等人,2022);数据归因,它将模型行为与有影响力的训练示例联系起来(Koh&Liang,2017;Ilyas等人,2022);以及机械可解释性,它剖析了内部组件的功能(Conmy 等人,2023;Sharkey 等人,2025)。
从这些角度来看,同样的基本障碍仍然存在:规模的复杂性。模型行为很少是孤立组件的结果;相反,它是从复杂的依赖关系和模式中产生的。为了实现最先进的性能,模型综合复杂的特征关系,从不同的训练示例中找到共享模式,并通过高度互连的内部组件处理信息。
因此,扎根或经过现实检验的可解释性方法也必须能够捕获这些有影响力的相互作用。随着特征、训练数据点和模型组件数量的增加,潜在交互的数量呈指数级增长,使得详尽的分析在计算上变得不可行。在这篇博文中,我们描述了 SPEX 和 ProxySPEX 背后的基本思想,以及能够大规模识别这些关键交互的算法。
通过消融进行归因
我们方法的核心是消融的概念,通过观察移除组件时发生的变化来衡量影响。
