解释机器学习的决策过程如今对模型的增强和人类的理解至关重要。这可以通过评估罪恶变量的可变重要性来实现,即使对于高容量的非线性方法,例如深神经网络(DNNS)。虽然只有基于删除的方法(例如置换重要性(PI))可以带来统计有效性,但当变量相关时,它们会返回误导性结果。条件置换重要性(CPI)在这种情况下绕过PI的局限性。然而,在高维设置中,变量之间的高相关性取消了其有条件的重要性,使用CPI以及其他方法会导致不可靠的结果,这是一个超出的计算成本。通过聚类或一些先验知识对变量进行分组,从而获得了一些功率,并导致更好的解释。在这项工作中,我们介绍了BCPI(基于块的条件置换重要性),这是一个新的通用框架,用于可变知名度计算,并具有统计保证,可处理单个和组案例。此外,由于处理具有较高基数的组(例如一组给定模式的观察结果)既耗时又是资源密集型的,因此我们还引入了一种新的堆叠方法,扩展了具有适合组结构的次级线性层的DNN体系结构。我们表明,随后的方法随着堆叠的控制而扩展了I型误差,即使是高度相关的组,并且在基准中显示了最高的精度。更重要的是,我们在大规模的医学数据集中执行了现实世界数据分析,我们旨在展示我们的结果和生物标志物预测的文献之间的一致性。
主要关键词