精确医学的主要重点是使用计算工具来准确预测疾病结果并确定相关的生物标志物以进行有效的后续评估。Over the last two decades, linear models have been widely implemented to identify differentially expressed genes and enriched signaling pathways in functional genomics (Love et al., 2014 ; Nueda et al., 2014 ; Ritchie et al., 2015 ; Robinson et al., 2009 ), characterize complex trait architecture in genome-wide association studies (, 2010 ; Hayeck et al., 2015 ; Heckerman et al., 2019年,Kang et al。等Al。,2018年; Manno等,2018),并在不同的时间点,数据收集位点和组织类型上进行有效的归一化和维度降低(Hasin等,2017;Lähnemann等,2020)。这些方法的一部分是它们提供统计显着性措施的能力,例如P值,后置包含概率(PIPS)或然后可以使用的贝叶斯因素,可用于促进下游任务(例如,选择哪些分子机制以药物为目标或选择哪些临床干预措施对特定患者有效)。不幸的是,严格的加性假设通常会阻碍线性模型的性能;这些方法中最强大的方法依赖于训练算法,这些算法在计算上效率低下且对大规模数据集不可靠。成像和测序技术的持续进步(Stephens等,2015)提供了范围,以将多模式的非参数方法整合为生物学和临床应用中的最先进工具。的确,机器学习方法众所周知,具有在数据中学习复杂的非线性模式的能力,并且当有大量的培训示例可用时,它们通常在设置中获得最大的功能(Lecun等,2015)。然而,文献中已被大量引用,许多机器学习技术都受到“黑匣子”限制的影响,因为它们并不自然地进行经典的统计假设测试,例如线性模型,这对于精确医学中的决策至关重要。导致非线性算法更好的预测性能的关键特征之一是自动包含被放入模型中的特征之间的高阶相互作用(Crawford等,2018; Jiang&Reif,2015)。例如,神经网络利用分层之间的激活功能,这些层隐式列举了输入特征之间所有可能的(多项式)交互作用(Demetci等,2021; 2021; Murdoch等,2019; Tsang,Cheng,Cheng,&Liu,&Liu,2018; Tsang,Liu,Liu等,2018; 2018; WAHBA,1900年)。这已被证明在准确预测模型生物的特征方面有所作为,在这些特征中,诸如epistasis之类的现象(即多个基因座和/或基因之间的相互作用)可以在物种之间的变化中发挥很大作用(Bellot等人,2018; Runcie et al。,2021; Swain等,2016; swain等,2016; 2016; weissbrod et al an a w weissbrod et al。这是用于改进模型的部分数学解释,但在许多生物医学应用中,我们经常希望准确地知道哪些基因组特征(例如变体,基因和途径)对于定义表型或疾病结果的结构最重要。本手稿的主要目的是回顾大量的方法论研究,这些方法是为了开发计算生物学中更“可解释的”和“可解释”的机器学习。在整个本文中,我们将使用经典的观点,即“解释性”与使用模型参数的事后能力有关(有时也称为在文献的某些领域中表现“可变重要性”)(Crawford et al。,2019; Lundberg&Lundberg&Lee,2016,2017,2017; ribeio; ribeio et alik anik shrik,shrik shrik;虽然“解释性”是模型固有地为其参数和体系结构提供了可理解的定义(Hira等,2019; Marcinkevics&Vogt,2020; Shmueli,2010)。两个概念都可以分为试图在(i)全球范围上实现解释性或可解释性的方法类别,在该方法中,目标是对观察到的人群的整体变化的贡献进行对/(ii)在局部层面上的贡献进行排名/选择的输入,旨在详细介绍对数据集中的任何特定个人的重要性。在这里,我们将专注于描述神经网络中的全球尺度方法,其特殊动机来自基于关联映射的基因组学应用程序。我们在这篇综述中的主要贡献是为我们所说的“透明度谱”提供全面的景观,用于监督和无监督的学习算法,因为我们从黑匣子转移到可解释的方法,并最终转化为可解释的方法(图1)。