人工智能辅助基因组研究错误百出

研究人员在大型基因组学研究中使用人工智能来填补患者信息的空白并改善预测,但新的研究发现了假阳性和误导性相关性。

来源:The Scientist

基因组是人体的蓝图,影响着从面部形状到足弓的每一个特征,甚至某些疾病的发展。虽然一些疾病(如囊性纤维化)与单个基因有关,可以根据一个人的基因数据进行可靠预测,但许多其他疾病(如自闭症谱系障碍、阿尔茨海默病、抑郁症和肥胖症)却并非如此。

T

在过去的 15 年里,科学家们使用全基因组关联研究 (GWAS) 来比较大量人群的基因组,以识别与某种特征或疾病相关的数十万种遗传变异。1 这种方法帮助科学家揭示了复杂疾病的潜在生物学和风险因素,也导致了新药物靶点的发现。尽管取得了这些进展,但 GWAS 研究也有其局限性,科学家们试图借助人工智能 (AI) 来解决这些局限性。然而,在《自然遗传学》杂志上发表的两项研究中,威斯康星大学麦迪逊分校的研究人员发现,这些新方法在处理大型但不完整的数据集时可能会引入普遍的偏见。2,3

全基因组关联研究 1 两项研究 《自然遗传学》 偏见 2,3

GWAS 依赖于拥有大量患者数据的大型生物库。然而,这些存储库可能缺少从血液报告、扫描、患者病史到家族数据的任何信息。即使进行了彻底的调查,诸如缺乏一群年轻参与者的晚发疾病数据等挑战也会打乱研究人员的计划。

为了解决数据方面的缺口,科学家开发了两种方法:机器学习和 GWAS-by-proxy (GWAX),后者依赖家族史数据作为晚发疾病的预测指标。许多研究人员将 GWAS 和 GWAX 结合起来,以提高预测的统计能力。然而,威斯康星大学麦迪逊分校的研究小组发现,这些“解决方案”可能会错误地将基因变异与疾病联系起来。