1 香港大学计算机科学系 QICI 量子信息与计算计划,香港薄扶林道。2 香港大学计算机科学系人工智能技术实验室,香港薄扶林道。3 北京大学前沿计算研究中心。4 北京大学计算机学院。5 麻省理工学院理论物理中心。6 牛津大学计算机科学系,英国牛津帕克斯路 OX1 3QD。7 圆周理论物理研究所,加拿大安大略省滑铁卢 N2L 2Y5 Caroline Street North 31 号。8 香港大学深圳科研创新研究院,中国深圳市南山区月星二路。9 浙江大学计算机科学与技术学院,中国。
1量子组,牛津大学计算机科学系,沃尔夫森大楼,牛津公园,牛津,OX1,OX1 3QD,英国2 QICI量子信息和计算计划,计算机科学系,香港,POKFULAM ROAD,香港大学,香港3 Hong Kong 3 Hku-oxford联合实验室的量子和计算部的twam twam,twam twam forme and surre twam forme of。 0,英国5号,南部科学技术大学物理系,深圳,518055,中国6号物理学系,香港科学技术大学,香港清水湾,香港7号,理论上物理学研究所,Caroline Street 31 Caroline Street North,North,Waterloo,N2L 2Y5,Untern Univers for Water for Vateruns for Avenue forsum and Canca Instumel forsum overum,加拿大N2L 3G1的滑铁卢,安大略省N2L 3G1
a 维也纳量子光学和量子信息研究所(IQOQI),奥地利科学院,Boltzmanngasse 3,A-1090 维也纳,奥地利 b 维也纳量子科学与技术中心(VCQ),维也纳大学物理学院,Boltzmanngasse 5,A-1090 维也纳,奥地利 c 牛津大学计算机科学系量子组,Wolfson 大厦,Parks Road,牛津,OX1 3QD,英国 d QICI 量子信息与计算计划,香港大学计算机科学系,香港薄扶林道 e 艾克斯-马赛大学,土伦大学,CPT-CNRS,F-13288 马赛,法国。 f 哲学系和罗特曼哲学研究所,1151 Richmond St. N London N6A5B7,加拿大和 g Perimeter Institute,31 Caroline Street N, Waterloo ON, N2L2Y5,加拿大(日期:2022 年 7 月 8 日)
1 Vienna Center for Quantum Science and Technology (VCQ), Faculty of Physics, University of Vienna, Boltzmanngasse 5, 1090 Vienna, Austria 2 Institute for Quantum Science and Engineering, Department of Physics, Southern University of Science and Technology (SUSTech), 1088 Xueyuan Avenue, 518055 Shenzhen, China 3 Wolfson College, University of Oxford, Linton路,OX2 6 UD牛津,英国4 QICI量子信息和计算计划,计算机科学系,香港大学,Pok Fu Lam Road,999077香港5量子集团,牛津大学计算机科学系计算机科学系,沃尔夫森大厦,牛津大学,牛津公园,牛津路,牛津路,OX1 3QD OXONT,UNICAL INCUNTING ox ox and Incuntration for kenong ox of interion ox1 ox1 oxn oxn ox of Pok Ful lam Road,999077香港7欧洲7富刑实验室,4楼,3号建筑物,海德公园海斯,海德公园海斯,米林顿路11号,海耶斯,海耶斯,UB3 4AZ Middlesex,英国米德尔塞克斯,英国8 Institute for Quance and量子信息(IQOQI),Outtria ofteria ofteria ofteria ofteria ofteria ofteria ofteria boltz boltz varsemia日内瓦大学应用物理系,瑞士1211年,瑞士1011 Grenoble Alpes,CNRS,CNRS,Grenoble INP,INP,INTP,Institut NEL,38000法国Grenoble,法国11号,11号GRENOBLE奥地利维也纳1090 Boltzmanngasse
Large-scale clinical interpretation of genetic variants using evolutionary data and deep learning Jonathan Frazer 1, * , Pascal Notin 2, * , Mafalda Dias 1, * , Aidan Gomez 2 , Kelly Brock 1 , Yarin Gal 2, ** , Debora S. Marks 1,3, ** Affiliations: 1 Department of Systems Biology, Harvard Medical School, Boston, MA 02115, USA.2 OATML集团,牛津大学计算机科学系,牛津大学,OX1 3QD,英国。3哈佛大学和麻省理工学院,美国马萨诸塞州剑桥市02142,美国。*这些作者为这项工作做出了同样的贡献。**相应的作者:debbie@hms.harvard.edu,yarin.gal@cs.ox.ac.uk摘要摘要量化与人类疾病相关基因中蛋白质变异的致病性会对临床决策产生深远的影响,但这些变体的巨大功能(超过98%)仍然具有这些变异的影响。原则上,计算方法可以支持遗传变异的大规模解释。但是,先前的方法4-7依赖于可用临床标签上的训练机学习模型。由于这些标签稀疏,有偏见且质量可变,因此所产生的模型被认为不足以可靠8。相比之下,我们的方法利用了深层生成模型来预测蛋白质变体的临床意义而不依赖标签。我们在生物体中观察到的蛋白质序列的自然分布是数十亿进化实验的结果9,10。通过对该分布进行建模,我们隐含地捕获了维持适应性的蛋白质序列的约束。我们的模型前夕(变异效应的进化模型)不仅要优于依赖标记数据的计算方法,而且在PAR上执行的(如果不优于)高通量分析,这些测定越来越多地用作变体分类11-23的强有力证据。在对临床标签进行彻底验证后,我们预测了1,0811个疾病基因的1100万种变体的致病性,并为72K变体分配了未知意义的72K变体8。我们的工作表明,进化信息的模型可以为变异解释提供有力的独立证据来源,并且该方法将在研究和临床环境中广泛有用。
