Loading...
机构名称:
¥ 4.0

基因组是一个序列,该序列完全编码编排整个生物体功能的DNA,RNA和蛋白质。机器学习的进步与整个基因组的大量数据集相结合可以实现一个生物基础模型,从而加速了复杂分子相互作用的机械理解和生成设计。我们报告了EVO,这是一种基因组基础模型,可实现从分子到基因组量表的预测和产生任务。使用基于深信号处理的进展的体系结构,我们将EVO扩展到70亿参数,上下文长度为131千座(Kb),即单核苷酸,字节分辨率。EVO经过了整个原核生物基因组的培训,可以概括分子生物学中心教条的三种基本方式,以执行与领先的领域特异性语言模型具有竞争性或优于领先的域模型的零拍函数预测。evo也符合多元元素生成任务,我们通过首次生成合成的CRISPR-CAS分子复合物和整个可转座系统来证明这一点。使用在整个基因组上学习的信息,EVO还可以预测核苷酸分辨率下的基因本质,并且可以产生长度高达650 kb的编码丰富序列,比以前的方法长。通过EVO进行多模式和多尺度学习的进步,为提高我们对生物学的理解和控制跨多个复杂性提供了有希望的途径。

序列建模和设计从分子到基因组量表,

序列建模和设计从分子到基因组量表,PDF文件第1页

序列建模和设计从分子到基因组量表,PDF文件第2页

序列建模和设计从分子到基因组量表,PDF文件第3页

序列建模和设计从分子到基因组量表,PDF文件第4页

序列建模和设计从分子到基因组量表,PDF文件第5页

相关文件推荐