生命代码:具有多词序列统一的中央教条建模
机构名称:
¥ 1.0

如分子生物学的中心教条所示,DNA,RNA和蛋白之间的相互作用是生物过程的基础。现代生物学预训练的模型在分析这些大分子方面取得了巨大的成功,但它们的感染性质仍未得到探索。在本文中,我们遵循Central Dogma的指导来重新设计数据和模型管道,并提供一个全面的框架,即生命代码,这些框架涵盖了不同的生物功能。至于数据流,我们提出了一条统一的管道来通过将RNA转录并反向翻译为基于核苷酸的序列来整合多词数据。至于模型,我们设计了一个密码子令牌和混合长期架构,以用遮罩的建模预训练编码编码和非编码区域的相互作用。通过编码序列对翻译和折叠过程进行建模,生命代码通过从现成的蛋白质语言模型中的知识分离来学习相应的氨基酸的蛋白质结构。这样的设计使生命代码能够在遗传序列中捕获复杂的相互作用,从而更全面地了解了与中央教条的多摩学。广泛的实验表明,生命代码在三个OMIC的各种任务上实现了状态绩效,突出了其进步多摩学分析和解释的潜力。

生命代码:具有多词序列统一的中央教条建模

生命代码:具有多词序列统一的中央教条建模PDF文件第1页

生命代码:具有多词序列统一的中央教条建模PDF文件第2页

生命代码:具有多词序列统一的中央教条建模PDF文件第3页

生命代码:具有多词序列统一的中央教条建模PDF文件第4页

生命代码:具有多词序列统一的中央教条建模PDF文件第5页

相关文件推荐

讲座12-中央教条
2024 年
¥1.0
建模
2025 年
¥2.0
我们的代码
2025 年
¥3.0
具有
2020 年
¥1.0
多序列对齐
2025 年
¥3.0