获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
在应用深度学习模型方面,最近的研究表明,可以从生物体的调控 DNA 预测内表型,例如 RNA 转录丰度。然而,由于训练以前类型的深度学习模型需要大量标记数据,这项工作仅限于具有大量标记数据用于特定任务的物种。在这里,我们介绍了 FloraBERT,这是一种基于迁移学习的深度学习模型,它能够改善对单个目标物种基因表达的预测,它通过利用来自所有植物的基因组组装形式的跨物种基因组信息来实现这一点。FloraBERT 的表现明显优于简单的 k 聚体袋基线模型,并且实现了与涉及不太复杂物种的先前工作相当的性能。此外,对 FloraBERT 学习参数的研究表明,训练过程编码了生物学上显着的信息,例如物种之间的分类相似性和启动子内核苷酸的位置相关性。为了方便未来的研究,我们在 GitHub 上公开了源代码和模型权重,网址为 https://github.com/benlevyx/florabert 。