摘要 基因表达受转录因子 (TF) 调控,它们共同读取顺式调控 DNA 序列。“顺式调控密码”——细胞如何解释 DNA 序列以确定何时、何地和表达多少基因——已被证明极其复杂 1,2。最近,功能基因组学检测和机器学习 (ML) 的规模和分辨率的进步使得破译此密码取得了重大进展 3–6。然而,如果仅在基因组序列上训练模型,顺式调控密码可能永远无法解决;同源区域很容易导致对预测性能的高估,而且我们的基因组太短,序列多样性不足以学习所有相关参数。幸运的是,随机合成的 DNA 序列能够测试比我们基因组中存在的大得多的序列空间,而设计的 DNA 序列能够进行有针对性的查询,从而最大限度地改进模型。由于无论 DNA 来源如何,解释 DNA 都使用相同的生化原理,因此基于这些合成数据训练的模型可以预测基因组活动,通常比基于基因组训练的模型更好 7,8 。在这里,我们提供了该领域的展望,并提出了通过结合 ML 和使用合成 DNA 进行大规模并行分析来解决顺式调控代码的路线图。
主要关键词