在特定细胞类型中具有精确活性水平的工程调控DNA序列具有巨大的医学和生物技术潜力。然而,可能序列的庞大组合空间和复杂的调节语法管理基因调控已被证明对现有的apar术具有挑战性。监督了由本地搜索算法提出的评分序列的深度学习模型,忽略了功能序列空间的全局结构。尽管基于扩散的生成模型在学习这些分布方面已显示出希望,但它们在调节性DNA中的应用受到限制。评估生成序列的质量也仍然具有挑战性,这是由于缺乏统一的框架来表征调节DNA的关键特性。在这里,我们引入了DNA离散扩散(D3),这是一种具有靶向功能活性水平的有条件采样调节序列的生成框架。我们开发了一套全面的评估指标套件,以评估生成序列的功能相似性,序列相似性和调节组成。通过对跨越人类启动子和型增强子的三个高质量功能基因组学数据集进行基准测试,我们证明,D3优于捕获顺式调节语法的多样性和生成更准确地反映基因组调节性DNA特性的序列的现有方法。此外,我们表明D3生成的序列即使在数据限制的情况下,也可以有效地增强监督模型并提高其预测性能。
主要关键词