机器学习的利用,尤其是深层生成模型,已在合成DNA序列产生的领域开辟了有希望的途径。虽然生成对抗网络(GAN)在此应用中获得了吸引力,但他们经常面临诸如样本多样性和模式崩溃等问题。另一方面,扩散模型是一种有希望的新的生成模型,这些模型不承担这些问题的负担,从而使它们能够达到图像生成等领域的最先进。鉴于此,我们提出了一种新型潜在扩散模型,即用于离散DNA序列产生的新型潜扩散模型。通过使用自动编码器将离散的DNA序列简单地嵌入连续的潜在空间中,我们能够利用连续扩散模型的强大生成能力来生成离散数据。此外,我们将Fréchet重建距离(FRED)作为新指标,以测量DNA序列世代的样品质量。我们的码头模型表明,就基序分布,潜在嵌入分布(FRED)和染色质曲线而言,与实际DNA紧密对齐的合成DNA序列具有能力。此外,我们还提供了来自15种的150K独特启动子基因序列的综合跨物种数据集,丰富了基因组学中未来生成建模的资源。我们已在https://github.com/zehui127/latent-dna-diffusion上公开提供代码和数据。
主要关键词