语言模型在基因组学中的新应用有望对该领域产生重大影响。Megadna模型是创建合成病毒基因组的第一个公开可用的一代模型。评估Megadna概括病毒的非随机基因组组成以及是否可以通过算法检测到合成基因组,4,969个天然噬菌体基因组和1,002 de Novo合成细菌噬菌体的组成指标比较了。变压器生成的序列已通过Genomad分类为变化但现实的基因组长度,而58%的序列分类为病毒。然而,与天然的Bacte-riophage基因组相比,通过秩-SUM测试和原理分析分析,这些序列在各种综合度量中呈现一致的差异。一个简单的神经网络训练,可在全球组成指标上检测变压器生成的序列,其中位灵敏度为93.0%,特异性景观为97.9%(n = 12个独立模型)。总体而言,这些恢复表明,巨型群岛尚未具有逼真的组成偏见,并且基因组组成是检测该模型产生的序列的可靠方法。虽然结果是Megadna模型的特异性,但此处描述的评估框架可以应用于基因组序列的任何生成模型。