大规模序列建模引发了快速的进步,现在扩展到生物学和学位。但是,建模基因组序列引入了挑战,例如需要建模远程令牌相互作用,基因组的上流区域和下游区域的影响以及DNA的反向互补性(RC)。在这里,我们提出了一个以这些挑战为动机的建筑,这些挑战在远程Mamba区域建立,并将其扩展到支持双向性的Bimamba component,并将其扩展到支持RC等值的Mambadna块。我们使用amambadna作为caduceus的ba sis,这是第一个rc equivianiant双向远程DNA语言模型的第一个家族,我们引入了预训练和精细的调整策略,产生了caduceus dna fun-foun-foun-foun-foun-foun-foun-foun-foun-foun-foun-foun-foun-dation模型。caduceus在下游基准测试上优于以前的远程模型;在具有挑战性的远程变体效果前字典任务上,caduceus超过了不利用双向方向性或均衡性的10倍较大模型的性能。代码重现我们的实验。
主要关键词