单细胞转录组学彻底改变了我们对细胞异质性的理解,但建模了超长的转录组序列(即基因的数量)仍然是一个重大的计算挑战。在这项研究中,我们基于最新的MAMBA2档案介绍了SC-MAMBA2,这是该体系结构与状态空间模型(SSMS)的首次应用,用于单细胞转录组建模。与传统的基于变压器的语言模型不同,SC-MAMBA2利用SSM的效率和可扩展性,使得通过减少的计算开销来处理更长的转录组序列。我们引入了专门针对转录组序列量身定制的独特设计适应,并在SSM框架下实现了双向建模方法,从而促进了整个基因组转录组序列的全面分析。SC-MAMBA2是单细胞转录组学结构域中最大的模型,具有超过1.5亿个参数,能够处理涵盖60,000多个基因的转录组序列。该模型在5700万个单元的数据集上进行了训练,这使其成为处理迄今为止超长序列的最全面解决方案。通过在各种下游任务中进行广泛的基准测试,SC-MAMBA2始终胜过最先进的模型,证明了卓越的准确性和计算效率。我们的结果强调了SC-MAMBA2的有效性和高级功能,将其定位为未来单细胞转录组研究的关键工具。
变形金刚 - mamba2体系结构,将注意机制的优势与选择性状态空间模型无缝整合。这种杂种设计使杂种能够通过单核苷酸的分辨有效地处理长度高达131KB的DNA序列。Hybridna在从弯曲,GUE和LRB基准中策划的33个DNA了解数据集中实现了最新的性能,并在产生具有所需属性的合成顺式顺式调节元件(CRE)方面表现出了出色的能力。此外,我们表明Hybridna遵守预期的规律,并且随着模型尺度从300m到3B和7B参数,性能始终如一地提高。这些发现强调了Hybridna的多功能性及其推进DNA研究和应用的潜力,为理解和工程“生活语言”的创新铺平了道路。
