单细胞转录组学彻底改变了我们对细胞异质性的理解,但建模了超长的转录组序列(即基因的数量)仍然是一个重大的计算挑战。在这项研究中,我们基于最新的MAMBA2档案介绍了SC-MAMBA2,这是该体系结构与状态空间模型(SSMS)的首次应用,用于单细胞转录组建模。与传统的基于变压器的语言模型不同,SC-MAMBA2利用SSM的效率和可扩展性,使得通过减少的计算开销来处理更长的转录组序列。我们引入了专门针对转录组序列量身定制的独特设计适应,并在SSM框架下实现了双向建模方法,从而促进了整个基因组转录组序列的全面分析。SC-MAMBA2是单细胞转录组学结构域中最大的模型,具有超过1.5亿个参数,能够处理涵盖60,000多个基因的转录组序列。该模型在5700万个单元的数据集上进行了训练,这使其成为处理迄今为止超长序列的最全面解决方案。通过在各种下游任务中进行广泛的基准测试,SC-MAMBA2始终胜过最先进的模型,证明了卓越的准确性和计算效率。我们的结果强调了SC-MAMBA2的有效性和高级功能,将其定位为未来单细胞转录组研究的关键工具。
[1] Dorfman等。离线元RL - 可识别性挑战和有效的数据收集策略,2021 [2] Yu等。元世界:多任务和元加强学习的基准和评估,2019 [3] Rakelly等。通过概率上下文变量有效的非政策元提升学习,2019
这项工作探索了基础模型(特别是基于 Mamba 的选择性状态空间模型)在增强神经系统疾病诊断中 EEG 分析的潜力。EEG 对于诊断癫痫等疾病至关重要,由于其噪声大、高维和非线性的特性,它带来了巨大的挑战。传统的机器学习方法在自动化 EEG 分析方面取得了进展,但往往无法捕捉其复杂的时空动态。深度学习的最新进展,特别是序列建模,为创建能够处理这种复杂性的更通用、更具表现力的模型提供了新途径。通过自监督重建任务和随后的癫痫检测任务,在包含癫痫和非癫痫 EEG 记录的大型数据集上训练基于 Mamba 的模型,我们展示了该模型的潜力,在保留测试集上实现了 0.72 的 AUROC。这种方法标志着朝着开发用于 EEG 数据分析的大规模、临床适用的基础模型迈出了重要一步。
“从网络安全的角度来看,研究大型语言模型、它们可以生成的内容以及生成这些内容所需的提示非常重要……。这样的研究让我们了解了当前工具可以做什么和不能做什么,并让社区警惕这些技术的潜在滥用[4]。”
武装部队部媒体中心 60 boulevard du général Martial Valin CS 21623 - 75009 Paris Cedex 15