10摘要11个大型基础模型最近为生命科学开辟了新的人工通用情报12的途径,在分析单细胞转录组数据的分析中表现出了巨大的希望。13 Nevertheless, such challenges as the tremendous number of signaling regions, extreme data sparsity, 14 and the nearly binary nature of single-cell epigenomic data have prevented the construction of a 15 foundation model for epigenomics thus far, though it is evident that abundant epigenomic properties 16 such as chromatin accessibility provide more decisive insights into cell states than transcriptomics, 17 shaping the chromatin regulatory以不同的细胞类型控制转录的景观。在这里,我们介绍了Epiagent,这是第一个单细胞染色质可访问性数据的基础模型,在手动策划的大规模的人 - 示威 - corpus上预定了19个,该模型由20个大约500万个细胞和350亿个标记组成。epiagent编码染色质可访问性21个细胞模式作为简洁的“细胞句子”,并采用双向注意机制来捕获22个捕获调节网络背后的细胞异质性。具有全面的基准测试,我们23证明,Epiagent在典型的下游任务中出色,包括无监督功能24提取,有监督的细胞类型注释和数据插补。通过掺入外部25个嵌入,Epiagent促进了对样本外26的细胞反应的预测,并刺激了看不见的遗传扰动,以及参考数据整合和查询数据27映射。通过模拟关键顺式调节元件的敲除,Epiagent可以实现silico 28治疗癌症分析。我们进一步扩展了Epiagent的零射击功能,允许在新测序数据集上进行29个直接细胞类型注释,而无需进行其他培训。30 31引言32基因表达如何受到候选顺式调节33个元素(CCR)之间的复杂相互作用的控制,长期以来一直是基因组学领域的基本问题。的确,34这些元素不仅取决于其DNA序列,还取决于驱动与基因调节1,2相关的细胞异质性的表观遗传修饰35。在这些见解上,使用测序(SCATAC-SEQ)的单细胞36分析可用于转座酶可访问的染色质(SCATAC-SEQ)为揭示单个细胞的这些调节性景观3提供了前所未有的37个机会3,实现了38个细胞异质性4,组织发育4,组织的疾病机构5和疾病机制6。随着测序39技术的进步,已经构建了众多涵盖胎儿发育7,成人组织8、40脑组织9和神经发育10的大型细胞图谱,并提供了前所未有的资源41,可在多元化的生理条件下揭露调节模式。但是,大量的42个CCR,极端的稀疏性及其几乎二元性质对Scatac- 43
主要关键词