缩写:AD,阿尔茨海默氏病; CAM,中枢神经系统相关的巨噬细胞; CDK,细胞周期蛋白依赖性激酶; CDP,中央动物设施;中枢神经系统,中枢神经系统;大坝,疾病相关的小胶质细胞; 12月,动物护理和使用委员会; GRP,神经胶质限制的祖细胞; HOM,稳态小胶质细胞; HSV,单纯疱疹病毒; HVG,高度可变的功能; IFN,干扰素小胶质细胞; logfc,日志折叠更改; MRFP,单体红荧光蛋白; MS,多发性硬化症; OPC,少突胶质细胞祖细胞; PCA,主成分分析; PD,帕金森氏病; QRT-PCR,定量实时聚链反应; SASP,衰老相关的分泌表型; TTK,胸苷激酶;嗯,小胶质细胞; UMAP,均匀的歧管近似和投影; WGCNA,称重的基因相关网络分析。
单细胞测序技术,包括单细胞RNA测序(SCRNA-SEQ)和单细胞ATAC测序(SCATAC-SEQ),使研究人员能够量化细胞的OMIC PHE-NOTYPES。理想的单细胞数据分析有望帮助研究人员了解细胞上的异质性,提取感兴趣的细胞亚群,识别与细胞亚群相对应的特征基因集,并揭示细胞子源的关系。在这些分析任务中,识别特征基因集是一个关键步骤。特征基因集定义为在细胞亚群之间差异表达的基因集。它们通常用于注释细胞亚群并进行基因集富集分析。现有的特征基因鉴定方法经常采用两步方法(此后称为两步方法):首先将细胞聚集(例如Seurat [1-4],简单的Louvain [5],通过插入性和维度降低(CIDR)(CIDR)[6]和Scanpy [7]和差异表达基因(例如9)(例如9)[8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [14,15],limma-voom [16]和桅杆[17])随后在细胞簇上进行以识别特异性特异性特征基因。但是,这种方法对具有复杂或微妙的异质性的数据具有可疑的精度,因为不准确的初始聚类步骤可能会导致随后的错误特征基因鉴定[18]。但是,这些方法不会将特征基因分离为亚群特异性基因集,从而限制了它们的注释细胞的效用。这些基因集用于计算细胞基因集富集评分,然后注释细胞。另外,某些方法通过检测高度可变基因(HVG)的偏差来识别特征基因,这些基因与人群相对于模型拟合的偏差[19],辍学率[20]和UMI计数分布[21](此后称为HVG方法)。为了克服现有方法的局限性,我们提出了Sifinet,这是一种直接识别特征基因集的独特方法,可消除对先前细胞聚类的需求。源于关键观察,即在细胞亚群中共差异表达的基因也表现出共表达模式(供应。注1),Sifinet构建了一个基因共表达网络,并检查其拓扑以识别特征基因集。此外,这些基因集中的网络意味着细胞亚群之间的关系(图1)。此外,Sifinet可以选择地整合SCATAC-SEQ数据,因为它形成了基因合作 - 染色质网络,并探讨了其拓扑以确定表观基因组特征基因集。Sifinet分析SCRNA-SEQ和SCATAC-SEQ数据的能力使研究人员深入了解了细胞多瘤异质性。我们证明,在识别特征基因集和增强细胞注释精度时,Sifinet优于现有的两步方法和HVG方法。此外,我们认为Sifinet可以鉴定细胞之间的复杂异质性,并揭示细胞亚群中潜在的发育谱系。Sifinet也可以缩放以分析数百万个单元的数据集。我们将Sifinet应用于五个已发表的实验数据集,并发现了一些潜在的新发现,例如潜在的新细胞周期标记和衰老标记,衰老细胞富集的亚群,髓样祖细胞的发育效果以及CD8细胞的发育效果以及CD8细胞的构造以及可能的过渡路径。