单细胞和-Nucleus转录组学的进步已使数百名受试者和数百万个单元的越来越大的数据集生成。这些研究承诺将对人类疾病的细胞类型特异性生物学提供前所未有的见解。然而,由于这些复杂研究的统计模型和对大型数据集的统计模型中的挑战,对受试者进行差异表达分析仍然很困难。我们的开放源r软件包dreamlet(dieseneurogenomics.github.io/dreamlet)使用基于精确加权的线性混合模型的伪库尔克方法,以识别每个细胞群体中跨受试者均具有差异表达的基因。为来自大型同类数据的数据而设计,Dreamlet的速度比现有工作流程更快,并且使用的内存少,同时支持复杂的统计模型并控制误报率。我们在已发布的数据集上展示了计算和统计性能,以及来自150例阿尔茨海默氏病后大脑的14m单核的新型数据集和149个对照组。
主要关键词