单细胞基因组学迅速促进了我们对细胞表型多样性的了解,包括细胞类型和细胞状态。由单细胞/-Nucleus RNA测序(SCRNA-SEQ)驱动,目前正在进行表征广泛的生物和组织的全面细胞图集项目。结果,至关重要的是,发现的转录表型以一致和简洁的方式定义和传播。分子生物标志物在历史上在生物学研究中起着重要作用,从通过表面蛋白表达定义免疫细胞类型到通过其分子驱动因素定义疾病。在这里,我们描述了一种基于机器学习的标记基因选择算法,NS-Forest版本2.0,它利用随机森林特征选择的非线性属性和二进制表达评分方法来发现最小值标记基因表达组合,以最佳地捕获Com-Plete Scrna-Secrna-Seqle-Seqse-Seqseq转录profiles在Com-Plete Scrna-seqs sequeq transcriptions profiles中的细胞类型标识。所选的标记基因提供了一种表达式条形码,既是下游生物学研究的有用工具,也是语义细胞类型定义的必要特征。使用ns-forest来识别人脑中间回发细胞类型的标记基因,揭示了神经元细胞类型同一性中细胞信号传导和非编码RNA的重要性。
主要关键词