○将细胞投射到共享的嵌入中,其中细胞按细胞类型而不是数据集特异性条件分组。○同时考虑了多种实验和生物学因素。○作者演示了和谐的优越性能,而不是先前发表的算法,同时需要更少的计算资源
●帮助教授来自全国各地的高级研究生和博士后研究员,以空间转录方法以及空间数据的分析。●举行每日办公时间,以帮助学生熟练精通编程,并了解Scanpy和Seurat软件中不同分析背后的数学和科学。UC圣地亚哥 - BIOM200C-客座讲师2021年2月
抽象的单细胞RNA测序(SCRNA-SEQ)提供了单个细胞的表达谱,但无法保留关键的空间信息。另一方面,空间杂交技术能够分析组织切片中的特定区域,但缺乏单细胞分辨率检查的能力。为了克服这些问题,我们提出了单细胞和空间转录组学对齐(SSA),这是一种新型技术,它采用最佳传输算法来根据其表达曲线将单个细胞从SCRNA-SEQ ATLAS分配到其在实际组织中的SPATIAL位置。SSA与现有方法相比,已经证明了具有100,064个细胞的高分辨率空间转录组人乳腺癌数据集的10个半模拟数据集。这一进步为研究人员提供了一种精致的工具,以深入了解细胞空间组织与基因表达之间的关系。
使用CellRanger软件套件(v6.1.1)处理测序读数,该读数将读取与人类参考基因组(版本:refdata-Gex-Gex-Gex-Gex-Gex-Gex-grech38-2020-A)保持一致,并最终产生了基因 - barcode Matrix。为了进行质量控制,然后将矩阵导入到r软件包seurat(v4.3.0)中。12为了消除由于随机噪声而识别的基因,排除了少于三个细胞的计数的基因。为了消除次优质的细胞,使用标准(例如基因数量,独特的分子识别剂计数(UMIS),核糖体基因的比例以及线粒体基因的比例)进行过滤。表S2中提供了应用于每个样品的阈值。为了进一步去除双子体,如果通过scrublet(v0.2.3)13> .3预测的双重分数,则将细胞排除在外。
主题必备知识/概念 1. 了解银河系行星的顺序。 2. 理解太阳可以用来计时(使用日晷和阴影)。 3. 根据目前的理解定义大爆炸理论。 4. 理解天文学家已经观察太空数千年了,埃拉托色尼(公元前 276 年 - 公元前 194 年)是第一批天文学家之一。 5. 知道伽利略(1564 年 - 1642 年)可能是有史以来最具影响力的天文学家。 6. 知道什么是星系。 7. 描述艾萨克·牛顿(1643 年 - 1727 年)对引力理论的影响。 8. 解释引力如何根据质量影响不同的物体。 9. 展示对如何组合音乐元素来创作可以代表某种事物(例如空间)的乐曲的理解。 10. 科学地解释为什么会出现昼夜交替。 11. 了解点画法所涉及的艺术技巧,并了解乔治·修拉 (Georges Seurat) 的关键人物。12. 了解地球在不断旋转。13. 了解地球倾斜 23%,这就是我们为什么会有季节。14. 了解农历月期间月亮的不同阶段。
•编程和脚本:熟练掌握R,Python,Matlab,Bash进行数据分析,统计建模和生物信息学管道。•生物信息学:在单细胞和空间转录组学,变体分析,RNA-seq和多摩学集成中经验丰富。•数据分析和可视化:使用Seurat,Deseq2和Pseudobulk等工具开发自定义工作流程进行生物数据分析的熟练。使用GGPLOT2和绘图的数据可视化中的强大功能。•云和高性能计算:设置和管理云基础架构(AWS,GCP)和HPC环境方面的专业知识,使用Slurm和Docker进行可扩展计算。•软件和Web开发:开发了带有r闪亮,简化和反应的生物信息学Web应用程序,重点是交互式数据探索。•机器学习与建模:应用机器学习技术到生物医学数据,具有特征选择,分类模型和网络分析的经验。•工作流程管理:使用NextFlow和管道开发进行大规模基因组数据处理的工作流管理经验。
目标:为来自拉丁美洲国家的研究生和年轻研究人员提供单细胞转录组学和蛋白质组学的基础知识。在此课程中,参加者将学习如何使用可用的基于R的计算和统计方法来分析免疫细胞数据集。该课程的组织方式是在早晨,在聆听主题演讲者的工作之后,将讨论不同技术的理论方面,在下午,计算和统计方法的专家将提供个性化培训,以分析免疫细胞数据集(来自文献或早晨暴露的论文)。尽管在过去几年中已经实施了几门虚拟课程,但我们仍然认为面对面的会议允许最大程度的互动。因此,下午的会议将以一个教授/组织者将协助一组4-5名学生的方式组织。将向每个组提供一组带有相关数据集的纸张,并在课程期间分析,并将在最后一天评估结果的最终介绍。重点将放在实施常用的软件和管道上(例如Cellranger,Seurat,ArchR)。我们期望为早期研究人员和学员创造一个培养和支持的环境,从而影响我们的研究,教学和卫生系统的质量。
在空间测量多模式数据的能力中,可以为在转录,翻译和代谢水平上全面探索分子调节的前所未有的机会,以获取对基于健康和疾病的细胞活动的见解。但是,目前缺乏分析工具来整合不同空间 - 词素数据模式的互补信息,尤其是在空间代谢组学数据方面,这变得越来越宝贵。我们介绍了SPAMTP,这是一种多功能软件,该软件实现了空间代谢组学和转录组学数据的端到端集成分析。基于R,SPAMTP Bridges处理功能,用于来自Cardinal的代谢组学数据,并在Seurat中实施了以用户友好的细胞为中心分析。此外,SPAMTP的综合分析管道涵盖(1)自动质量到电荷比(M/Z)代谢物注释; (2)广泛的基于代谢物的下游统计分析,包括差异表达,途径分析和相关分析; (3)综合空间词分析; (4)一套可视化函数。为了灵活性和互操作性,SPAMTP包括用于数据导入/导出和对象转换的各种功能,从而可以与其他R和Python软件包无缝集成。我们证明了SPAMTP通过分析两个生物系统来吸引新的生物学理解的实用性。我们认为,该软件和实施方法将广泛用于空间多媒体和空间代谢组学分析中。
胶质瘤是一种高度侵袭性和侵袭性的肿瘤,是脑癌中发病率最高的肿瘤。确定有效的预后和潜在的治疗靶点是必不可少的。细胞焦亡是一种程序性细胞死亡形式,其与胶质瘤的关系仍然不清楚。我们利用细胞焦亡相关基因构建并验证了胶质瘤的预后模型。使用“ limma ”包筛选出差异表达的细胞焦亡相关基因。基于 LASSO-Cox 回归,采用 CASP1、CASP3、CASP6、IL32、MKI67、MYD88、PRTN3、NOS1 和 VIM 等 9 个重要基因在 TCGA 队列中构建预后模型;并在 CGGA 队列中验证了结果。根据中位风险评分,将患者分为高危组和低危组,Kaplan-Meier曲线分析显示高危患者预后差于低危患者。两组患者在免疫细胞滤过和TMB评分方面存在差异,高危组的免疫检查点水平、TMB评分和免疫细胞滤过水平均较高。KEGG和GO分析提示免疫相关通路富集。此外,我们发现我们的标签中的基因与氧化应激相关通路强相关,且不同亚组的ssGSEA评分不同。一些小分子靶向模型中的基因,并验证了它们在不同风险组之间的药物敏感性。使用“Seurat”包处理 scRNA-seq 数据集 GSE138794,以评估特定细胞类型中风险基因的表达水平。最后,使用 si-RNA 构建体降低 U87 胶质瘤细胞系中的 MYD88 水平。细胞增殖受损,暴露于 LPS 时释放的焦亡相关细胞因子减少。总之,我们建立了一个焦亡相关基因模型,可准确将胶质瘤患者分为高风险组和低风险组。研究结果表明,该特征可能是胶质瘤的有效预后预测工具。
单细胞测序技术,包括单细胞RNA测序(SCRNA-SEQ)和单细胞ATAC测序(SCATAC-SEQ),使研究人员能够量化细胞的OMIC PHE-NOTYPES。理想的单细胞数据分析有望帮助研究人员了解细胞上的异质性,提取感兴趣的细胞亚群,识别与细胞亚群相对应的特征基因集,并揭示细胞子源的关系。在这些分析任务中,识别特征基因集是一个关键步骤。特征基因集定义为在细胞亚群之间差异表达的基因集。它们通常用于注释细胞亚群并进行基因集富集分析。现有的特征基因鉴定方法经常采用两步方法(此后称为两步方法):首先将细胞聚集(例如Seurat [1-4],简单的Louvain [5],通过插入性和维度降低(CIDR)(CIDR)[6]和Scanpy [7]和差异表达基因(例如9)(例如9)[8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [8] [14,15],limma-voom [16]和桅杆[17])随后在细胞簇上进行以识别特异性特异性特征基因。但是,这种方法对具有复杂或微妙的异质性的数据具有可疑的精度,因为不准确的初始聚类步骤可能会导致随后的错误特征基因鉴定[18]。但是,这些方法不会将特征基因分离为亚群特异性基因集,从而限制了它们的注释细胞的效用。这些基因集用于计算细胞基因集富集评分,然后注释细胞。另外,某些方法通过检测高度可变基因(HVG)的偏差来识别特征基因,这些基因与人群相对于模型拟合的偏差[19],辍学率[20]和UMI计数分布[21](此后称为HVG方法)。为了克服现有方法的局限性,我们提出了Sifinet,这是一种直接识别特征基因集的独特方法,可消除对先前细胞聚类的需求。源于关键观察,即在细胞亚群中共差异表达的基因也表现出共表达模式(供应。注1),Sifinet构建了一个基因共表达网络,并检查其拓扑以识别特征基因集。此外,这些基因集中的网络意味着细胞亚群之间的关系(图1)。此外,Sifinet可以选择地整合SCATAC-SEQ数据,因为它形成了基因合作 - 染色质网络,并探讨了其拓扑以确定表观基因组特征基因集。Sifinet分析SCRNA-SEQ和SCATAC-SEQ数据的能力使研究人员深入了解了细胞多瘤异质性。我们证明,在识别特征基因集和增强细胞注释精度时,Sifinet优于现有的两步方法和HVG方法。此外,我们认为Sifinet可以鉴定细胞之间的复杂异质性,并揭示细胞亚群中潜在的发育谱系。Sifinet也可以缩放以分析数百万个单元的数据集。我们将Sifinet应用于五个已发表的实验数据集,并发现了一些潜在的新发现,例如潜在的新细胞周期标记和衰老标记,衰老细胞富集的亚群,髓样祖细胞的发育效果以及CD8细胞的发育效果以及CD8细胞的构造以及可能的过渡路径。