1美国杜克大学医学院,美国北卡罗来纳州达勒姆大学医学院,美国2杜克大学血液学典型科学系高维细胞多摩学数据对于理解生物控制的各个层次至关重要。单一的'Omic方法提供了重要的见解,但在处理基因,蛋白质,代谢产物以及其他方面的复杂关系方面常常缺乏。在这里,我们提出了一种称为Gaudi的新颖,非线性和无监督的方法(通过UMAP数据集成进行组聚集),该方法利用独立的UMAP嵌入来进行多种数据类型的并发分析。Gaudi比几种最先进的方法更好地发现不同的OMIC数据之间的非线性关系。这种方法不仅通过它们的多摩尼克曲线群簇样本,而且还识别了每个OMICS数据集的潜在因素,从而促进对每个群集有助于的基本特征的解释。因此,Gaudi促进了更直观,可解释的可视化,从而从广泛的实验设计中识别出新颖的见解和潜在的生物标志物。引言多摩变分析整合了各种数据类型,例如基因组学,蛋白质组学和代谢组学。组合多种OMICS模式比单独分析每种数据类型时,有可能发现新颖的见解和生物标志物(1,2)。高通量技术的增长促使OMICS数据呈指数增加,这突显了对新的集成方法的迫切需求。传统的多摩学集成方法主要集中在降低尺寸技术上。例如,在RGCCA(3)中使用了基于规范相关分析(CCA)的方法,而MCIA中使用了共惯性分析(4)。同样,贝叶斯因子分析基于MOFA+(5)等方法,负基质分解对于Intnmf(6),主成分分析(7)和独立组件分析是TICA(8)的基础。尽管这些方法已在各种OMICS数据集和生物环境中应用,但它们的有效性和局限性各不相同,强调了在其应用中需要仔细考虑的需求(9)。这些方法共享的中心限制是它们对线性假设的依赖。虽然在某些情况下合适,但这种假设可能不足以准确捕获复合物,通常是非线性的相互作用(10,11)。此外,它们的计算强度构成了挑战,尤其是对于大型数据集。应对这些挑战,最近的进步已转向非线性整合方法(9,10)。均匀的歧管近似和投影(UMAP)是一种降低技术,可以揭示复杂数据集中的基础结构(12)。通过将流形学习与拓扑数据分析相结合,它可以有效地可视化较低空间中的高维数据。UMAP通过有效地从PCA和T-SNE等其他方法中脱颖而出
摘要:在 BCI 领域,人们需要对脑信号进行自省和解释,以提供反馈或指导快速范式原型设计,但由于信号的高噪声水平和维数,自省和解释具有挑战性。深度神经网络通常通过使用投影算法(如均匀流形近似和投影 (UMAP) [1])将其学习到的特征表示转换为二维或三维子空间可视化来进行自省。不幸的是,这些方法的计算成本很高,使实时数据流投影成为一项不简单的任务。在本研究中,我们介绍了一种新的 UMAP 变体,称为近似 UMAP (aUMAP)。它旨在为实时自省生成快速投影。为了研究其对实时投影的适用性,我们将这些方法与标准 UMAP 及其神经网络对应方参数 UMAP [2] 进行了基准测试。我们的结果表明,近似 UMAP 提供的投影可以复制标准 UMAP 的投影空间,同时将投影速度降低一个数量级并保持相同的训练时间。
摘要:基于利用数据可视化技术的先前开发的部分合成数据生成算法,该研究扩展了新型算法以生成完全合成的表格医疗保健数据。在这种增强的形式中,该算法是基于生成对抗网络(GAN)或变分自动编码器(VAE)的常规方法的替代方法。通过迭代应用原始方法,该适应算法采用UMAP(均匀的歧管近似和投影),一种维度降低技术,通过低维聚类来验证生成的样品。这种方法已成功地应用于三个医疗领域:前列腺癌,乳腺癌和心血管疾病。生成的合成数据已被严格评估,以获得保真度和效用。结果表明,基于UMAP的算法在不同情况下优于基于gan和vae的生成方法。在保真度评估中,它在不同属性的真实数据和合成数据的累积分布函数之间达到了较小的最大距离。在实用程序评估中,基于UMAP的合成数据集增强了机器学习模型性能,尤其是在分类任务中。总而言之,此方法代表了一种可实现安全,高质量合成医疗保健数据的强大解决方案,从而有效地解决了数据稀缺挑战。
大多数免疫细胞在TME内获得肿瘤材料。(a)实验设计,以及从B16和B16 ZSG肿瘤分离的CD45+ TIL中ZSG荧光的代表性流式细胞仪分析。(b – d)总CD45+ TIL SCRNA-SEQ数据分析。(b)来自B16 ZSG肿瘤的总计(左),ZSG-(中)和ZSG+(右)TIL的SCRNA-SEQ数据的UMAP可视化。在括号中指示了分析的单细胞的数量。(c)重簇的单核细胞/巨噬细胞的UMAP图。(d)单核细胞(左)和巨噬细胞(中间)签名的UMAP图,在每个群集(右)中具有关键标记基因的重簇的单核细胞/巨噬细胞(右)。信用:免疫学领域(2023)。doi:10.3389/fimmu.2023.1272918
图1:a)在通过流式细胞仪测量的每个天中,不同供体的NK细胞(CD56 +,CD3-)的折叠膨胀。b)在通过流式细胞仪测量的每个天,不同供体的T细胞(CD56 +,CD3 +)的折叠膨胀。c)在通过流式细胞仪测量的每个天,不同供体的T细胞(CD56-,CD3 +)的折叠膨胀。d)在第0-3、3-8和8-15天之间通过流式细胞仪测量的明显生长速率。e)在所有分析的天数中的所有细胞的UMAP投影,每个捐赠者颜色的供体颜色,其中箭头指示的群集C3是唯一基于供体的细胞聚类的区域。f)基于流式细胞仪和转录组注释基于NK细胞的细胞类型测定之间的比较。g)从分析当天着色的每个供体的所有细胞的UMAP投影。h)基于流式细胞仪和转录组注释的T细胞测定细胞类型测定之间的比较。i)在所有分析的天数中所有细胞的UMAP投影,从预测细胞类型的每个供体彩色。
图1 |对发展中的人类新皮层的多摩变调查。a,本研究中使用的样品的描述。b,snmultiome数据的UMAP图,显示了33种细胞类型的分布。c,UMAP图显示了年龄组的分布(左)和区域(右)。d,跨发育阶段和皮质区域的单个细胞类型的比例。条是由细胞类型颜色编码的,其传说可以在面板a中找到。 E,左,单个细胞类型中的签名转录因子(TF)的点。中间,汇总的染色质可及性概况在跨类型的签名TFS启动子上。蓝色箭头代表每个TF的转录起始位点和基因体。正确,跨细胞类型的标志性TF的归一化Chromvar基序活性的热图。
a)综合鼠HFPEF和HFREF(ANGII和MI)成纤维细胞研究的示意图。b+c)综合成纤维细胞的UMAP嵌入,疾病(HF,心力衰竭)与对照(B),研究(C)。d)综合成纤维细胞状态的顶部细胞状态标记表达的概述。e)UMAP嵌入,显示由细胞簇着色的集成的成纤维细胞地图集,即集成的成纤维细胞状态(IFS)。标签指示基于功能表征的可能的成纤维细胞分化。f)基于综合成纤维细胞状态中足迹基因的效果大小(AVG log2折叠变化)的估计途径活动。*后代z得分> 2。g)具有综合成纤维细胞状态标记的细胞外基质基因组的过度代表性分析。使用Benjamini Hochberg校正的超几何测试, *Q <0.05,** Q <0.01,*** q <0.001。
图 3. (A) 小鼠 1 海马的细胞类型识别和 tdTomato 报告基因转录水平 (A) 小鼠 1 的带注释的综合 UMAP 投影显示实验和对照条件下存在 12 种不同的细胞类型。簇 0 和簇 12 被识别为阳性对照成纤维细胞刺突。
b)单细胞转录组分析显示了肠道的不同上皮细胞类型。左图显示了UMAP可视化,其中细胞根据其鉴定的细胞类型对颜色编码。插图图是UMAP簇的覆盖层,其箭头表示单元类型之间的谱系关系。右侧的小提琴图显示了在TCF7L2 WT/WT和TCF7L2 Flox/Flox小鼠之间比较的识别簇中关键谱系标记的差异表达;基因表达水平在y轴上指示。alpi,碱性磷酸酶,肠; ATOH1,Atonal BHLH转录因子1; defa5,防御5; Fabp1,脂肪酸结合蛋白1; GFRA3,GDNF家族受体alpha 3; LGR5,富含亮氨酸的重复G蛋白偶联受体5; MMP7,基质金属肽酶7; MKI67,扩散标记KI-67; MUC2,粘蛋白2; Neurog3,Neurogenin 3; OLFM4,橄榄毒素4; Reg4,重生家庭成员4; SPDEF,SAM指向包含ETS转录因子的域; Spink4,丝氨酸肽酶抑制剂Kazal 4型; TFF3,Trefoil因子3。
Illumina单细胞3'RNA Prep的简单基于涡旋的方法提供了具有成本效益的可扩展性。对于更大的单元格数,请使用较大的体积PIP管。1从数百到数十万个细胞的广泛处理范围从飞行员和低细胞多样性项目到复杂的组织分析,都支持研究应用需求。1当前的套件配置每个样品最多可介绍2000个单元(T2试剂盒),每个样品10,000个单元(T10试剂盒),每个样品20,000个单元格(T20套件)或每个样品100,000个单元格(T100套件)。测定能力增加细胞吞吐量可以更好地揭示稀有细胞类型(图5)。使用96个唯一双重索引,示例多路复用允许用户并行运行许多样本(表2)。(a)冷冻保存的人外周血单核细胞(PBMC)的均匀歧管近似和投影(UMAP),检测到的31,613个细胞和79%的捕获速率,使用Illumina单细胞3ʹRNA RNA PREP T20 KIT。(b)从冷冻组织中的小鼠脑核的UMAP,检测到155,000个核和78%的捕获率,使用Illumina单细胞3ʹRNA Prep T100 kit。