本文探讨了编码器和解码器语言模型在词语自然语言理解(NLU)任务上的性能,并广泛着重于语言语言。在扫描基准的基础上构建,最初仅限于评估编码器模型,我们将评估框架扩展到包括解码器模型。我们介绍了一种在NLU任务上进行评估解码器模型的方法,并将其应用于丹麦语,瑞典语,挪威,冰岛,法罗语,德语,德语,荷兰语和英语的语言。通过一系列的演出和分析,我们还解决了有关编码器和解码器模型的比较性能,NLU任务类型的影响以及跨语言资源的变化的问题。我们的发现表明,尽管参数的数量级较少,但编码器模型比解码器模型可以实现明显更好的NLU表现。此外,我们通过UMAP分析研究了解码器与任务性能之间的相关性,从而阐明了解码器和编码器模型的独特功能。本研究有助于更深入地了解NLU任务中的语言模型范例,并为多语言环境中的模型选择和评估提供了有价值的见解。
图1以SCRNA-SEQ为特征的EOAD中ISAG HI T细胞的扩展。(a)来自EOAD病例和认知正常对照的约182,000个PBMC的均匀歧管近似和投影(UMAP)图,并以簇身份有色。主要细胞类型在图中标记。插图(右)显示了以灰色显示的主要T细胞分组,ISAG HI T细胞群集在Magenta中显示。(b)ISAG HI T细胞丰度相对于所有PBMC(左; P = 0.005; P fdr = 0.079),所有T细胞(中间,P = 0.013)和所有CD4 T细胞(右; P = 0.016)进行定量。(c)通过性别分层,ISAG HI T细胞相对丰度在EOAD中仅在女性中显着增加,该女性表示为PBMC的百分比(左,P = 0.006),T细胞(中间,P = 0.01)和CD4 T细胞(右,P = 0.008)。(d)所有T细胞(左)的重簇生成一个T细胞亚集群(11)代表ISAG HI
今年夏天,我曾在卢森堡的生物医学研究组织卢森堡卫生研究院担任生物信息学和数据科学实习生。在医学信息学系的生物信息学和AI团队中,我致力于分析基因型 - 组织表达(GTEX)数据集,并构建一个模型,从组织病理学图像嵌入中预测基因表达。通过主成分分析,T分配的随机邻居嵌入(T-SNE)以及均匀的歧管近似和投影(UMAP),我确定了组织样品之间基因表达和组织病理学图像嵌入特征,从而确定了组织样本之间的差异和相似性。进一步研究了基因表达与图像嵌入之间的关系,我训练并测试了2个具有线性和套索回归的预测模型。结果表明,通过其组织病理学图像嵌入更准确预测的基因在大脑(小脑,皮层)和肌肉(光滑,骨骼,心脏)组织中高度表达。向团队介绍我的工作,我根据收到的建议和评论进一步提高了模型和结论。
摘要。单细胞RNA测序(SCRNA-SEQ)彻底改变了我们在细胞水平上分析基因表达的能力。通过提供每个单个细胞基因表达的数据,SCRNA-SEQ具有数千个基因的大型数据集。但是,处理此类高维数据会由于复杂性的增加而带来计算挑战。维度降低对于SCRNA-SEQ分析至关重要。各种维度还原算法,包括原理成分分析(PCA),统一的歧管近似和投影(UMAP)和T-分配的随机邻居嵌入(T-SNE),通常用于应对这一挑战。这些方法将原始的高维数据转换为较低维的表示,同时保留相关信息。在本文中,我们提出了壮举。我们将其分为多个子空间,而不是将维度降低直接降低到整个数据集。在每个子空间中,我们应用缩小尺寸技术,然后合并减少的数据。featpca提供了四个用于基础的变体。我们的实验结果表明,基于基本的聚类比使用完整数据集的精度更好。在各种SCRNA-SEQ数据集中,featpca始终优于现有状态聚类工具。
开发并测试了一种基于人工智能(AI)的算法,以对犬胸部X光片的不同级别二尖瓣疾病(MMVD)的不同阶段进行分类。从两个不同机构的医疗数据库中选择了X光片,考虑到6岁以上的狗经历了胸部X射线和超声心动图检查。只有X光片清楚地显示出心脏轮廓。卷积神经网络(CNN)均在左右侧面和/或腹侧或腹侧或室内视图上训练。根据美国兽医内科学院(ACVIM)指南将每只狗分类为B1阶段,B2或C +D。RESNET18CNN用作分类网络,并使用混淆矩阵,接收器操作特征曲线以及T-SNE和UMAP预测评估结果。曲线下的面积(AUC)在确定阶段B1,B2和C + D的AUC的MMVD阶段时表现出良好的心脏CNN性能。该算法在预测MMVD阶段的高精度表明,它可以作为解释犬胸部X光片的有用支持工具。
a. 生成药物适应系的实验设计示意图。通过增加药物浓度(从 1 到 320 μM)对 Kuramochi 细胞系进行挑战。标明了具体剂量和治疗持续时间。从代表性显微镜图像(放大 5 倍,比例尺 = 50 μm)显示了细胞形态。b. 适应系的细胞活力显示了 9 天治疗期间对 olaparib 的反应。剂量范围与生成线所用的剂量范围相同。所有数据点均相对于载体处理的对照(针对每个相应的线)进行了标准化,并代表 3 个独立实验(每个实验 6 个技术重复)的平均值及其各自的标准误差线 (sem)。c. 适应细胞系平均转录组之间的 Spearman 相关性。d. 各个系上的 scRNA-seq 数据的 UMAP 表示。颜色和数字表示由 Louvain 聚类确定的亚群。e.根据适应系中 Spearman 等级相关系数对亚群进行聚类。标明了定义的五种主要转录状态。f. 适应系中五种状态下每个群体的细胞频率。图 1e 中显示的亚群聚类结果基于属于特定亚群的细胞分配到各自的状态。
图1基于转录组信息的癌细胞调用。(a)样品的解剖位置和突变模式。c,cecum; a,上升的结肠; D,下结肠; S,Sigmoid; R,直肠。突变(在括号中)A:APC,B:BRAF,C:CTNNB1,K:KRAS,P:TP53。(b)所有73,294个细胞的UMAP,由三种主要细胞类型室染色:上皮(蓝色),免疫(橙色)和基质细胞(绿色)。(c,d,f)仅上皮细胞的umaps。(c)颜色代码按样本原点和微卫星状态。癌症样本(MSI),红色;癌症样本(MSS),黄色;正常样本,灰色。(d)ICMS分配的癌症样品颜色代码; ICMS2(黄色),ICMS3(粉红色)或正常(蓝色),正常样品(未评分,灰色)。(f)癌症样品细胞的颜色代码。拷贝数状态异常(CNA; Orange),正常(CNN; Blue)或不适用(Na; Purple)当样本中的克隆不可分割时,样品(未得分,灰色)。(e,g)分别通过癌症样本分别汇总了ICMS和地震信息。(H)量化ICMS和UnderCNV之间的一致性呼吁,作为一个不适的情节,由患者进行了颜色编码,如所示。
图 1 单细胞测序分析的一般工作流程。(a)通过分离原生质体(小绿圈)将组织或器官解离成单个细胞;(b)将原生质体装入封装单个原生质体(小绿圈)的微流体系统中,其中试剂用于标记具有不同条形码(较大的多色圆圈)的转录本,所述条形码可识别转录本来源的细胞,也可以通过此过程添加其他条形码,例如 UMI;(c)然后汇集带条形码的转录本并使用短读技术进行测序;(d)然后处理测序读取以根据文库制备期间添加的条形码序列将每个转录本分配给来源细胞; (e) 所有细胞的转录组都经过降维(例如 tSNE 或 UMAP),其中具有相似转录组谱的细胞将在二维空间中绘制得更紧密,而具有不太相似转录组的细胞将绘制得更远,并且可以通过算法识别具有相似转录组的细胞簇。在此示例中,图上的每个点代表一个细胞,点的颜色代表该细胞被分配到的簇。(f)细胞簇可以根据已知标记基因的丰度或与已建立细胞类型的转录组的整体相似性被表征为已知细胞类型;如果没有已知标记与观察到的转录组谱相匹配,细胞簇也可以被描述为未知的或新的。在此示例中,重建组织中的细胞被着色以反映图 (e) 中识别的假设转录组簇
在许多应用中,尤其是在生物医学和气候研究中,可访问数据的数量和多样性已经达到了前所未有的水平,提供了一个独特的机会,可以深入了解这些复杂系统。但是,这种数据激增带来了重大挑战。的确,现代数据科学的特征越来越多地是对高维多模式数据集进行的研究,在这些数据集中,每个数据样本的几个特征可能无关紧要(例如,由于腐败或其他特征组合的线性相关性而导致的),或者是在分辨率和收购策略中的多样性策略来构建策略的多样性。例如,最近,艾伦·图灵研究所(Alan Turing Institute)举办了一系列的研讨会,分析了丢失数据的性质,并指出它可以归因于各种现象,包括多模式链接,批处理失败或人口异质性[8]。为了表征和解决现代数据集的挑战,已经开发了各种数据表示,包括低维投影,矩阵分解和图表表示。尤其是,图形嵌入被证明是一个非常强大的工具,可以编码拓扑网络信息,并提供有关基础数据几何形状的见解。由于图可以被视为平滑歧管的离散(零维)对应物,因此可以将图形嵌入被视为降低歧管维度降低的特殊情况,也称为歧管学习。图形嵌入在首先通过学习/构造足够的图表表示,然后将其投影到较低维度的几何空间,通常是歧管,例如欧几里得空间(R n)或超纤维空间。在过去20年中,流形学习取得了重大进步,导致了能够嵌入复杂几何形状和非线性关系的广泛有效方法的发展,尤其是ISOMAP [12],T-SNE [13]和UMAP [7]。最近,出现了新的流形学习策略,该策略并不依赖于数据位于submanifold上的假设,即所谓的“流动假设”,而是通过做出嵌入流层的前提选择来明确地将学习/归纳偏见编纂。这些最新的嵌入旨在匹配成对距离,并且在嵌入式上呈弯曲的曲率与节点的曲率信息匹配。以这种方式,所得的下二歧管嵌入能够总结嵌入式节点的配置以及图结构属性。值得注意的是,它们在多样化的研究领域中得到了相当成功的运用[9、5、14、10、3、4],因为它们使我们能够利用图理论,拓扑数据分析和差异几何形状中的工具来促进各种任务的完成,包括链接预测,网络重构,网络重构和node Clustering [2]。