在病原体种群中观察到的序列变化可用于重要的公共卫生和进化性大量分析,尤其是爆发分析和传播重建。识别这种变异通常是通过对齐序列读取到参考基因组而实现的,但是这种方法易于参考偏见,并且需要仔细滤过所谓的基因型。需要工具可以处理越来越多的细菌基因组数据,从而取得了快速的结果,但这仍然很简单,因此可以在没有训练有素的生物信息学者,昂贵的数据分析以及大型文件的长期存储和处理的情况下使用它们。在这里,我们描述了拆分k-mer分析(SKA2),该方法支持了无参考和基于参考的映射,以快速,准确地绘制了细菌的测序读取或基因组组件的基因型群体。ska2对于紧密相关的样品非常准确,在爆发模拟中,与基于参考的方法相比,我们显示出优异的变体回忆,没有误报。SKA2还可以准确地将变体映射到参考,并与重组检测方法一起使用以快速重建垂直进化史。ska2比可比方法快很多倍,可用于将新基因组添加到一个外呼叫集中,从而允许连续使用而无需重新分析整个集合。由于固有缺乏参考偏差,高精度和强大的实现,SKA2具有成为基因分型细胞体首选工具的潜力。SKA2在Rust中实现,可以作为开源软件免费提供。
摘要。生存分析对于乳腺癌治疗中的临床决策和预后至关重要。最近的多模式方法利用组织病理学图像和大量RNA-Seq来提高生存预测性能,但是这些方法无法在细胞水平上探索空间分离。在这项工作中,我们提出了一个多模式超图神经网络,用于生存分析(MHNN-SURV),该神经网络涉及空间转录组预测的预训练模型。该方法的特征是完全使用组织病理学图像来揭示形态学和遗传信息,从而改善了异质性的解释。具体来说,MHNN-SURV首先将全片成像(WSI)切成斑块图像,然后分别提取图像特征并分别预测空间转录组。sub-sub-因此,基于图像的超图是基于三维最近的邻于关系构建的,而基于基因的超图是基于基因表达相似性而形成的。通过融合双重超图,MHNN-SURV使用COX比例危害模型对乳腺癌进行了深入的生存分析。实验结果表明,在生存分析中,MHNN-SURV优于最先进的多模式模型。
丙戊酸治疗是由16岁的儿童神经病学专家开始的。尽管在随访中缺乏癫痫发作重复,但由于脑电图评估中癫痫发射的延续,丙戊酸处理仍继续进行。在过去的5年中,10 mg/kg/day剂量(过去两年)使用了500 mg/天丙戊酸钠的患者,一周前在睾丸中突然始于几天内两条腿的肿胀。疼痛,发红,温度伴随肿胀没有增加。没有火灾和泌尿系统投诉。没有感染的故事。步行很困难,疲劳,腿部寒冷,苍白没有带来。以前从未有过类似的投诉。家庭中没有已知的肾脏或肝病。
样本反卷积方法可估计大量组织样本中的细胞类型比例和基因表达,但它们的性能和生物学应用仍未被探索,特别是在人脑转录组数据中。在这里,使用来自大量组织 RNA 测序 (RNA-seq)、单细胞/细胞核 (sc/sn) RNA-seq 和免疫组织化学的样本匹配数据评估了九种反卷积方法。使用了来自 149 个成人死后大脑和 72 个类器官样本的每个细胞总共 1,130,767 个细胞核。结果显示,dtangle 在估计细胞比例方面表现最佳,而 bMIND 在估计样本细胞类型基因表达方面表现最佳。对于八种脑细胞类型,通过反卷积表达 (decon-eQTL) 鉴定了 25,273 个细胞类型 eQTL。结果表明,decon-eQTL 比单独的块组织或单细胞 eQTL 更能解释精神分裂症 GWAS 遗传性。还使用解卷积数据检查了与阿尔茨海默病、精神分裂症和大脑发育相关的差异基因表达。我们的研究结果在块组织和单细胞数据中得到复制,为解卷积数据在多种脑部疾病中的生物学应用提供了见解。
摘要背景:由于大多数病毒仍然未经培养,宏基因组学目前是病毒发现的主要方法。在宏基因组数据中检测病毒并不是琐碎的。在过去的几年中,为此任务开发了许多生物信息学识别工具,因此选择正确的工具,参数和截止值使其具有挑战性。由于所有这些工具都测量了不同的生物信号,并使用不同的算法以及培训和参考数据库,因此必须进行独立的基准测试以为用户提供客观的指导。结果:我们比较了从三个不同的生物群落中的八个配对病毒和微生物数据集中进行13个模式中的九种最先进的病毒识别工具的性能,包括来自南极沿海水域的新复杂数据集。工具具有高度可变的真实正率(0-97%)和假正率(0-30%)。ppr-meta最好将病毒与微生物重叠群区分开,然后是DeepVirfinder,virSorter2和充满活力的。不同的工具确定基准数据和所有工具的不同子集,除了Sourmash,还可以找到独特的病毒重叠群。使用调整后的参数截止进行了改进的工具性能,表明应考虑使用使用之前的参数截止。结论:我们独立的基准分析有助于选择生物信息学病毒识别工具的选择,并为病毒学研究人员的参数调整提供建议。
数据生命周期 数据生命周期是指数据使用的不同阶段,包括收集、生成、存储、使用、共享、访问以及随后的删除或归档。该术语旨在反映数据可以在数据来源个人的生命周期之外使用,并且这些原则适用于整个数据生命周期的数据使用,而不仅仅是个人的生命周期。38
图 1:估计开放存储库中未知数量的“缺失”数据集。美国和加拿大最近发布的两个哺乳动物、鸟类、爬行动物和两栖动物宏观遗传数据库中重叠数据集的空间分布 (a) 和比例 (b):1) MACROPOPGEN 17,由从已发表文章中提取的地理参考微卫星得出的汇总统计数据组成;2) SDbG 18–20 由直接从开放存储库中提取的原始微卫星基因型数据集组成。经过交叉检查,只有 21.38% 的数据条目在两个数据库中都找到了(黑点),而 59.5% 的数据条目仅在 MACROPOPGEN 中找到(蓝点)。低重叠率表明 MACROPOPGEN 中包含的大部分遗传研究没有可查找的公开存档数据和/或足够的元数据,因此无法在 SDbG 中使用。
在不同时间点上单细胞基因表达的测量可以研究细胞降低。然而,由于与单细胞实验相关的资源限制和技术挑战,研究人员只能在离散和稀疏采样的时间点上介绍基因表达。此缺失的时间点信息阻碍了下游细胞发育分析。我们提出了SCNode,这是一个端到端的深度学习模型,可以在未观察到的时间点上在硅单细胞基因表达中进行预测。scnode将变异自动编码器(VAE)与神经常规微分方程(ODE)集成在一起,以使用连续和非线性潜在空间预测基因表达。重要的是,我们结合了一个动态正规化项,以学习一个潜在空间,该空间在预测未观察到的时间点上的单细胞基因表达时具有稳健的分布变化。我们对三个现实世界scrna-seq数据集的评估表明,SCNODE比最新方法具有更高的预测性能。我们进一步证明,SCNODE的预测有助于在缺失的时间点范式下的细胞轨迹推断和学习的潜在空间在沿发育细胞路径的相关基因的硅扰动分析中有用。数据和代码可在https://github.com/rsinghlab/scnode上公开获得。
除了上述必要的课程外,学生还将选择6个选修课来满足其集中要求。请注意,并非每年都提供所有选修课程。学生必须在第一年的5月15日之前宣布自己的注意力,并将在第二年开始选修。
midasim 0.5793 0.8617 0.6252 0.0019 <0。0001 <0。0001 Midasim(参数)0.0058 0.0010 0.0495 0.1607 <0。0001 <0。0001 D-M <0。0001 <0。0001 0.0028 <0。0001 <0。0001 <0。0001 MESASPARSIM <0。0001 <0。0001 0.6341 <0。0001 <0。0001 <0。0001 sparsedossa <0。0001 <0。0001 <0。0001 <0。0001 0.0002 0.0015 ∗β多样性比较使用Permanova进行。∗ *α多样性比较是使用t检验和kolmogorov-smirnov(KS)测试进行的。
