抽象随机DNA条形码是用于跟踪细胞谱系的多功能工具,其应用从发育到癌症到进化。在这里,我们审查并进行了批判性评估条形码设计以及条形码测序和条形码数据的初始处理方法。我们首先演示各种条形码设计决策如何影响数据质量,并提出一种平衡我们当前知道的所有考虑因素的新设计。然后,我们讨论准备条形码测序文库的各种选择,包括内联指数和唯一的分子标识符(UMIS)。最后,我们测试了几种已建立和新的生物信息学管道的表现,以从原始测序读取和误差校正中提取条形码。我们发现,对齐和基于正则表达式的方法都适合条形码提取,并且专门针对条形码数据设计的错误校正管道优于通用数据。总的来说,这项审查将帮助研究人员以故意和系统的方式进行条形码实验。
QIAseq Targeted DNA Pro Panel 可简化 Sample to Insight® 的 DNA 靶向新一代测序 (NGS)。靶向富集技术增强了 DNA NGS,使用户能够对特定感兴趣区域 (ROI)(而不是整个基因组)进行测序,从而有效提高测序深度和样本通量,同时最大限度地降低成本。QIAseq Targeted DNA Pro Panel 利用高度优化的反应化学,将独特的分子指数 (UMI) 整合到单个基因或 ROI 特定的基于引物的靶向富集过程中,从而克服偏差/伪影。通过在连接和靶向富集步骤后用酶净化代替珠子净化,QIAseq Targeted DNA Pro Panel 可实现更高效、快速、一致且自动化友好的工作流程。
将组织活检基因组分析的结果与补充液体活检数据相结合,可以全面了解肿瘤生物学。Illumina Cell-Free DNA Prep with Enrichment 是一种多功能文库制备试剂盒,可用于从循环无细胞 DNA (cfDNA) 或从 FFPE 组织样本中提取的基因组 DNA (gDNA) 制备可用于测序的文库 (图 1)。该工作流程包括用于纠正错误和减少假阳性的唯一分子标识符 (UMI),从而能够准确、灵敏地检测 FFPE 肿瘤样本中的低频突变。Illumina Cell-Free DNA Prep with Enrichment 与 Illumina 和第三方富集探针或面板兼容,以支持灵活的实验设计。本应用说明展示了 Illumina Cell-Free DNA Prep with Enrichment 在生成高质量 NGS 文库和从 FFPE 样本中鉴定低频体细胞变异方面的优异性能。
在同种异体器官移植受体的同种异体移植监测中,使用供体衍生的无细胞无细胞DNA(DD-CFDNA)在等离子体中的液体活检已成为一种新型方法。尽管对技术进行了早期临床实施和分析验证,但仍缺乏对DD-CFDNA定量方法的直接比较。此外,关于尿液中DD-CFDNA的数据是稀缺的,到目前为止,基于高通量测序的方法尚未利用独特的分子识别剂(UMIS)来实现绝对DDDNNA量化。在肾脏和肝脏受体的尿液和血浆中比较了不同的DD-CFDNA定量方法:a)使用等位基因特异性检测的液滴数字PCR(DDPCR),可检测七个常见的HLA-DRB1等位基因和Y染色体; b)使用定制的QIASEQ DNA面板的高通量测序(HTS),该面板的靶向121个常见多态性; c)商业DD-CFDNA定量方法(Alloseq®CFDNA,Caredx)。dd-cfDNA定量为%dd-cfDNA,用于DDPCR和HTS,并使用UMIS作为供体副本。此外,在临床稳定的受体中比较了尿液和血浆中的相对和绝对DD-CFDNA水平。此处介绍的HTS方法表明,%dd-cfDNA与ddpcr(r 2 = 0.98)和Alloseq®CfDNA(R 2 = 0.99)之间的相关性很强,仅显示最小的比例偏见。绝对DD-CFDNA拷贝也与UMI和DDPCR之间的HTS之间也有很强的相关性(τ= 0.78),尽管具有相当比例的偏置(斜率:0.25; 95%-CI:0.19 - 0.26)。在30个稳定的肾脏移植受者中,尿液中的中值%dd-cfDNA为39.5%(四分位数,IQR:21.8 - 58.5%),含36.6份/μmol尿肌氨酸(IQR:18.4 - 109)和0.19%(IQR:0.01 - 0.01 - 0.01 - 0.01 - 0.01 - 0.01 - 0.01-01): 12.9)在体液之间没有任何相关性的等离子体中。来自八个稳定肝脏受体的血浆中的中位数%DD-CFDNA为2.2%(IQR:0.72 - 4.1%),使用120份/ml(IQR:85.0 - 138),中位DDDNNA拷贝/ml低于0.1,尿液中低于0.1。尿液和等离子体中DD-CFDNA绝对和相对定量的方法的第一个正面比较,支持与方法无关的%DD-CFDNA截止
收到2024年2月2日; 2024年5月7日接受;于2024年6月7日发布:1 Doherty应用微生物基因组学,微生物学和免疫学系,墨尔本大学Peter Doherty感染与免疫学研究所,792 Elizabeth Street,Melbourne VIC 3000,澳大利亚澳大利亚墨尔本街792号; 2爱尔兰科克摩尔帕克的Teagasc食品研究中心; 3爱尔兰科克大学科克大学科克大学科克大学的APC微生物组和微生物学院; 4 Vistamilk SFI研究中心,爱尔兰科克Teagasc Moorepark。*信件:John G. Kenny,John。Kenny@teagasc。IE关键字:Amplicons;数据库;长阅读测序;微生物组;纳米孔; rRNA。缩写:COV,变异系数; ESV,精确的序列变体; Grond,基因组衍生的核糖体操纵子数据库; GTDB,基因组分类数据库; IQR,四分位数范围;它的内部转录垫片; NR,非冗余; ONT,牛津纳米孔技术; RRN,16S-ITS-23S rRNA操纵子; rRNA,核糖体RNA; SD,标准偏差; Taxlca,集群中所有序列的最低祖先; Taxmaj,最低的分类学等级,其中所有序列中的所有序列都具有简单的多数协议; Taxrep,集群代表序列的源基因组分类学; UMIS,唯一的分子标识符。数据语句:文章或通过补充数据文件中提供了所有支持数据,代码和协议。本文的在线版本可以使用两个补充表。001255©2024作者
MGI Tech推出了一系列基于DNBSEQ技术的新NGS设备。对于不同类型的测序文库而言,这些序列据报道这些序列仪的准确性相似或精确度略低。但是,根据T7 Sequencer的情况,它们每天更具成本效益,并且每天达到约6 TB的数据。这些原因为MGI测序仪在基因组学领域中广泛使用铺平了道路,因此鼓励开发可以分析此类数据的软件。MGI序列器输出带有不同读取标题和文件命名的大型FastQ文件,而不是Illumina输出。单端的配对末端或正向读取(R1)的反向读取(R2)的末端是包含样本索引(i7和i5)和唯一分子标识符(UMI)的读取条形码。这些索引用于删除数据,即将读取分配给相应的样本。MGI Tech已将SplitBarcode工具1发布给Demultiplex MGI FastQ。但是,该工具无法识别数据中的UMIS,也没有解决不同标头和文件命名格式的问题,这些格式可以由Illumina基于Illumina的工具所需的问题。此外,它要求用户知道在读取条形码中找到索引的前期,并且不支持同一运行中的多个库。Mgikit用Rust编程语言写。可以在工具网页上获得综合文档和用户指南https:// sagc- bioinformatics.github.io/mgikit/。在此申请注释中,我们提供了一个软件套件的Mgikit,以消除MGI FASTQ数据,检测条形码模板并生成可以通过mgikikit-multiqc插件转换为html报告的反复材料和质量报告工具[1]。
图 1 单细胞测序分析的一般工作流程。(a)通过分离原生质体(小绿圈)将组织或器官解离成单个细胞;(b)将原生质体装入封装单个原生质体(小绿圈)的微流体系统中,其中试剂用于标记具有不同条形码(较大的多色圆圈)的转录本,所述条形码可识别转录本来源的细胞,也可以通过此过程添加其他条形码,例如 UMI;(c)然后汇集带条形码的转录本并使用短读技术进行测序;(d)然后处理测序读取以根据文库制备期间添加的条形码序列将每个转录本分配给来源细胞; (e) 所有细胞的转录组都经过降维(例如 tSNE 或 UMAP),其中具有相似转录组谱的细胞将在二维空间中绘制得更紧密,而具有不太相似转录组的细胞将绘制得更远,并且可以通过算法识别具有相似转录组的细胞簇。在此示例中,图上的每个点代表一个细胞,点的颜色代表该细胞被分配到的簇。(f)细胞簇可以根据已知标记基因的丰度或与已建立细胞类型的转录组的整体相似性被表征为已知细胞类型;如果没有已知标记与观察到的转录组谱相匹配,细胞簇也可以被描述为未知的或新的。在此示例中,重建组织中的细胞被着色以反映图 (e) 中识别的假设转录组簇
摘要:精准医疗需要准确的多基因临床诊断。在目前的临床实践中,靶向新一代测序 (NGS) 对手术标本变异调用的最低置信阈值设定为 2%-5%。然而,很少有研究使用基于捕获的超深度靶向测序来识别广泛的可操作变异,其检测限 (LOD) 为 1%。对 372 例来自未经治疗的原发性肺腺癌患者的手术标本进行了 AmoyDx® Essential NGS 面板的基于捕获的超深度靶向测序(带 UMI 的双索引测序接头),以检测与每位患者相关的可操作的体细胞驱动突变。报告了单核苷酸变异、插入/缺失事件和重排。进行了扩增-阻滞突变系统 (ARMS) 检测和荧光原位杂交 (FISH) 以验证 EGFR 和 ALK、ROS1 和 RET 融合中的热点突变。在可测序的非同义变异中,80.5% (352/437) 的样本被鉴定为可操作变异,最常见的是 EGFR 突变 (59.7%, 261/437),其次是 KRAS 突变 (5.5%, 24/437)、PIK3CA 突变 (3.7%, 16/437)、ALK 重排 (3.4%, 15/437)、BRAF 突变 (2.7%, 12/437)、ERBB2 突变 (2.5%, 11/437) 和 RET 重排 (2.3%, 10/437)。共计 7.2% (28/372) 的样本具有多个可操作突变。在 93 例未发生 EGFR、KRAS 或 BRAF 突变的三阴性病例中,26 例(28%)检测到基因融合。在 328 份样本中,318 份样本(97.0%)的 EGFR ARMS 检测结果与 NGS 一致,32 份样本中,30 份样本(93.8%)的 ALK/ROS1/RET 融合基因 ARMS/FISH 检测结果与 NGS 一致。在这里,我们证明了基于捕获的超深度靶向测序方法(其 LOD 为 1%)可以分析初治肺腺癌患者手术标本中多种可操作变异,这突出了初治患者进行基因组分析的必要性。
轮换项目名称 使用 100 万个可诱导 DNA 条形码进行原位谱系追踪实验室主任 (PI) 姓名 Jamie Blundell 第二位指导老师(如适用) N/A 项目早期检测指导老师电子邮件 jrb75@cam.ac.uk 实验室位置 哈奇森 MRC 研究中心项目概要目的和目标维持血液、皮肤、肠道和其他组织的干细胞处于不断更新的状态,从而积累基因改变,其中一些导致克隆扩增和癌症 [1]。理解这一点需要能够测量组织维持期间发生的群体动态。在此,我们建议构建一个原位谱系追踪工具,该工具可以诱导生成数百万个 DNA 条形码组合,从而允许人们使用下一代测序以精确度并行追踪数百万个细胞谱系。与以前的半定量方法 [2] 不同,这项技术将能够定量追踪与体内组织维持相关的克隆动态,并深入了解如何实现体内平衡以及它在癌症早期阶段如何崩溃。我们之前在酿酒酵母中的工作已经证明,基于 cre-lox 系统的位点特异性 DNA 条形码和谱系动态的定量追踪可用于深入了解突变如何在大量细胞群体中产生、扩展和竞争 [3]。我们与长期合作伙伴 Sasha Levy 进一步开发了这项技术,现在可以原位生成条形码多样性,而无需转化质粒文库。这项改进的技术将利用 3 个串联 loxP“着陆垫”,每个“着陆垫”(在 Cre 诱导后)可以不可逆地整合存储在基因组其他地方的三个独立串联阵列中的约 100 个独特条形码序列中的一个。对于这个 MRes 轮换项目,我们计划扩大这项技术的规模,以在酵母中稳健地生成 100 万个独特的条形码组合。这将证明该技术能够以单细胞精度追踪体内细胞谱系,从而为干细胞生物学和癌症发病中的主要未解问题提供参考。实验计划 学生将首先构建由 loxP 位点分隔的约 100 个条形码组成的长串联阵列构建体,并使用标准同源重组将此构建体整合到已包含 cre-lox 着陆垫的酵母菌株的基因组中。然后,学生将研究此构建体可诱导的条形码多样性如何取决于串联阵列的诱导条件和基因组位置。优化后,学生将整合另外两个串联阵列,并尝试实现超过 100 万个独特条形码的多样性,将使用定制设计的 2 步 PCR 协议进行仔细量化,该协议使用唯一分子标识符 (UMI) 来标记单个 DNA 分子。