高质量的参考基因组和注释对于表征基因组的结构和功能变异以及探索促进现代分子育种的重要性状机制至关重要。随着单分子长读测序技术的开发和不断改进,我们现在可以组装高精度的端粒到端粒 (T2T) 基因组。从头基因组组装时代始于桑格测序,而第一个组装的真核基因组是 1996 年的酿酒酵母 (Dujon, 1996 )。随后,许多其他物种的基因组被组装起来,包括水稻(Goff 等人,2002 年)、玉米(Schnable 等人,2009 年)、拟南芥(拟南芥基因组计划,2000 年)和人类(Venter 等人,2001 年)。下一代测序的后续进展进一步改善了植物基因组组装,但它们仍然在伪分子中表现出数千个缺口,这主要是由于重复序列的普遍性和读取长度的限制(75-300 bp)(Belser 等人,2021 年;陈等人,2023 年)。
1。冯等人。2022。高保真长读的元基因组组装,用hifiasm-meta读取。自然方法,19:671–674。2。Benoit等。2024。使用MetAMDBG的长期准确读取的高质量元基因组组件。 自然生物技术,https://doi.org/10.1038/s41587-023-01983-6 3。 Chklovski等。 2023。 checkm2:一种使用机器学习评估微生物基因组质量的快速,可扩展和准确的工具。 Biorxiv,https://doi.org/10.1101/2022.07.11.499243 4。 Kang等。 2019。 metabat 2:一种自适应分解算法,用于元基因组组件的稳健有效基因组重建。 peerj,7:e7359。 5。 Pan等。 2023。 semibin2:自我监督的对比学习可以为短而长阅读的测序提供更好的磁磁。 生物信息学,39:I21 – I29。 6。 Sieber等。 2018。 通过消除,聚合和评分策略从宏基因组中恢复基因组。 自然微生物学,3:836–843。 7。 Chaumeil等。 2019。 GTDB-TK:一种将基因组与基因组分类学数据库进行分类的工具包。 生物信息学,35:1925-1927。使用MetAMDBG的长期准确读取的高质量元基因组组件。自然生物技术,https://doi.org/10.1038/s41587-023-01983-6 3。Chklovski等。2023。checkm2:一种使用机器学习评估微生物基因组质量的快速,可扩展和准确的工具。Biorxiv,https://doi.org/10.1101/2022.07.11.499243 4。Kang等。 2019。 metabat 2:一种自适应分解算法,用于元基因组组件的稳健有效基因组重建。 peerj,7:e7359。 5。 Pan等。 2023。 semibin2:自我监督的对比学习可以为短而长阅读的测序提供更好的磁磁。 生物信息学,39:I21 – I29。 6。 Sieber等。 2018。 通过消除,聚合和评分策略从宏基因组中恢复基因组。 自然微生物学,3:836–843。 7。 Chaumeil等。 2019。 GTDB-TK:一种将基因组与基因组分类学数据库进行分类的工具包。 生物信息学,35:1925-1927。Kang等。2019。metabat 2:一种自适应分解算法,用于元基因组组件的稳健有效基因组重建。peerj,7:e7359。5。Pan等。2023。semibin2:自我监督的对比学习可以为短而长阅读的测序提供更好的磁磁。生物信息学,39:I21 – I29。6。Sieber等。 2018。 通过消除,聚合和评分策略从宏基因组中恢复基因组。 自然微生物学,3:836–843。 7。 Chaumeil等。 2019。 GTDB-TK:一种将基因组与基因组分类学数据库进行分类的工具包。 生物信息学,35:1925-1927。Sieber等。2018。通过消除,聚合和评分策略从宏基因组中恢复基因组。自然微生物学,3:836–843。7。Chaumeil等。 2019。 GTDB-TK:一种将基因组与基因组分类学数据库进行分类的工具包。 生物信息学,35:1925-1927。Chaumeil等。2019。GTDB-TK:一种将基因组与基因组分类学数据库进行分类的工具包。生物信息学,35:1925-1927。
摘要 衰老会破坏 DNA 修复和表观遗传控制等细胞过程,导致基因组改变的逐渐积累,从而对有丝分裂后细胞产生有害影响。基因组中富含重复序列的区域的基因组变异通常被称为“暗位点”,使用传统测序方法很难解决。新的长读技术为探索以前无法访问的基因组区域提供了有希望的途径。使用基于纳米孔的长读全基因组测序从 18 岁人类大脑中提取的 DNA,我们确定了重复 DNA 中以前未报告的结构变异和甲基化模式,重点关注转座因子(“跳跃基因”)作为变异的关键来源,特别是在暗位点中。我们的分析揭示了潜在的体细胞插入变异,并为许多逆转录转座子家族提供了 DNA 甲基化频率。我们进一步展示了该技术在研究阿尔茨海默病患者大脑中这些具有挑战性的基因组区域方面的实用性,并确定了病理正常大脑与阿尔茨海默病患者大脑中 DNA 甲基化的显著差异。为了突出这种方法的强大功能,我们发现了具有改变的 DNA 甲基化模式的特定多态性逆转录转座子。这些逆转录转座子位点有可能导致病理学,值得在阿尔茨海默病研究中进一步研究。总之,我们的研究首次基于长读 DNA 测序分析了阿尔茨海默病神经病理学中衰老大脑的逆转录转座子序列、结构变异和 DNA 甲基化。
1 比利时布鲁塞尔 Sciensano 应用基因组学横向活动,2 英国威布里奇动植物健康局细菌学系,3 德国柏林联邦风险评估研究所生物安全系,4 丹麦哥本哈根 Statens 血清研究所细菌参考中心,5 丹麦技术大学国家食品研究所,孔恩斯灵比,6 意大利罗马高级卫生研究所食品安全、营养和兽医公共卫生系,7 西班牙马德里康普顿斯大学动物健康系,8 荷兰莱利斯塔德瓦赫宁根大学与研究中心瓦赫宁根生物兽医研究分部,9 意大利泰拉莫阿布鲁佐和莫利塞“G. Caporale”动物研究研究所
NGS库准备期间的传统测量包括在特定尺寸范围内确定样品质量。该分析很容易用安捷伦自动电泳仪器进行,该仪器以数字凝胶图像和电图图的形式提供视觉结果。电文件图显示荧光信号作为图形表示,X轴上的大小和Y轴上的相对荧光单元(RFU)。因此,荧光信号的高度与给定尺寸的样品质量成正比。虽然该表示形式已被广泛用于剪切GDNA和最终NGS库的质量控制,但检查样品的摩尔性可能会提供更好的视觉表示,以显示样品可以产生的测序读数数量,尤其是用于长阅读测序。高分子重量样品。优势允许用户通过将Y轴从RFU切换到Nmole/L来可视化电处理图像作为质量或摩尔度的产物。通过可视化摩尔数中的数据并使用涂片分析,可以使用FEM脉冲来确定不同尺寸括号内发现的样品的摩尔数,并提供更好的长阅读测序读取长度的预测。
摘要:融合基因是癌症治疗的重要靶点和生物标志物,临床需要准确检测融合基因的方法。RNA-seq被广泛用于检测活性融合基因。长读RNA-seq可以对mRNA全长进行测序,有望检测出短读RNA-seq无法检测到的融合基因。然而,长读RNA-seq的碱基调用错误率较高,在与基因组不一致的长读的断点附近可能会出现间隙序列。当出现间隙序列时,现有方法无法识别正确的融合基因或断点。为了解决融合基因检测中的这些挑战,我们引入了一种新算法FUGAREC(带间隙重新对齐和断点聚类的融合检测)。FUGAREC独特地将间隙序列重新对齐与断点聚类结合在一起。这种方法不仅增强了对以前无法检测到的融合基因的检测,而且显著降低了假阳性。我们证明 FUGAREC 在乳腺癌细胞系的模拟数据和测序数据上都具有很高的融合基因检测性能。
使用长读数据获得的高质量基因组不仅可以更好地了解杂合性水平、重复内容以及与使用短读技术获得的基因组相比更准确的基因注释和预测,而且还可以帮助了解单倍型分化。近年来,长读测序技术的进步使得为非模式生物生成此类高质量组装成为可能。这使我们能够重新审视基因组,而使用前几代数据和组装软件将其组装到染色体规模上一直存在问题。线虫是后生动物中种类最多、种类最多的动物门之一,但对其研究仍然很少,许多以前组装的基因组都是碎片化的。使用 Nanopore R10.4.1 和 PacBio HiFi 获得的长读长,我们生成了 Mermithidae 科二倍体线虫的高度连续组装体,目前尚未获得该科的密切相关基因组,以及 Panagrolaimidae 科三倍体线虫的折叠组装体和分阶段组装体。这两个基因组之前都已分析过,但碎片组装体的支架大小与组装前的长读长长度相当。我们的新组装体说明了长读长技术如何更好地表示物种基因组。我们现在能够根据更完整的基因和转座因子预测进行更准确的下游分析。
。CC-BY-NC-ND 4.0 国际许可证永久有效。它是在预印本(未经同行评审认证)下提供的,作者/资助者已授予 bioRxiv 许可,可以在该版本中显示预印本。版权持有者于 2023 年 11 月 21 日发布了此版本。;https://doi.org/10.1101/2023.11.15.567180 doi:bioRxiv 预印本
DNA甲基化是最丰富,最广泛研究的表观遗传修饰之一,在各种生物学过程中起着至关重要的作用,例如发育,癌症,衰老和复杂疾病。在癌症基因组图集(TCGA)等大型队列研究中,Illumina阵列已被广泛用作高通量筛查的经典平台。但是,这种类型的阵列覆盖了人类基因组中的CpG位点的3%。最新一代的DNA测序技术以PACBIO HIFI系统为例,具有产生长序列读数的独特能力,最高为25千碱基。太平洋生物科学(PACBIO)的最新进步致力于提高每碱基准确性和检测DNA修饰的能力。在这项研究中,我们使用DNA甲基化标准评估了PACBIO HIFI测序的性能。由人DNA在CpG部位酶甲基化的DNA标准和未甲基化的人DNA源自HCT116 DKO细胞系。1 ug。样品被测序为约8倍覆盖范围。DNA甲基化数据,并使用PB-CPG-Tools从BAM文件中提取甲基化值。然后,我们比较了从PACBIO HIFI测序获得的结果与由史诗阵列和整个基因组亚硫酸盐测序(WGB)产生的结果。我们发现WGB和PACBIO HIFI天然DNA甲基化调用表现出很高的一致性,表现优于史诗般的阵列,这两种史诗阵列都与甲基化标准和报道的CPG数量一致。使用甲基化的标准样品,HIFI数据报告约有85%的CpG位点的甲基化比大于90%,平均基因组宽93%。同样,WGBS数据显示了约85%的CpG位点的甲基化比大于90%,平均基因组宽95%。相比之下,Epic阵列仅报告40%的CpG位点的甲基化比大于90%,而整个基因组中平均为87%。这些结果表明,HIFI长读取测序可以准确检测到接近100%甲基化的区域的DNA甲基化信号。我们的研究提供了对检测DNA甲基化模式的PACBIO HIFI测序表现的见解及其作为史诗阵列的替代方案的潜力。这项研究的发现说明了如何将DNA甲基化标准用作评估DNA甲基化调用模型的基础真实参考。