在开发高通量测序仪后,环境原核生物群落通常是通过在16S域上用遗传标记来描述的。然而,由于底漆的选择和读取长度,简短读取测序遇到了系统发育覆盖率和分类分辨率的局限性。在这些关键点上,纳米孔测序(一种适用于长读的元编码的上升技术)被低估了,因为其每读的错误率相对较高。在这里,我们比较了模拟社区中的原核生物群落结构和两个对比的红树林遗址的52个沉积物样本,由16SV4-V5标记上的短读描述(Ca。0.4kpb)通过Illumina测序分析(Miseq,v3),由长读细菌对细菌的描述几乎完整16s(Ca。1.5 kpb)由牛津纳米孔(Minion,R9.2)分析。短读和长阅读从模拟中检索了所有细菌属,尽管两者都显示出与所期待的比例相似的偏差。从沉积物样品中,具有覆盖范围的读数稀有性,在单例过滤后,共同恩赐和Procrustean测试表明,从短读和长长读取的细菌社区结构显着相似,表明位点之间的相当对比度和站点内相干的海岸方向是可比的。在我们的数据集中,分别将84.7和98.8%的短阅读分别分别分配给了相同的物种和属,而不是长阅读所检测到的物种和属。长期16的底漆特异性使其能够检测到309个家庭中的92.2%,而在短16SV4-V5检测到的448属中,有87.7%。长阅读记录了973个未检测到的额外分类单元,其中91.7%被确定为该属等级,其中一些属于11个独家门,尽管仅占长期读数的0.2%。
资格设置和结果 为了在 NGS STARlet 上对 Oxford Nanopore SQK-LSK114-XL V14 V1.0 方法进行生物学验证,对 8 个(4 个阳性样本 + 4 个阴性对照)或 24 个样本(22 个阳性样本 + 2 个阴性对照)进行了生物学运行。作为输入材料,1 μg 全长(48 kB)噬菌体 Lambda DNA 用于 8 个样本的运行。对于 24 个样本的运行,1 μg 剪切(9kB)人类基因组 DNA 作为输入材料。使用 Thermo Fisher Scientific Qubit 4 荧光计和 Quant-iT™ 1X dsDNA 高灵敏度检测试剂盒(Thermo Fisher Scientific,#Q33232)测定从 8 个和 24 个样本的生物学验证运行中获得的文库的 DNA 浓度。平均样品产量为 344.3 ng(+/- 51.5 ng)
资格设置和结果 为了在 NGS STARlet 上对 Oxford Nanopore SQK-LSK114-XL V14 V1.0 方法进行生物学验证,对 8 个(4 个阳性样本 + 4 个阴性对照)或 24 个样本(22 个阳性样本 + 2 个阴性对照)进行了生物学运行。作为输入材料,1 μg 全长(48 kB)噬菌体 Lambda DNA 用于 8 个样本的运行。对于 24 个样本的运行,1 μg 剪切(9kB)人类基因组 DNA 作为输入材料。使用 Thermo Fisher Scientific Qubit 4 荧光计和 Quant-iT™ 1X dsDNA 高灵敏度检测试剂盒(Thermo Fisher Scientific,#Q33232)测定从 8 个和 24 个样本的生物学验证运行中获得的文库的 DNA 浓度。平均样品产量为 344.3 ng(+/- 51.5 ng)
使用不受长度限制的纳米孔读取(从短到超长),现在可以通过简单、简化的工作流程生成高质量的植物基因组组装。长纳米孔读取可以跨越大量重复或高度一致的序列和结构变体,而天然 DNA 测序可以捕获 PCR 无法访问的序列。在同一次测序运行中,还可以检测到表观遗传修饰以及规范碱基序列,从而从单个数据集提供多组学见解。多功能高输出 PromethION 设备使实验室能够扩展测序能力以适应不同规模、样本量和预算的项目,为不同的测序需求提供量身定制的解决方案。
固态纳米孔传感的一个长期未实现的目标是在转位过程中实现 DNA 的平面外电传感和控制,这是实现碱基逐个棘轮的先决条件,从而实现生物纳米孔中的 DNA 测序。二维 (2D) 异质结构能够以原子层精度构建平面外电子器件,是用作电传感膜的理想但尚未探索的候选材料。在这里,我们展示了一种纳米孔架构,使用由 n 型 MoS 2 上的 p 型 WSe 2 组成的垂直 2D 异质结二极管。该二极管表现出由离子势调制的整流层间隧穿电流,而异质结势则相互整流通过纳米孔的离子传输。我们同时使用离子和二极管电流实现了 DNA 转位的检测,并展示了 2.3 倍的静电减慢的转位速度。封装层可实现稳健的操作,同时保留用于传感的原子级锐利 2D 异质界面的空间分辨率。这些结果为单个生物分子的非平面电传感和控制建立了范例。
纳米孔测序是第三代测序技术,具有生成长阅读序列并直接测量DNA/RNA分子的修改,这使其非常适合生物学应用,例如人类端粒对象至tomemere(T2T)基因组组装,Ebola Virus Surveillance和Covid-19 Mrna vaccine vaccine vacine vaccine vacine vaccine vaccine vaccine vacine。但是,纳米孔测序数据分析的各种任务中计算方法的准确性远非令人满意。例如,纳米孔RNA测序的碱基调用精度约为90%,而目标的基础精度约为99.9%。这凸显了机器学习社区的迫切需要。一种阻止机器学习研究人员进入该领域的瓶颈缺乏大型集成基准数据集。为此,我们提出了纳米巴塞利布(Nanobaselib),这是一个综合的多任务台上数据集。它将16个公共数据集与纳米孔数据分析中的四个关键任务进行了超过3000万个读取。为了促进方法开发,我们已经使用统一的工作流进行了预处理所有原始数据,并以统一的格式存储了所有中级结果,分析了针对四个基准测试任务的各种基线方法分析的测试数据集,并开发了一个软件包来轻松访问这些结果。纳米巴斯利布可在https://nanobaselib.github.io上找到。
我们的研究调查了牛津纳米孔技术的有效性,通过重新陈述33个长达3年的克雷伯氏菌肺炎爆发的33个分离株,并以Illumina的短阅读测序数据作为参考点。我们通过对牛津纳米孔技术测序的基因组进行CGMLST和系统发育分析检测到相当大的基本误差,从而导致从暴发群集中错误排除某些与暴发有关的菌株。附近的甲基化位点会导致这些误差,也可以在肺炎K. k. tneumoniae以外的其他物种中找到。基于这些数据,我们探讨了基于PCR的测序和掩盖策略,这些策略既成功解决这些不准确性,又可以确保准确的爆发追踪。我们将掩盖策略作为生物信息学工作流(MPOA),以无参考的方式识别和掩盖有问题的基因组位置。我们的研究强调了使用牛津纳米孔技术对原核生物进行测序的局限性,尤其是用于研究暴发。对于牛津纳米孔技术无法等待进一步的技术发展的时间关键项目,我们的研究建议我们基于PCR的测序或使用我们提供的生物信息学工作流。我们建议在发布结果时应提供基于质量的基因组质量基因组。
对千人基因组计划样本进行高覆盖率纳米孔测序,以建立人类遗传变异的综合目录 作者 Jonas A. Gustafson 1,2,*, Sophia B. Gibson 1,3,*, Nikhita Damaraju 1,4,*, Miranda PG Zalusky 1 , Kendra Hoekzema 3 , David Twesigomwe 5 , Lei Yang 6 , Anthony A. Snead 7 , Phillip A. Richmond 8 , Wouter De Coster 9,10 , Nathan D. Olson 11 , Andrea Guarracino 12,13 , Qiuhui Li 14 , Angela L. Miller 1 , Joy Goffena 1 , Zachary B. Anderson 1 , Sophie HR Storz 1 , Sydney A. Ward 1 , Maisha Sinha 1 , Claudia Gonzaga-Jauregui 15 、Wayne E. Clarke 16,17 、Anna O. Basile 16 、André Corvelo 16 、Catherine Reeves 16 、Adrienne Helland 16 、Rajeeva Lochan Musunuri 16 、Mahler Revsine 14 、Karynne E. Patterson 3 、Cate R. Paschal 18,19 、Christina Zakarian 3 、Sara Goodwin 20 、Tanner D. Jensen 21 、Esther Robb 22 、1000 基因组 ONT 测序联盟、华盛顿大学罕见疾病研究中心 (UW-CRDR)、阐明罕见疾病遗传学的基因组学研究 (GREGoR) 联盟、W. Richard McCombie 20 、Fritz J. Sedlazeck 23,24,25 , Justin M. Zook 11 , Stephen B. Montgomery 21 , Erik Garrison 12 , Mikhail Kolmogorov 26 , Michael C. Schatz 14 , Richard N. McLaughlin Jr. 2,6 , Harriet Dashnow 27,28 , Michael C. Zody 16 , Matt Loose 29 , Miten Jain 30 , Evan E. Eichler 3,31,32 , Danny E. Miller 1,19,31,** 附属机构 1. 美国华盛顿州西雅图华盛顿大学儿科系遗传医学分部 2. 美国华盛顿大学西雅图分子与细胞生物学项目 3. 美国华盛顿大学基因组科学系 4. 美国华盛顿大学西雅图公共卫生遗传学研究所 5. 悉尼南非约翰内斯堡威特沃特斯兰德大学健康科学学院布伦纳分子生物科学研究所 6. 美国华盛顿州西雅图太平洋西北研究所 7. 美国纽约州纽约纽约大学生物系 8. 美国路易斯安那州巴吞鲁日阿拉米亚健康中心 9. 比利时安特卫普 VIB 分子神经病学中心应用和转化神经基因组学组 10. 比利时安特卫普大学生物医学科学系 11. 美国马里兰州盖瑟斯堡国家标准与技术研究所材料测量实验室 12. 美国田纳西州孟菲斯田纳西大学健康科学中心遗传学、基因组学和信息学系 13. 意大利米兰人类科技城 14. 美国马里兰州巴尔的摩约翰霍普金斯大学计算机科学系 15. 国际人类基因组研究实验室人类基因组研究,墨西哥国立自治大学 16. 纽约基因组中心,美国纽约州纽约市 17. Outlier Informatics Inc.,萨斯卡通,萨斯卡通,加拿大 18. 西雅图儿童医院实验室部,西雅图,华盛顿州,美国 19. 检验医学和病理学部,美国华盛顿大学,美国华盛顿州西雅图 20. 冷泉港实验室,美国纽约州冷泉港 21. 斯坦福大学遗传学系,美国加利福尼亚州斯坦福 22. 斯坦福大学计算机科学系,美国加利福尼亚州斯坦福 23. 贝勒医学院人类基因组测序中心,美国德克萨斯州休斯顿
。cc-by 4.0国际许可(未经Peer Review尚未获得认证)是作者/资助者,他已授予Biorxiv的许可证,以永久显示预印本。这是该版本的版权持有人,该版本发布于2024年9月4日。 https://doi.org/10.1101/2024.09.09.03.610948 doi:Biorxiv Preprint
摘要:可以在生成时分析原始纳米孔信号,这是一种称为实时分析的过程。对原始信号的实时分析对于利用纳米孔测序提供的唯一特征至关重要,从而可以根据分析的分析提早停止读取或整个测序运行。最新的机制Rawhash,通过快速匹配其哈希值,提供了原始信号和参考基因组之间的首个基于哈希的有效和准确的相似性识别。在这项工作中,我们介绍了Rawhash2,该Rawhash2对Rawhash提供了重大改进,包括更敏感的量化和链接算法,加权映射决策,频率过滤器,以减少模棱两可的种子命中量,基于哈希的素描的最小化以及对R10.4流元电池版本和POD5和慢速5文件的支持。与Rawhash相比,Rawhash2提供了更好的F1精度(平均为10.57%且最高20.25%)和更好的吞吐量(平均比Rawhash(平均为4.0倍,最高9.9×))。可用性和实现:RAWHASH2可在https://github.com/cmu-safari/rawhash上找到。我们还提供脚本以在GitHub页面上充分复制我们的结果。