摘要背景:由于大多数病毒仍然未经培养,宏基因组学目前是病毒发现的主要方法。在宏基因组数据中检测病毒并不是琐碎的。在过去的几年中,为此任务开发了许多生物信息学识别工具,因此选择正确的工具,参数和截止值使其具有挑战性。由于所有这些工具都测量了不同的生物信号,并使用不同的算法以及培训和参考数据库,因此必须进行独立的基准测试以为用户提供客观的指导。结果:我们比较了从三个不同的生物群落中的八个配对病毒和微生物数据集中进行13个模式中的九种最先进的病毒识别工具的性能,包括来自南极沿海水域的新复杂数据集。工具具有高度可变的真实正率(0-97%)和假正率(0-30%)。ppr-meta最好将病毒与微生物重叠群区分开,然后是DeepVirfinder,virSorter2和充满活力的。不同的工具确定基准数据和所有工具的不同子集,除了Sourmash,还可以找到独特的病毒重叠群。使用调整后的参数截止进行了改进的工具性能,表明应考虑使用使用之前的参数截止。结论:我们独立的基准分析有助于选择生物信息学病毒识别工具的选择,并为病毒学研究人员的参数调整提供建议。
硬骨鱼类是研究性染色体和性别决定 (SD) 基因的重要模型,因为它们呈现出多种性别决定系统。在这里,我们使用 Nanopore 和 Hi-C 技术对 YY 南方鲶鱼 (Silurus meridionalis) 进行高连续性染色体水平基因组组装。组装长 750.0 Mb,其中重叠群 N50 为 15.96 Mb,支架 N50 为 27.22 Mb。我们还测序并组装了一个 XY 雄性基因组,其大小为 727.2 Mb,重叠群 N50 为 13.69 Mb。通过与我们之前组装的 XX 个体进行比较,我们确定了一个候选 SD 基因。通过对雄性和雌性池进行重新测序,我们在 Chr24 上鉴定了一个 2.38 Mb 的性别决定区 (SDR)。读取覆盖度分析和 X 和 Y 染色体序列比较表明,SDR 中有一个 Y 特异性插入(约 500 kb),其中包含 amhr2 的雄性特异性重复(名为 amhr2y)。amhr2y 和 amhr2 在编码区具有相同的核苷酸同一性(81.0%),但在启动子和内含子区域具有相同的核苷酸同一性,但较低。在雄性性腺原基中的独家表达和诱导雄性到雌性性别逆转的功能丧失证实了 amhr2y 在雄性性别决定中的作用。我们的研究为鱼类中 amhr2 作为 SD 基因提供了一个新的实例,并揭示了不同鱼类谱系中性别决定进化背后的 AMH/AMHR2 通路成员重复的趋同进化。
动基体是单细胞鞭毛虫,其名称来源于“动基体”,这是单个线粒体内的一个区域,其中包含高 DNA 含量的细胞器基因组,称为动基体 (k) DNA。这种线粒体基因组的一些蛋白质产物被编码为隐基因;它们的转录本需要编辑才能生成开放阅读框。这是通过 RNA 编辑实现的,其中小调控向导 (g)RNA 指导在特定转录本区域内的每个编辑位点正确插入和删除一个或多个尿苷。很难准确了解动基体中 kDNA 的扩展及其独特的尿苷插入/删除编辑的进化。在这里,我们解析了早期分支动基体锥虫中的 kDNA 结构和编辑模式,并将它们与研究较为深入的锥虫进行比较。我们发现它的 kDNA 由约 42 kb 的环状分子组成,这些分子包含 rRNA 和蛋白质编码基因,以及 17 个不同的约 70 kb 的重叠群,每个重叠群平均携带 23 个假定的 gRNA 位点。这些重叠群可能是线性分子,因为它们包含重复的末端。我们的分析发现了一个具有独特长度和序列参数的假定 gRNA 群体,相对于这种寄生虫的编辑需求而言,这个群体是巨大的。我们验证或确定了四个编辑的 mRNA 的序列身份,包括一个编码 ATP 合酶 6 的 mRNA,该 mRNA 之前被认为缺失。我们利用计算方法表明,T. borreli 转录组包含大量具有不一致编辑模式的转录本,显然是非规范编辑的产物。与其他研究的动基体相比,该物种利用了最广泛的尿苷缺失来加强隐基因产物的氨基酸保守性,尽管插入仍然更频繁。最后,在三个经过测试的动质体线粒体转录组中,原始线粒体读段中尿苷缺失比与完全编辑的、具有翻译能力的 mRNA 对齐更常见。我们得出结论,kDNA 在已知动质体中的组织代表了编码 mRNA 和 rRNA 的环状分子的分区编码和重复区域的变异,而 gRNA 基因座位于高度不稳定的分子群中,这些分子在不同菌株之间的相对丰度存在差异。同样,虽然所有动质体都具有保守的机制来执行尿苷插入/缺失类型的 RNA 编辑,但其输出参数是物种特异性的。2022 作者。由 Elsevier BV 代表计算和结构生物技术研究网络出版。这是一篇根据 CC BY-NC-ND 许可协议 ( http://creative-commons.org/licenses/by-nc-nd/4.0/ ) 开放获取的文章。
基因组基础模型具有精确医学,药物发现和理解复杂生物系统的变革潜力。然而,现有模型通常效率低下,受到次优的令牌化和建筑设计的约束,并偏向参考基因组,限制了它们在稀有生物圈中对低丰度,未培养的微生物的表示。为了应对这些挑战,我们开发了Genomeocean,这是一个40亿参数的基因组基础模型,该模型对超过600 GBP的高质量重叠群进行了训练,这些基础是从地球生态系统中各种栖息地收集的220 TB元基因组数据集的高质量重叠群。基因瘤的一项关键创新是直接对元基因组样品的大规模共组合进行培训,从而增强了稀有微生物物种的表示,并提高了以基因组为中心方法的概括性。我们实施了基因组序列产生的字节对编码(BPE)代币化策略,以及建筑优化,实现高达150倍的更快序列产生,同时保持高生物学保真度。Genomeocean在代表微生物物种和产生受进化原理约束的蛋白质编码基因方面表现出色。此外,其微调模型还展示了在天然基因组中发现新型生物合成基因簇(BGC)的能力,并执行生物化学上完全合理的完整BGC的零拍合成。Genomeocean为元基因组研究,自然产品发现和合成生物学设定了一个新的基准,为这些领域提供了强大的基础。
patella caerulea(Linnaeus,1758)是胃足类的软体动物。地中海流行,它被认为是基石物种,因为它在结构和调节潮汐和潮汐栖息地的生态平衡中的主要作用。目前,它被用作评估沿海海水的环境质量的生物指导者,并用作了解适应海洋酸化的模型物种。在这里,我们为闭藻提供了高质量的参考基因组组装和注释。我们从一个个体中生成了约30 GB的太平洋生物科学高保真数据,并提供了最终的749.8 MB组件,其中包含62个重叠群,包括线粒体基因组(14,938 bp)。n50为48.8 MB,其中98%的组装中包含在18个最大的重叠群中,该组件靠近染色体规模。基准的通用单拷贝直系同源物分数很高(Mollusca,87.8%完成; Metazoa,97.2%完成),与其他染色体级the骨基因组观察到的指标相似,突出了Mollusca数据库中可能的偏差。,我们从相同位置收集的第二个人产生了转录组光照明数据,并将其与蛋白质证据一起注释基因组。总共发现了23,938个蛋白质编码基因模型。通过将该注释与其他已发表的patella注释进行比较,我们发现,尽管方法不同,但外显子和基因长度的分布和中位数与其他patella物种相媲美。目前可在GenBank上获得的高质量P. caerulea参考基因组(Bioproject:PRJNA1045377;组装:GCA_036850965.1),是未来生态和进化研究的重要资源。
此外,传统测序技术依赖于通过PCR扩增的,从而消除了诸如甲基化的基础修饰,这意味着如果没有额外的时间消耗且经常效率低下的样品处理方法22。不需要纳米孔测序,不需要PCR,可以保留并直接测序碱基的修改。基础修饰检测不仅提供了更大的基因组表征深度,而且还可以用于支持元基因组重叠式嵌合,移动遗传元件与其宿主基因组的关联以及识别错误的元原核重叠群的鉴定23。元基因组数据的应变特异性甲基化模式可以进一步支持复杂微生物基因组的分辨率。
方法,将来自摩洛哥栽培树的单叶用于本研究。DNA提取。根据制造商的说明,使用Illumina Truseq套件构建了配对的测序库。该库是在配对端,2×150bp格式的Illumina Hi-Seq平台上进行排序的。用三件v0.33(Bolger,Lohse和Usadel 2014)修剪了所得FASTQ文件的适配器/引物序列和低质量区域。修剪序列由黑桃v2.5组装(Bankevich等人2012)随后使用Zanfona V1.0(Kieras 2021)进行完成步骤,以基于相关物种中保守的区域加入附加的重叠群。
Justicia Beddomei(C.B.clarke)Bennet已在传统的医疗系统中使用了多年。这项研究旨在促进J. Beddomei的识别(C.B.clarke)使用TRNH - PSBA DNA条形码区域,NCBI数据库以及植物部分的药物认知特征。基因组DNA,并进行了聚合酶链反应放大,并进行了DNA序列测定。使用相似性基本搜索方法BLASTN分析重叠群DNA序列319 bp。TRNH - 319 bp重叠群序列的PSBA条形码区域与J. Beddomei的标准序列100%相似,登录号MK347214.1来自NCBI数据库。 植物不同部分的微观研究有助于J. Beddomei与其形态相似和令人困惑的植物Justicia adhatoda L. justicia Beddomei的识别和分化,可以通过花和花序排列轻松识别。 其他鉴定特征是叶片的叶肉区域中存在囊状,以及粉末显微镜分析中有色含量和晶体的存在。 目前对J. Beddomei茎,叶和花的详细微观研究的结果在鉴定粉末状样品及其掺假剂方面具有很大价值。MK347214.1来自NCBI数据库。植物不同部分的微观研究有助于J. Beddomei与其形态相似和令人困惑的植物Justicia adhatoda L. justicia Beddomei的识别和分化,可以通过花和花序排列轻松识别。其他鉴定特征是叶片的叶肉区域中存在囊状,以及粉末显微镜分析中有色含量和晶体的存在。目前对J. Beddomei茎,叶和花的详细微观研究的结果在鉴定粉末状样品及其掺假剂方面具有很大价值。
使用一个野外收集的标本进行测序。DNA提取。根据制造商的说明,使用Illumina Truseq套件构建了配对的测序库。该库是在配对端,2×150 bp格式的Illumina Hi-Seq平台上进行测序的。用三型V0.33(Bolger,Lohse和Usadel 2014)修剪了所得FASTQ文件的适配器/引物序列和低质量区域。修剪序列由黑桃v2.5组装(Bankevich,Nurk,Antipov等2012)随后使用Zanfona V1.0(Kieras 2021)进行完成步骤,以基于相关物种中保守的区域加入附加的重叠群。
本应用说明介绍了使用 QIAGEN CLC Genomics Workbench 进行质体组装的三种不同工作流程。工具和工作流程的选择取决于目标物种中质体的结构以及测序数据的类型。组装具有长 IR 的质体需要足够长的读取以跨越重复。这种长读取通常保真度较低,组装需要完善。组装没有长 IR 的质体可以使用“较短”的高保真长读取来实现,并且不需要重叠群完善。我们强调的另一个步骤是在组装质体之前减少 NGS 数据集。我们描述了从全基因组测序数据中预选和不预选叶绿体读取的不同从头组装工作流程。