植物基因组学领域取得了重大进展,高通量方法的使用越来越多,可以表征多个基因组范围内的分子表型。这些发现为植物性状及其潜在的遗传机制提供了宝贵的见解,特别是在模型植物物种中。尽管如此,有效地利用它们进行准确的预测是作物基因组改良的关键一步。我们提出了 AgroNT,这是一个基础性的大型语言模型,它以 48 种植物物种的基因组为训练基础,主要关注作物物种。我们表明,AgroNT 可以获得对调控注释、启动子/终止子强度、组织特异性基因表达的最新预测,并优先考虑功能性变异。我们对木薯进行了大规模的计算机饱和诱变分析,以评估超过 1000 万个突变的调控影响,并提供它们的预测效果作为变异表征的资源。最后,我们建议将此处汇编的各种数据集用作植物基因组基准 (PGB),为植物基因组研究中基于深度学习的方法提供全面的基准。预先训练的 AgroNT 模型可在 HuggingFace 上公开获取,网址为 https://huggingface.co/InstaDeepAI/agro-nucleo-transformer-1b,以供未来研究使用。
人类基因组学面临的一个主要挑战是破译序列与功能之间的特定关系。然而,现有的用于在原生基因组背景下进行位点特异性超突变和进化的工具有限。在这里,我们提出了一种用于长距离、位点特异性超突变的新型可编程平台,称为解旋酶辅助连续编辑 (HACE)。HACE 利用 CRISPR-Cas9 来靶向进行性解旋酶-脱氨酶融合,该融合会在较大的 (>1000 bp) 基因组间隔内引起突变。我们应用 HACE 来识别 MEK1 中导致激酶抑制剂抗性的突变,剖析 SF3B1 依赖性错误剪接中各个变体的影响,并评估 CD69 刺激依赖性免疫增强剂中的非编码变体。HACE 提供了一种强大的工具,可用于研究编码和非编码变体、揭示组合序列与功能的关系以及发展新的生物功能。
根据 DNA 序列预测 RNA 水平的模型在解码组织特异性基因调控机制 1-5、揭示性状的遗传结构 6-10 和解释非编码遗传变异 10,11 方面显示出巨大的前景。现有的方法采用两种不同的方法:1)将表达与常见遗传变异的线性组合相关联(在单个基因上跨个体训练)12,13,或 2)使用神经网络学习全基因组序列到表达规则(使用参考基因组跨基因座训练)11,14,15。由于最近这两种策略的局限性都被强调 16-20,我们试图将深度学习提供的序列上下文与跨个体训练提供的信息相结合。我们利用微调开发了 Performer,该模型的准确度接近大多数基因的顺式遗传率。Performer 优先考虑等位基因频率谱中的遗传变异,这些变异会破坏基序、属于注释的调控元件,并具有调节基因表达的功能证据。尽管个性化表情预测仍然存在障碍,但我们的研究结果证明深度学习是一种可行的策略。
此预印本版的版权持有人于2024年8月12日发布。 https://doi.org/10.1101/2024.08.12.607507 doi:Biorxiv Preprint
1。日历描述在更准确地定义基因型 - 表型关系的背景下对基因组级分析方法的检查。要涵盖的主题包括功能基因组学,合成基因组学,全基因组关联研究,机器学习和合成遗传阵列。先决条件:生物学3596a/b;以及以下之一:生物学3594a/b,生物学3595a/b,生物学3597a/b;以及3000级或更高的生物学的另外0.5个课程;和荣誉专业模块的第4年注册或生物学系提供的遗传学专业。额外的信息:2个讲座小时,0.5课程。除非您有本课程的必需品或院长的书面特殊许可以注册它,否则您可能会从本课程中删除,并将其从您的记录中删除。这一决定可能不会提出上诉。,如果您因没有必要的先决条件而将您从课程中删除,您将不会收到对您的费用的调整。2。课程信息讲师:Jim Karagiannis博士办公室:办公时间:电话:分机。80975电子邮件:jkaragia@uwo.ca讲座:给Karagiannis博士的所有电子邮件都必须在主题行中包含“ Bio4561F”。学生必须使用其西方(@uwo.ca)电子邮件地址。
Ming He 1,2,11 , Yuqi He 1,11 , Kaixuan Zhang 1,11 , Xiang Lu 1,3,11 , Xuemei Zhang 4,11 , 4
使用 SpCas9 核酸酶进行 ONE-seq 脱靶分析的结果 a,群图显示五个先前分析的 SpCas9 gRNA 的 ONE-seq 核酸酶分数。每个圆圈代表一个单独的 ONE-seq 文库成员。彩色圆圈代表先前确认的真正脱靶位点。未显示 ONE-seq 核酸酶分数低于 0.001 的位点。n/a,未在先前发表的 CIRCLE-seq 研究中进行验证。b,维恩图比较了 ONE-seq、CIRCLE-seq 和 Digenome-seq(空心彩色圆圈)提名先前由 GUIDE-seq(实心紫色圆圈)验证的真正脱靶位点的能力。所有被视为由 ONE-seq 验证的位点的 ONE-seq 核酸酶分数均 >0.01。
