产生新分子结构的深层生成模型具有促进化学发现的潜力。流量匹配是一个最近提出的生成建模框架,在包括生物分子结构(包括生物分子结构)的各种任务上取得了令人印象深刻的性能。开创性流量匹配框架仅针对连续数据开发。但是,从头分子设计任务需要生成离散数据,例如原子元素或氨基酸残基的序列。最近已经提出了几种离散的流匹配方法来解决此差距。在这项工作中,我们基准了3D从头生成的现有离散流匹配方法的性能,并提供了其不同行为的解释。因此,我们提出了FlowMol-CTMC,这是一种开源模型,可实现3D从头设计的最新性能,其可学习参数比现有方法少。此外,我们提出的指标使用捕获分子质量以外的局部化学价值约束并符合高阶结构基序。这些指标表明,即使满足了基本约束,模型也倾向于在培训数据分布之外产生异常且潜在的有问题的功能组。可用于重现此工作的代码和训练有素的模型,请访问https://github.com/dunni3/flowmol。
摘要:抗菌肽(AMP)是新抗生素的有前途的候选者,因为它们针对病原体的广谱活性和对耐药性发展的敏感性降低。深度学习技术,例如深层生成模型,为加快AMP的发现和优化提供了有希望的途径。一个了不起的例子是反馈生成式讽刺网络(FBGAN),这是一个深层生成模型,在训练阶段结合了分类器。我们的研究旨在探索增强分类器对FBGAN生成能力的影响。为此,我们介绍了两个替代分类器的FBGAN框架,都超过了原始分类器的准确性。第一个分类器利用K -MERS技术,而第二个分类器则从大蛋白质语言模型进化量表模型2(ESM2)中应用转移学习。与原始FBGAN相比,将这些分类器整合到FBGAN中,不仅会产生显着的性能增强能力,而且还可以使所提出的生成模型能够实现与Ampgan和Hydramp等既定方法相当甚至优越的性能。这一成就强调了在FBGAN框架内利用高级分类器的有效性,增强了其对从头设计的计算鲁棒性,并与现有文献相当。
Jan Dreyer, 1 , 12 Giulia Ricci, 1 , 12 Jeroen van den Berg, 1 , 2 , 12 Vivek Bhardwaj, 1 , 2 Janina Funk, 1 Claire Armstrong, 3 , 4 Vincent van Batenburg, 1 , 2 Chance Sine, 3 , Michael Van den Berg, 14 . skje B. Tjeerdsma, 5 Richard Marsman, 1 Imke K. Mandemaker, 1 Simone di Sanzo, 6 Juliette Costantini, 1 Stefano G. Manzo, 2 , 7 , 8 Alva Biran, 9 Claire Burny, 6 Marcel A.T.M.van Vugt,5 Moritz vo lker-Albert,6 Anja Groth,9,10,11 Sabrina L. Spencer,3,4 Alexander van Oudenaarden,1,2和Francesca Mattiroli 1,1,13, * 1 * 1 S 3美国科罗拉多大学博尔德大学生物化学系40303,美国4 Biofrontiers Institute,科罗拉多大学博尔德大学,BOLDER,BOLDER,CO 80303,美国5研究所,荷兰市CX Amsterdam 121,1066 CX Amsterdam 8米兰米兰大学生物科学系,2013年意大利9 Novo Novo Novo Novo Novo Novo nordist Foundation Foundation for for Copenhagen,University of Copenhagen,Copenhagen 2200丹麦哥本哈根13领导联系 *通信:f.mattiroli@hubrecht.eu https://doi.org/10.1016/j.molcel.2024.10.023
我们提出了一种深度学习方法,可以从其核酸序列中预测RNA的3D折叠结构。我们的方法结合了自回归的深层生成模型,蒙特卡洛树搜索和得分模型,以查找和对给定RNA序列的最可能的折叠结构进行排名。我们表明,尽管可以用于训练的实验测量的结构数量较少,但在原子分辨率下,通过深度学习进行了从头学习的预测。我们通过在RNA-Puzzles预测挑战的回顾性评估中实现竞争结果来确认我们的方法的预测能力,而无需使用来自多个序列比对的结构接触信息或化学探测实验的其他数据。对最近的RNA-Puz-Zle挑战的盲目预测为“ dfold”,进一步支持了我们方法的竞争性能。
跨数长度规模的构建材料设计在其自然体积状态下不存在异常的机械响应。然而,当降低到原子或微粒水平时,所谓的机械超材料在很大程度上尚未探索,并且通常从其粗分辨率中掉出了订购的模式设计空间。Here, combining high-throughput molecular dynamics (MD) simulations and machine learning (ML) strategies, some intriguing atomistic families of disordered mechanical metamaterials are discovered, as fabricated by melt quenching and exemplified herein by lightweight-yet-stiffcellular materials featuring a theoretical limit of linear stiffness–density scaling, whose structural disorder—rather than顺序 - 是减少缩放指数的关键,并且仅由粘结相互作用及其方向性控制,这些相互作用及其方向性可以通过实验来实现灵活的可调性。重要的是,力场景观中的系统导航表明,在方向性和非方向键之间(例如共价键和离子键)之间,适度的键方向性最有可能促进多面体,拉伸伸展的结构的无序堆积,负责促进伸展的结构。这项工作先驱者是一种最初的原子方案,以设计机械超材料的格式化,以在主张原子质的原子质和可能对常规上尺度上的原子质上仿制的原子质中,在利用结构障碍方面取消了一个未开发的场合。
。CC-BY 4.0 国际许可证永久有效。它是在预印本(未经同行评审认证)下提供的,作者/资助者已授予 bioRxiv 许可,可以在该版本中显示预印本。版权持有者于 2024 年 11 月 25 日发布了此版本。;https://doi.org/10.1101/2024.11.25.625151 doi:bioRxiv 预印本
RNA的设计在开发RNA疫苗,核酸疗法和创新的生物技术工具中起着至关重要的作用。然而,现有技术在各种任务中都缺乏多功能性,并且经常遭受自动生成的不足。受到蛋白质和分子设计领域的大型语言模型(LLM)的显着成功的启发,我们提出了Generrna,这是RNA生成的第一个大规模的预训练模型,旨在进一步自动化RNA设计。我们的方法消除了对二级结构或其他先验知识的需求,并且能够以稳定的二级结构从头产生RNA,同时确保其与现有序列的独特性。这扩大了我们对RNA空间的探索,从而丰富了我们对RNA结构和功能的理解。此外,对于特定子任务的较小,更专业的数据集,Genernna可以微调。这种灵活性和多功能性使得具有所需特定功能或属性的RNA。在微调代内,我们成功地生成了对靶蛋白的高亲和力的新型RNA序列。genernna可以在以下存储库中免费获得:https://github.com/pfnet-research/generrna
产生新基因表达的抽象DNA突变是达尔文进化的重要原材料。新基因调控的一个潜在来源是移动DNA,有时可以通过向外指导的启动子来驱动其在基因组中插入位点附近的基因的表达。但是,我们不知道这种能力的频率有多,也不知道移动DNA可能会发展起来。在这里,我们为插入序列家族IS3解决了这些问题,这是一种简单形式的原核生物移动DNA的家族。首先,我们估计至少有30%的IS3序列向外指导的启动子。第二,我们将高通量诱变与大量平行的记者测定法相结合,以表明在我们研究的所有IS3序列中,单点突变足以创建外向启动子。我们发现,在18'607突变体IS3序列中,有5.6%的启动子活性从头出现。启动子优先出现在每个IS3序列中的出现热点。这些热点与已经存在或通过突变新创建的启动子图案重叠。启动子活动的一条通用途径是获得一个现有-35盒子下游的-10盒子,我们称之为“ shiko出现”。总体而言,我们表明移动DNA具有驱动新基因表达的高潜力。这使移动DNA非常适合其宿主有机体驯化。它还提出了有关这种潜力如何发展的有趣问题。简介
生成基因组学模型可以设计越来越复杂的生物系统。然而,有效地控制这些模型以生成具有所需功能的新序列仍然是一项重大挑战。在这里,我们展示了 Evo,一个拥有 70 亿个参数的基因组语言模型,可以执行功能引导设计,超越自然序列。通过学习多个基因之间的语义关系,Evo 实现了基因组的“自动完成”,其中编码所需功能的 DNA 提示指示模型生成可挖掘类似功能的新 DNA 序列。我们将此过程称为“语义挖掘”,与传统的基因组挖掘不同,它可以访问不受发现的进化创新约束的序列景观。我们通过实验测试生成的抗 CRISPR 蛋白和毒素-抗毒素系统的活性来验证这种方法,包括与任何天然蛋白质没有显着同源性的从头基因。令人惊讶的是,即使在没有结构假设、已知的进化保守性或特定任务微调的情况下,使用 Evo 进行上下文蛋白质设计也能实现强大的活性和较高的实验成功率。然后,我们使用 Evo 自动完成数百万个提示,以生成 SynGenome,这是一个独一无二的数据库,其中包含超过 1200 亿个 AI 生成的基因组序列碱基对,可实现多种可能功能的语义挖掘。语义挖掘范例可实现超越观察到的进化宇宙的功能探索。