Loading...
机构名称:
¥ 1.0

Halima Bensmail卡塔尔计算研究所的目的:蛋白质的产生在诸如药物设计和蛋白质工程等领域具有广泛的应用前景,可以使用机器学习或深度学习,可以产生蛋白质序列。希望生成的序列具有良好的可折叠性,以便它们可以形成稳定的三维结构。此外,预期所需的蛋白质将表现出特定的功能特性,包括酶活性和抗体结合能力。大语言模型的进步和条件模型的整合已显着推动了蛋白质产生领域的进步。该模型(称为后代)将Uniprotkb关键字包含为2020年的条件标签。这些标签包括一个由各种类别组成的词汇,包括“生物过程”,“细胞成分”和“分子功能”。总共有条件的标签包含超过1,100个不同条款。在评估使用指标相似性,二级结构准确性和构象能产生的蛋白质序列时,它们表现出所需的结构特性。在2022年,受到生成变压器模型(例如GPT-X系列)的显着成就的启发,Protgpt2的发展出现了。值得注意的是,Protgpt2产生的蛋白质表现出符合天然原理的氨基酸倾向。看来Protgpt2已经获得了特定于蛋白质的语言。拟议的工作将重点介绍对这两种术语和Protgpt2的评估。涉及疾病和二级结构预测的评估表明,Protgpt2生成的蛋白质的绝大多数(88%)具有球形特征,与自然序列中的属性保持一致。在Protgpt2序列上采用AlphaFold会产生折叠的非思想结构,包括存在广泛的回路的存在以及当前结构数据库中不存在的以前看不见的拓扑结构。我们还将使用llms使用蛋白质序列作为输入来进行蛋白质功能预测,并为多种蛋白质任务(例如同源性预测)以及二级结构预测,蛋白质溶解度和蛋白质结晶微调模型,并将其与Sproberta进行比较。

使用LLMS生成具有特定任务的新蛋白质

使用LLMS生成具有特定任务的新蛋白质PDF文件第1页

使用LLMS生成具有特定任务的新蛋白质PDF文件第2页