一个人可以设计并自动化一个计算和实验平台,以便每个平台迭代指导并驱动另一个平台以实现预定的目标?Rapp及其同事(2024)在论文中仅描述了这种可能性,该论文详细介绍了一个自动驱动实验室的原型,该实验室可以自动导航,以产生具有所需属性的工程酶。这个实验室,而不是自动化协议,用缩写词来提及。这是指用于蛋白质景观探索的自动驾驶自动驾驶机器。本文描述了一个原型,涉及糖苷水解酶的工程,以增强热稳定性。“大脑”是该自动化系统背后的计算组件,旨在从策划的数据集学习蛋白质序列 - 功能关系。然后,通过一个全自动的机器人系统评估了这些设计蛋白,该蛋白可以合成并实验表征设计的蛋白质,并向代理(即计算成分)提供反馈,以填补其对系统的理解。因此,设计样品剂是通过在搜索过程中积极获取信息来不断地重新理解对蛋白质景观的理解。由于该智能代理从一个精心策划的,多样化的数据集中学习蛋白质序列 - 功能关系,因此根据更新的假设,这种反馈对于重新景观探索和新蛋白质的设计至关重要。在此原型中,将四个样品剂的任务承担了此目标。单个药物的搜索行为差异主要是由实验测量噪声引起的。这些药物的目标是导航糖苷水解酶景观,并以增强的热耐受性鉴定酶。然而,尽管他们的搜索行为有所不同,但所有四个代理都可以在热稳定糖苷水解酶上融合 - 这是显着的壮举,因为它显然不需要任何人类干预。为了启动迭代设计过程,Rapp及其同事用糖苷水解酶序列喂养样品,具有工程热耐受性的靶标。使用在可抑制和热固醇糖苷水解酶进行的实验中的非常最小的信息,以蛋白质耐受景观呈现样品(Romero and Arnold 2009)。蛋白质富度景观描述了从序列到类似于峰,山谷和山脊的陆地景观的映射,该目标是达到拟合度更高的自适应峰。至关重要的输入来自一个反馈周期,其中代理查询环境以收集信息,从而改善了内部对景观的看法。从这个意义上讲,蛋白质工程代理的任务是贝叶斯优化的任务,其中未知的目标函数与探索和开发之间的有效平衡(作者称为权衡)相息。样品以部署高斯工艺(GP)模型,以探索景观并提取可以描述序列水平上的可热稳定蛋白与中序蛋白有何不同的信息(Romero等2013)。使用贝叶斯优化(BO)技术,此信息启用了迭代设计蛋白质序列的样品。作者还设计了几种BO方法,以说明缺乏丰富的实验数据。这方面通常至关重要,因为人工工程/机器学习(AI/ML)工具需要一个大型,多样化的数据集有效。首先使用基于GP模型的分类器来识别功能序列,然后采用了上层信心结合算法来选择实验验证的顶级序列(Dauparas等人。2022)。使用预先合成的基因片段组装了新型工程酶,即设计的序列。该策略本身在合成生物学的高通量平台中很普遍。
主要关键词