蛋白质表征学习。自然语言处理中用于语境化表征的最新方法(McCann 等人,2017 年;Peters 等人,2018 年;Devlin 等人,2018 年)已被证明可以很好地用于语境蛋白质表征学习。可以使用线性方法从此类表征中提取有关蛋白质的结构信息,并且可以调整表征本身以提高其他任务的性能(Rives 等人,2019 年)。同样,UniRep(Alley 等人,2019 年)证明此类表征可用于预测天然和从头设计蛋白质的稳定性以及分子多样性突变体的定量功能。TAPE(Rao 等人,2019 年)是一个新的基准,由五个任务组成,用于评估此类蛋白质嵌入。虽然先前的研究主要集中于使用双向模型的可转移表示学习,但我们的工作展示了使用生成式单向模型的可控蛋白质工程。