分子nger板,小分子设计的生成方法,11 - 13药理学特性的预测和药物重新利用。13,14药物的临床开发是一种时间和货币消费过程,通常需要数年和十亿美元的预算才能从1期临床试验到患者进行。16最新的神经网络方法和语言模型的使用有可能大大促进药物开发过程。使用多种模型家族提出了许多LMS的生物医学领域:例如,研究人员开发了Biobert,基于BERT,具有1.1亿个参数,并基于T5-Base和T5-Large,分别使用220和77000万个T5-Large,使用生物医学文献,使用了220和77000万个参数。nvidia还使用一组更广泛的PubMed衍生的自由文本在生物医学领域开发了生物长期模型,范围从3.45亿到12亿参数。但是,这些模型中使用的数据集主要涵盖生物医学自然语言文本,并包含生物医学命名的实体,例如药物,基因和细胞系名称,但忽略了以微笑格式的重要化学结构描述。用化学结构丰富生物医学数据集是一项重要且具有挑战性的任务。最近,提出了以最大的设置为1.120亿个参数,基于变压器档案的LMS,基于Transformer Arch-tecture,以及基于T5-碱基和T5-LARGE的MOLT5、20的LMS,以解决此限制。两种模式均通过自然语言和化学数据进行了预训练,创建
主要关键词