Loading...
机构名称:
¥ 1.0

摘要。关键字:分子设计·生成建模·模型·搜索·梁搜索·解码语言模型分子设计是由于有效分子的较大搜索空间而导致的化学合作问题之一。现有的方法基于两种关键编码方法:分子图和文本微笑。分子图编码方法具有表达性和化学意识,因为它们包括原子,键和其他分子证券。基于微笑的方法没有考虑任何化学信息,并将这些分子视为一系列特征。当前的生成分子图和基于微笑的模型了解输入的分布,然后从学习分配中进行采样以生成新​​的分子。基于微笑的方法容易产生无效的分子,并且尚不在化学上意识到。尽管如此,大型语言模型(LLM)在NATU语言处理(NLP)中的成功导致了强大的LLM方法的开发,这些方法与最先进的分子基于图形的方法具有竞争力。本文显示了如何通过梁搜索对基于碎片的微笑LLM进行训练和采样,以提高产生的分子的有效性,新颖性和独特性。我们在两个标准分子设计数据集上评估了该模型:锌和PCBA。我们表明,我们的模型可以生成具有较高va效率,新颖性和唯一性的精确分子,同时记录结果与最先进的基于分子图的方法相当或更好。

用梁搜索解码分子语言模型

用梁搜索解码分子语言模型PDF文件第1页

用梁搜索解码分子语言模型PDF文件第2页

用梁搜索解码分子语言模型PDF文件第3页

用梁搜索解码分子语言模型PDF文件第4页

用梁搜索解码分子语言模型PDF文件第5页