在计算机视觉和自然语言处理中基础模型的出现导致下游任务取得了巨大进展。通过数十亿个培训示例的数据集启用了这一进度。类似的好处尚未解锁量子化学,其中深度学习的潜力受到相对较小的数据集的限制,该数据集具有100K至20m的训练示例。这些数据集的大小限制,因为标签是使用密度功能理论(DFT)的准确(但要求的)预测进行计算的。值得注意的是,使用CPU超级计算机创建了先前的DFT数据集,而无需利用硬件加速度。在本文中,我们通过使用智能处理单元(IPU)引入数据生成器PYSCF IPU迈出了使用硬件加速器的第一步。这使我们能够创建数据集QM1B,其中包含9-11个重原子的十亿培训示例。我们证明,简单的基线神经网络(SCHNET 9M)通过简单地增加训练数据的量而没有其他电感偏见来提高其性能。为了鼓励未来的研究人员负责任地使用QM1B,我们重点介绍了QM1B的一些局限性,并强调了DFT选项的低分辨率,这也是更大,更准确的数据集的动力。代码和数据集。
主要关键词