机器学习(ML)实现了准确,快速的分子性能预测,这与药物发现和材料设计有关。假设相似的分子表现出紧密的特性,他们的成功基于其心脏相似性的原理。然而,活动悬崖挑战了这一原理,它们的存在导致了现有ML算法的性能,尤其是基于图的方法的急剧解脱。为了克服低数据表情况下的这一障碍,我们提出了一种新型的半监督学习(SSL)方法,称为Semimol,该方法对众多未注释的数据进行了预测,作为伪信号,以进行后续训练。具体来说,我们引入了一个附加的讲师模型来评估代理标签的准确性和可信度,因为存在伪标记的方法需要概率输出以揭示模型的置信度并且无法应用于回归任务。此外,我们设计了一个自适应课程学习al-gorithm,以逐步移动目标模型以可控的速度进行硬性样本。在30个活动悬崖数据集上进行的广泛实验表明,Semimol显着增强了基于图形的ML架构,并超过了最先进的预处理和SSL基准。
主要关键词