在看不见的文章上的出色表现表明,BERT模型的预测能够概括。使用BERT模型的多数投票,其中94.8%(2,019,050)的文章被识别为含有药物或蛋白质实体的药物目标(阳性)。在〜2.1m的正面预测文件中,21.9%(467,638)在Pubtator中包含药物和蛋白质实体。结果可能是低估的,因为药物或蛋白质实体(或两者都)可能被沉积为补充数据,而PubTator的后端算法未捕获。这意味着,即使文章被积极预测,在某些情况下,我们的工作流程可能不会捕获药物或蛋白质,因此手动策展人的任务使手动策展人检查了补充材料。的确,许多