机器学习工具(AM)的日益增长的使用,或更普遍的人工智能技术影响了各个知识领域。使用这些工具的主要挑战之一是模型培训的数据可用性。这个问题在健康中更加相关,因为有许多敏感或私人数据需要特定护理来传播。作为缓解此问题的一种方法,Datasus(统一的卫生系统计算机部门)提供了大量的公共数据,可以使用机器学习的培训和测试。Datasus提供的基础之一是生活出生信息系统(Sinasc),该系统汇集了有关整个国家领土上出生的流行病学信息。在这项工作中,Sinasts数据库将用于评估机器学习方法的生存能力和准确性,以预测巴西早产和低出生体重。这种变量是新生儿健康的决定因素,并且与新生儿ICU等高健康服务成本密切相关[1]。因此,AM方法可用于预测/预防特定案例和制定公共卫生政策[2]。
识别药物-靶标相互作用 (DTI) 是药物发现和药物重新定位的重要步骤。为了降低实验成本,已经提出了大量用于此任务的计算方法。已经开发了基于机器学习的模型,尤其是二元分类模型来预测药物-靶标对是否相互作用。然而,当前方法的性能仍有很大改进空间。多标签学习可以克服单标签学习带来的一些困难,从而提高预测性能。多标签学习面临的关键挑战是指数级的输出空间,考虑标签相关性有助于克服这一挑战。在本文中,我们通过引入用于 DTI 预测的社区检测方法(称为 DTI-MLCD)来促进多标签分类。此外,我们更新了黄金标准数据集,在该数据集的基础上添加了 15,000 个以上的 DTI 正样本,该数据集自 2008 年以来已被大多数先前发布的 DTI 预测方法广泛使用。所提出的 DTI-MLCD 应用于这两个数据集,证明了它优于其他机器学习方法和几种现有方法。本研究的数据集和源代码可在 https://github.com/a96123155/DTI-MLCD 上免费获取。