摘要材料信息学(MI)研究是通过大规模材料数据通过机器学习(ML)发现新材料的研究,近年来引起了人们的关注。通常,由于目标材料域的差异,MI中使用的大规模材料数据是偏差的。此外,关于MI的大多数研究尚未清楚地证明数据偏差对ML模型的影响。在这项研究中,我们通过结合了以前由我们小组开发的StarryData2材料数据库中的大规模实验性能数据的概念来阐明数据偏差对ML模型的影响。结果表明,数据偏差会影响ML模型进行的预测的错误和可靠性。与在域外制造的域相比,应用程序能力域内的ML模型的预测非常可靠。这表明构造的ML模型可以可靠发现的物质空间有限。尽管如此,我们将ML模型应用于包含各种材料类别的大型数据集,并发现可以在有限的空间内提出类似于已知材料的新材料。因此,我们的发现证明了在MI中构建和评估ML模型时考虑数据偏差的重要性。
但是: - 仅覆盖已知的化学空间 - 受到各种数据偏差的影响(类似物、数据集大小等) - 标签仍然是异质的 - 需要确定预测的体内相关性(!!!; PK,目标
摘要 — 药物-靶标相互作用 (DTI) 预测在药物发现和化学基因组学研究中非常重要。机器学习,尤其是深度学习,在过去几年中极大地推动了这一领域的发展。然而,学术论文中报告的性能与实际药物发现环境中的性能之间存在显著差距,例如基于随机分割的评估策略在估计现实环境中的预测性能时往往过于乐观。这种性能差距主要是由于实验数据集中隐藏的数据偏差和不适当的数据分割。在本文中,我们构建了一个低偏差 DTI 数据集,并研究了更具挑战性的数据分割策略,以改进现实设置的性能评估。具体而言,我们研究了流行的 DTI 数据集 BindingDB 中的数据偏差,并使用五种不同的数据分割策略重新评估了三种最先进的深度学习模型的预测性能:随机分割、冷药分割、支架分割和两种基于层次聚类的分割。此外,我们全面检查了六个性能指标。我们的实验结果证实了流行的随机分割的过度乐观,并表明基于层次聚类的分割更具挑战性,并且可以在现实世界的 DTI 预测设置中提供对模型通用性的更有用的评估。索引术语——药物-靶标相互作用、数据偏差、数据分割策略、性能评估
但是: - 仅覆盖已知的化学空间 - 受到各种数据偏差的影响(类似物、数据集大小等) - 标签仍然是异质的 - 需要确定预测的体内相关性(!!!; PK,目标
*延迟是指数据测量或设备状态发生变化后,IESO 通信接口上信息可用的时间延迟。+ 数据偏差是指来自同一设备的不同数据或测量的到达时间的变化
由于可能存在数据偏差和预测方差,图像去噪是一项具有挑战性的任务。现有方法通常计算成本高。在这项工作中,我们提出了一种无监督图像去噪器,称为自适应双自注意网络(IDEA-Net),以应对这些挑战。IDEA-Net 受益于生成学习的图像双自注意区域,其中强制执行去噪过程。此外,IDEA-Net 不仅对可能的数据偏差具有鲁棒性,而且还通过仅在单个噪声图像上应用具有泊松丢失操作的简化编码器-解码器来帮助减少预测方差。与其他基于单图像的学习和非学习图像去噪器相比,所提出的 IDEA-Net 在四个基准数据集上表现出色。 IDEA-Net 还展示了在低光和嘈杂场景中去除真实世界噪声的适当选择,这反过来有助于更准确地检测暗脸。源代码可在 https://github.com/zhemingzuo/IDEA-Net 获得。
摘要在医学人工智能(AI)领域,数据偏见是影响数据收集,处理和模型构建的SEV阶段的主要困难。在此评论研究中,对AI中常见的许多形式的数据偏差进行了彻底检查,传递了与社会经济地位,种族和种族有关的偏见,以及机器学习模型和数据集中的偏见。我们研究了数据偏见如何影响医疗保健的提供,强调它可能会使健康不平等恶化并危害AI驱动的临床工具的准确性。我们解决了减少AI中数据偏差的方法,并关注用于创建合成数据的不同方法。本文探讨了几种缓解算法,例如Smote,Adasyn,Fair-Smote和Bayesboost。优化的贝内斯式算法已被解散。这种方法显示出更准确性,并解决了错误处理机制。
加利教授表示,人工智能医疗技术决策结果的责任应完全由人承担:“无论机器有多聪明,它都不能对任何错误负责。”他补充说,责任不再只由医生承担。相反,我们还需要让开发人员、程序员和数据科学家对数据偏差负责。“我们正在进入一个集体责任的世界,”加利说。
• 评估数据和数据维护:与训练数据开发相比,这两项研究较少。它们很重要,需要更多的研究工作。• 跨任务技术:我们如何同时优化 DCAI 中的多个任务?• 数据模型协同设计:我们能否通过迭代设计数据和模型来实现更好的性能?• 数据偏差:我们如何消除数据中的偏差?• 数据基准:我们如何开发数据基准来对数据质量进行基准测试?现有的基准仅关注特定的 DCAI 任务,而不是整个 DCAI。
下方显示的是州一级的数据,显示了学生和教师的总数以及每个班级类别的班级中位数(显示中位数而不是平均值以更好地解释数据偏差)。报告了两种类型的班级,并细分为子类型。第一种类型是“独立”教室,学生大部分时间都呆在这种教室里,接受大部分核心内容的教学。这种教室通常是小学学生的“班主任”。第二种类型是“分科”教室,学生在这种教室里接受特定内容领域的教学。这些班级在初中和高中最常见,学生全天接受不同老师的教学。