多靶点药物的设计是药物化学领域的一个重要的研究领域,因为它们已被提议作为治疗复杂疾病的潜在疗法。然而,定义一种多靶点药物并不是一件容易的事。在这项工作中,我们提出了一种矢量分析来测量和定义“多靶点性”。我们开发了诸如配体的顺序和力等术语,最终得出两个参数:多靶点指数 1 和 2。这两个指数的组合可以区分多靶点药物。我们构建了几个训练集来测试这些指数的实用性:一个具有实际亲和力的实验训练集、一个在理论值范围内的对接训练集和一个广泛的数据库训练集。这些指数被证明是有用的,因为它们在计算机和实验数据中独立使用,在大多数训练集中识别出实际的多靶点化合物甚至选择性配体。然后,我们应用这些指标来评估与多发性硬化症相关的靶标的潜在配体虚拟库,根据其在计算机中的行为确定了 10 种可能成为多靶点药物开发先导的化合物。通过这项工作,我们在定义多靶点和药物设计方面树立了新的里程碑。
评估预防欺诈的ML模型。在图2的左侧,与样本交易有效载荷一起显示了交易的历史记录。在这个简化的示例中,我们考虑了实体支付系统中的一年交易活动历史。数据分为一个训练集,用于训练模型和一个评估模型性能的测试集。在此示例中,培训集包含从1月到10月的所有交易,而测试集则包含从11月到12月的所有交易。虽然为每个集合选择的特定时间段和数据可能会有所不同,但模型构建始终同时使用训练集和测试集,并且训练集将始终包含比测试集更旧的数据。两个数据集之间的这种分离是故意分开的,以维持客观性:建立该数据集,一旦建立,该模型的性能将根据其在培训过程中未摄入的数据来衡量。
摘要:数字航空电子解决方案使小型飞机也能使用先进的飞行控制系统。安全关键部分之一是空中数据系统。创新架构允许使用合成传感器,从而带来重大的技术和安全进步。空气动力学角度的应用似乎是最有希望获得认证的应用。在这个领域,有关合成传感器设计的最佳程序仍然是该领域的一个悬而未决的问题。在 Clean Sky 2 框架内资助的 MIDAS 项目给出了一个例子。本文提出了两种数据驱动方法,可以提高整个飞行包线的性能,特别关注稳定状态飞行条件。获得的训练集相当小,从而降低了计算成本。这些方法通过真实案例进行了验证,它们将用作 MIDAS 生命周期的一部分。第一种方法称为数据驱动的准稳定状态识别和生成 (DIGS),它基于 (i) 识别飞机的升力曲线;(ii) 使用人工飞行数据点扩充训练集。DIGS 的主要目的是减少训练集不平衡的问题。第二种方法称为相似飞行测试数据修剪 (SFDP),它基于准唯一点的隔离来处理数据缩减。结果证明了该方法对 MIDAS 项目的有效性,可以用于实际应用。
数据预处理。数据预处理通过确保为数据标记者正确准备数据以及建立质量参数和训练集要求,为项目的成功奠定了基础。训练集的大小和深度需要根据统计意义和所提问题的复杂性来选择。经验丰富的统计学家或数据科学家对这一步至关重要。他们应该就标记数据的有效性提供建议,并在项目扩展时帮助维护项目指标。在预处理中,确保图像格式相似且分辨率足够也很重要。这一准备步骤有助于提高效率,并通过允许标记者进行精确观察和更一致的注释来提高标记的质量和准确性。
动机:由于高通量和昂贵的测序方法,转录组学数据变得越来越易于访问。但是,数据稀缺性阻止了利用深度学习模型对表型预测的完整预测能力。人工增强训练集,即数据增强,建议作为正规化策略。数据增强对应于训练集的标签不变转换(例如,在文本数据上进行图像和语法解析的几何变换)。不幸的是,这种转换在跨文字组范围内未知。因此,已经提出了深层生成模型,例如生成对抗网络(GAN)来生成其他样本。在本文中,我们分析了基于GAN的数据增强策略,就性能指标和CAR表型的分类分析。
为了提高神经网络的电质量干扰识别能力,本文研究了基于深度学习的功率质量识别和分类方法:构建功率质量扰动模型,生成训练集;构建深度神经网络;培训训练设置为深度神经网络培训;验证深度神经网络的性能;结果表明,即使在最严重的20dB噪声条件下,训练集被随机添加20dB-50dB噪声,它也可以达到99%以上的识别,这是一种传统。该方法无法实现。结论:基于最深的学习质量干扰识别和分类方法克服了人工特征的选择步骤的劣势,较差的强大功能,这对更准确,更准确,快速迅速发现功率质量问题的类别是有益的。
摘要背景:中西药联用增加了所摄入化合物的复杂性。目的:利用人工智能方法开发一种基于化学结构的中西药肝毒性化合物筛选方法。方法:从公开数据库和发表的文献中收集药物性肝损伤(DILI)数据。将DILI数据形成的整个数据集以大约3:1的比例随机分为训练集和测试集。采用SGD(随机梯度下降)、kNN(k最近邻)、SVM(支持向量机)、NB(朴素贝叶斯)、DT(决策树)、RF(随机森林)、ANN(人工神经网络)、AdaBoost、LR(逻辑回归)和一种深度学习模型(深度信念网络,DBN)构建肝毒性化合物筛选模型。结果:本研究共收集了2035个肝毒性化合物数据集,其中1505个化合物作为训练集,530个化合物作为测试集。结果表明,RF在训练集上的分类准确率(CA)为0.838,F1-score为0.827,Precision为0.832,Recall为0.838,曲线下面积(AUC)为0.814;在测试集上的分类准确率(CA)为0.767,F1为0.731,Precision为0.739,Recall为0.767,AUC为0.739,优于其他8种机器学习方法。DBN在测试集上的分类准确率为82.2%,高于其他任何机器学习模型。
提出的解决方案和观点:•建立更保守的预测因子(Fu等人2021)•应用相似性约束W.R.T.预测训练集(Griffiths等人2022)•主动学习(Bilodeau等人2022)