差异丰度分析是微生物组数据统计分析的核心。微生物组测序数据的组成性质使假阳性对照具有挑战性。在这里,我们表明,可以通过简单但功能高的方法来解决组成效应。所提出的方法Linda仅需要在中心对数比率转换的数据上拟合线性回归模型,并因组成效应而纠正偏差。我们表明,琳达(Linda)拥有渐近的FDR控制,可以扩展到相关的微生物组数据的混合效应模型。使用模拟和真实示例,我们证明了琳达的效果。
等式 1 的群体性质在 AI 的许多领域都很方便,因为我们在选择要部署的系统之前通常会应用各种技术。所有这些被丢弃的次优系统都可以重新用于计算难度,正如我们将在本文中看到的那样。然而,使用系统群体也会带来一些风险。例如,如果群体包含一个不符合要求的系统(在简单实例上失败,在一些困难实例上成功),则可能导致非常不稳定的难度指标。如果我们只是计算一组系统对每个实例的平均误差作为难度的代理,可能会发生这种情况(Mart´ınez-Plumed 等人,2019 年)。几十年前提出了一种解决这个问题的方法,称为项目反应理论 (IRT),其中难度是从项目(实例)和受访者(系统)矩阵中推断出来的,这使得符合要求的系统更具相关性。此外,IRT 给出了一个遵循正态分布的难度缩放指标,可以直接与系统的能力进行比较。然而,IRT 和其他难度指标都是从之前的性能结果中得出的,但不依赖于实例空间,因此我们无法预测新实例的难度。我们为这个重要问题提出了一个相对简单的解决方案:以问题特征作为输入、以难度作为输出来训练回归模型。本文涵盖了人工智能中的一系列问题,推导了它们的 IRT 难度,并为每个领域训练了一个回归模型——难度估算器,我们对其进行了系统性的评估。对于许多领域,根据 RMSE 和 Spearman 相关性,对 IRT 难度的估计非常好。我们在一系列应用上说明了这些难度模型的解释能力:
图 4 成像簇的生物标志物和临床关联。A、该图显示四个 flortaucipir 簇的早期阿尔茨海默病 31 (SPARE-AD) 识别异常空间模式的中位数和四分位距 (x 轴) 和大脑年龄差距 (y 轴)。B、tau 簇的临床进展从认知无显著 (CU) 到轻度认知障碍 (MCI)/痴呆。C、tau 簇的临床进展从 MCI 到痴呆。D、该图显示三个磁共振成像 (MRI) 簇的 SPARE-AD 的中位数和四分位距 (x 轴) 和大脑年龄差距 (y 轴)。E、萎缩簇的临床进展从 CU 到 MCI/痴呆。F、萎缩簇的临床进展从 MCI 到痴呆。G、flortaucipir 和 MRI 簇组合的患病率。 H、I、评估萎缩与 tau 簇之间关联的多项逻辑回归模型的相对风险比 (RRR)。在 (H) 中,以边缘系统为主簇为参考、白质高信号 (WMH) 体积和 tau 簇为预测因子(在 y 轴上)的多项逻辑回归模型。在 (I) 中,以 tau 簇 I 为参考、载脂蛋白 E ε 4 和 MRI 簇为预测因子(在 y 轴上)的多项逻辑回归模型。红色表示显著关联。灰色表示不显著关联。X 轴为对数刻度。J、flortaucipir 亚簇和 MRI 簇组合的患病率。HSp,海马保留;LP,边缘系统为主
上市后试验和患者登记在生成上市后数据方面各有利弊。目前尚未直接比较这些数据源对于晚期黑色素瘤患者的临床结果。我们旨在研究患者登记是否可以补充甚至取代上市后试验。使用了来自药物评估委员会的上市后单组临床试验数据和来自荷兰黑色素瘤治疗登记处的真实世界数据。研究人群包括一线接受靶向疗法(BRAF 或 BRAF-MEK 抑制剂)治疗的晚期黑色素瘤脑转移患者。使用 Cox 风险回归模型和倾向评分匹配 (PSM) 模型比较两组患者。与上市后试验中接受治疗的患者(n = 467)相比,真实世界患者(n = 602)的年龄明显更高、ECOG 体能状态更高、≥ 3 个器官受累更常见且有症状的脑转移更多。两组的乳酸脱氢酶水平相似。上市后临床试验患者的未调整中位总生存期 (mOS) 为 8.7(95% CI,8.1–10.4)个月,而现实世界患者为 7.2(95% CI,6.5–7.7)个月(P < 0.01)。使用 Cox 风险回归模型,根据预后因素调整生存期,结果显示试验患者和现实世界患者的 mOS 差异无统计学意义,分别为 8.7(95% CI,7.9–10.4)个月和 7.3(95% CI,6.3–7.9)个月。PSM 模型结果显示 310 名匹配患者生存期相似(P = 0.9)。两个数据源的临床结果相似。注册系统可以成为
批准后试验和患者注册机构在生成后批准数据中具有优缺点。目前,黑色素瘤患者目前存在这些数据源的临床结果之间的直接比较。我们旨在调查患者注册表是否可以补充甚至替换批准后试验。使用了来自药品评估委员会的单臂临床试验数据,并使用了来自荷兰黑色素瘤治疗注册中心的现实世界数据。研究人群由一线靶向疗法(BRAF-或BRAF-MEK抑制剂)治疗的脑转移晚期黑色素瘤患者组成。使用COX危害回归模型和倾向评分匹配(PSM)模型比较两个患者人群。与在批准后试验中接受治疗的患者相比(n = 467),现实世界患者(n = 602)的年龄明显更高,ECOG性能状况更高,≥3个器官受累和更多症状性脑转移。乳酸脱氢酶水平相似。在现实世界患者中,未经调整的中值总生存期(MOS)为8.7(95%CI,8.1-10.4)个月,而实际患者为7.2(95%CI,6.5-7.7)月(P <0.01)。使用Cox危险回归模型,对预后因素进行了调整,这导致了MOS的统计差异和8.7(95%CI,7.9-10.4)月的现实世界患者的统计差异,而分别为7.3(分别为95%CI,6.3-7.9)。PSM模型产生了310名与生存相似的匹配的患者(p = 0.9)。注册表可以是两个数据源的临床结果相似。
对化学物质的调节需要了解其对大量物种的毒理作用,这些物种传统上是通过体内测试获得的。最近为基于机器学习寻找替代方案的努力并没有集中于保证透明度,可比性和可重复性,这使得很难评估这些方法的优势和缺点。此外,还需要可比的基线表现。在这项研究中,我们在[Schür等人,《自然科学数据》,2023年提出的Adore“ T-F2F”挑战上训练了回归模型,以预测鱼类上有机化合物的LC50(致命浓度50),以LC50(致命浓度50)测量。我们训练了拉索,随机森林(RF),XGBOOST,高斯工艺(GP)回归模型,并发现了一系列稳定的方面,这些方面均稳定:(i)使用质量或摩尔浓度不会影响性能; (ii)性能仅微弱地取决于化学物质的分子代表,但(iii)强烈地依赖于数据的分解方式。总体而言,基于树的型号RF和XGBoost表现最好,我们能够预测log10转换的LC50,其根平方误差为0.90,这对应于原始LC50量表上的数量级。在本地一级,模型无法始终如一地准确地预测单个化学物质的毒性。对单个化学物质的预测主要受几种化学特性的影响,而分类特性未被模型充分捕获。我们讨论了这些挑战的技术和概念改进,以增强对环境危害评估的适用性。因此,这项工作展示了最先进的模型,并为监管整合的持续讨论做出了贡献。
化学物质的调节需要了解其对大量目标物种的毒理作用。传统上,这些知识是通过体内测试获得的。最近为基于机器学习寻找替代方案的努力并没有集中于保证透明度,可比性和可重复性,这使得很难评估这些方法的优势和缺点。此外,还需要可比的基线表现。在这项研究中,我们在[Schür等人,《自然科学数据》,2023年提出的Adore“ T-F2F”挑战上训练了回归模型,以预测鱼类上有机化合物的LC50(致命浓度50),以LC50(致命浓度50)测量。我们训练了拉索,随机森林(RF),XGBOOST,高斯工艺(GP)回归模型,并发现了一系列稳定的方面,这些方面均稳定:(i)使用质量或摩尔浓度不会影响性能; (ii)性能仅微弱地取决于化学物质的表示方式,但(iii)强烈地取决于数据的分配方式。总体而言,基于树的型号RF和XGBoost表现最好,我们能够预测log10转换的LC50,其根平方误差为0.90,这对应于原始LC50量表上的数量级。在本地一级,模型无法准确预测单个化学物质的毒性。对单个化学物质的预测主要由几种化学性质,分类性状并未被模型充分捕获。因此,模型尚不适用于监管过程。尽管如此,这项工作有助于就如何将机器学习整合到监管过程中的持续讨论。
结果:该研究包括1307例HFREF患者中位随访16.3个月(IQR 8.0-30.6)。中位年龄为65岁;男性为68%,而57%是白人。在随访中,有39%(n = 506)开发了HFIMPEF,而61%(n = 801)具有持久的HFREF。多元COX回归模型确定性别,种族合并症,超声心动图和亚位术肽是HFIMPEF的重要协变量(p <0.05)。与持续的HFREF组相比,HFIMPEF组的生存率更好(p <0.001)。超声心动图和实验室轨迹之间的轨迹不同。
这项工作旨在评估用于银河红移估计问题的光度法(高度理想化)数据集中的某些经典回归模型的性能。线性回归模型,多项式回归,决策树,随机森林和支持向量机经过训练和验证,最初是在训练样本中,与原始基本数据的5%相对应。接下来,在测试样本中评估了这些相同的模型,对应于其余95%的基数,从而允许调整后的模型概括的概括。此外,由于变量之间的高度相关性,主要组件分析技术(PCA)也用于降低系统维度。关键字:星系,光度法,回归,宇宙学,机器学习