对化学物质的调节需要了解其对大量物种的毒理作用,这些物种传统上是通过体内测试获得的。最近为基于机器学习寻找替代方案的努力并没有集中于保证透明度,可比性和可重复性,这使得很难评估这些方法的优势和缺点。此外,还需要可比的基线表现。在这项研究中,我们在[Schür等人,《自然科学数据》,2023年提出的Adore“ T-F2F”挑战上训练了回归模型,以预测鱼类上有机化合物的LC50(致命浓度50),以LC50(致命浓度50)测量。我们训练了拉索,随机森林(RF),XGBOOST,高斯工艺(GP)回归模型,并发现了一系列稳定的方面,这些方面均稳定:(i)使用质量或摩尔浓度不会影响性能; (ii)性能仅微弱地取决于化学物质的分子代表,但(iii)强烈地依赖于数据的分解方式。总体而言,基于树的型号RF和XGBoost表现最好,我们能够预测log10转换的LC50,其根平方误差为0.90,这对应于原始LC50量表上的数量级。在本地一级,模型无法始终如一地准确地预测单个化学物质的毒性。对单个化学物质的预测主要受几种化学特性的影响,而分类特性未被模型充分捕获。我们讨论了这些挑战的技术和概念改进,以增强对环境危害评估的适用性。因此,这项工作展示了最先进的模型,并为监管整合的持续讨论做出了贡献。
主要关键词