。cc-by-nc-nd 4.0国际许可证(未经同行评审证明)获得的是作者/资助者,他授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权所有,该版本于2023年10月30日发布。 https://doi.org/10.1101/2023.10.25.563971 doi:Biorxiv Preprint
可重复性是科学的基石,因为发现的复制是它们成为知识的过程。广泛认为,许多科学领域正在经历可重复性危机。这导致了各种准则的出版物,以提高研究可重复性。本教学章节旨在作为用于医学成像的机器学习领域的研究人员的介绍。我们首先区分不同类型的可重复性。对于每个人,我们旨在定义它,描述实现它的要求并讨论其效用。本章以讨论可重复性的好处的讨论以及对这种概念的非态度方法及其在研究实践中的实施的恳求。
作者:B Voelkl · 2020 · 被引用 297 次 — 回答这个问题需要考虑鼓励变革的力量和阻碍研究人员接受生物学的阻力。
Citation for published version (Harvard): Puls, S, Nazmutdinova, E, Kalyk, F, Woolley, HM, Thomsen, JF, Cheng, Z, Fauchier-Magnan, A, Gautam, A, Gockeln, M, Ham, S-Y, Hasan, MT, Jeong, M-G, Hiraoka, D, Kim, JS, Kutsch, T, Lelotte, B, Minnmann, P, Miß, V, Motohashi, K, Nelson, DL, Ooms, F, Piccolo, F, Plank, C, Rosner, M, Sandoval, SE, Schlautmann, E, Schuster, R, Spencer-Jolly, D, Sun, Y, Vishnugopi, BS, Zhang, R, Zheng, H, Adelhelm, P,Brezesinski,T,Bruce,PG,Danzer,M,El Kazzi,M,Gasteiger,H,Hatzell,H,Hatzell,KB,Hayashi,A,Hippauf,f,Jung,Jung,Jung,Jung,Jung,McDowell,McDowell,McDowell,Mt J,Sun,X,Villevieille,C,Wagemaker,M,Zeier,WG&Vargas-Barbosa,NM 2024,“基准了全稳态的电池电池性能的可重复性”,《自然能源》,第1卷。9,不。10,pp。1310-1320。 https://doi.org/10.1038/s41560-024-01634-3链接到伯明翰门户网站的研究出版物
可重复性对于科学的发展至关重要;它对看似矛盾的结果充满信心,并扩大了已知发现的界限。计算机安全具有创建工件的益处,可以促进计算可重复性,这是他人使用他人代码和数据以相对直接的方式使用他人的代码和数据独立重新创建结果的能力。尽管安全界最近增加了对可重复性的关注,但尚未对当前可重复性状态进行独立且全面的测量。在本文中,我们进行了第一项此类研究,针对由机器学习安全性的论文专门生成的可重复的伪像(学术研究中最流行的领域之一),该论文在过去十年(2013-2022)中发表了第1层安全会议。我们对近750篇论文,其代码库和数据集进行了间接和直接可重复性的测量研究。我们的分析表明,在第1级会议中引入工件评估委员会之前和之后,在统计上没有统计学上的差异。然而,根据三年的结果,通过此过程的伪像比没有的伪像更高。从收集的发现中,我们提供了以数据为基础的建议,以改善社区的可重复性,包括我们研究中观察到的五个问题。这样做,我们证明了计算机安全研究中的计算可重复性仍需要取得重大进展。
本文借助图像分类示例研究了深度学习 (DL) 训练算法的不确定性及其对神经网络 (NN) 模型可解释性的影响。为了讨论这个问题,我们训练了两个卷积神经网络 (CNN) 并比较了它们的结果。比较有助于探索在实践中创建确定性、稳健的 DL 模型和确定性可解释人工智能 (XAI) 的可行性。本文详细描述了所有努力的成功和局限性。本文列出了所获得的确定性模型的源代码。可重复性被列为模型治理框架的开发阶段组成部分,该框架由欧盟在其 AI 卓越方法中提出。此外,可重复性是建立因果关系以解释模型结果和建立信任以应对 AI 系统应用的迅猛扩展的必要条件。本文研究了在实现可重复性的过程中必须解决的问题以及处理其中一些问题的方法。
SUV 指标在临床中被广泛使用,因为它简单、易用、可重复,并且与传统的全身 PET/CT 采集协议兼容,只需要静态扫描,而全动力学建模方法则需要复杂的动态研究和动脉血样采集。几乎所有商业和开源医学图像显示软件平台都提供测量 SUV 的选项。然而,定量成像生物标志物联盟倡议的 PET 技术委员会最近进行的一项研究表明,临床和研究环境中使用的不同软件包之间存在相当大的不一致性 [ 4 ]。还应注意,大多数软件包将 SUV 标准化为患者的体重(等式( 6.1 ))。然而,由于脂肪组织的代谢活性不如其他组织,因此提出了其他变体,包括标准化为瘦体重(SUV LBM 或 SUL)[ 5 ] 或体表面积(SUV BSA )[ 6 ]。最大SUV(SUV max )代表最高体素SUV值,平均SUV(SUV mean )代表定义的VOI中所有体素的平均SUV,无疑是最广泛使用的半定量指标(图6.1 )。相反,SUV峰值(图6.1 )在PERCIST标准中定义为代表SUV平均值
摘要:• 我们报告了 2018 年 5 月 1 日至 3 日在英国泰丁顿国家物理实验室举行的研讨会,该研讨会的重点是世界各国计量机构如何帮助解决研究可重复性的挑战。• 研讨会汇集了物理科学、数据分析、生命科学、工程和地质科学领域的测量和更广泛研究界的专家。研讨会共有来自计量实验室 (38)、学术界 (16)、工业界 (5)、资助机构 (2) 和出版商 (2) 的 63 名参与者。参与者来自英国、美国、韩国、法国、德国、澳大利亚、波斯尼亚和黑塞哥维那、加拿大、土耳其和新加坡。• 主题探讨了良好的测量实践和原则如何增强对研究结果的信心以及如何应对工业和研究领域数据量增加的挑战。
摘要:• 我们报告了 2018 年 5 月 1 日至 3 日在英国泰丁顿国家物理实验室举行的研讨会,该研讨会的重点是世界各国计量机构如何帮助解决研究可重复性的挑战。• 研讨会汇集了物理科学、数据分析、生命科学、工程和地质科学领域的测量和更广泛研究社区的专家。研讨会共有来自计量实验室 (38)、学术界 (16)、工业界 (5)、资助机构 (2) 和出版商 (2) 的 63 名参与者。参与者来自英国、美国、韩国、法国、德国、澳大利亚、波斯尼亚和黑塞哥维那、加拿大、土耳其和新加坡。• 主题探讨了良好的测量实践和原则如何增强对研究结果的信心,以及如何应对工业和研究领域数据量增加的挑战。