4 我们在 R 中使用了随机森林包,并采用了默认的超参数值。5 在这里,数据选择由用于评估性能的相同标准驱动。具体来说,Deep-SCAN 网络训练利用 FreeSurfer 脑分割结果。厚度与分割高度相关,而分割在相关软件包之间具有特征性差异。然后通过确定与 FreeSurfer 厚度值的相关性来评估与 ANTs 厚度(不使用 FreeSurfer 进行训练)的相对性能。几乎同样成问题的是他们使用可重复性(他们令人困惑地将其标记为“稳健性”)作为额外的排名标准。可重复性评估应在偏差-方差权衡等考虑因素的背景下进行,并使用相关指标进行量化,例如考虑观察者间和观察者内变异性的类内相关系数。6 https://bicr-resource.atr.jp/srpbs1600/
主要关键词