人工神经网络(ANN)如今被广泛应用,对其性能提升的研究也在持续进行。ANN 的一个主要目标是具有较高的泛化性能,这可以通过验证来估计。集成有助于提高泛化性能,但如果训练数据集的大小有限,集成的验证通常在计算上成本很高。因此,本论文在交叉验证过程中引入了快捷集成,其中对多个验证输出取平均值以估计集成的泛化性能。为了评估该方法,使用两个不同的分类问题数据集,将快捷集成的验证性能与单个模型和实际集成的验证和测试性能进行了比较。结果表明,在验证过程中,快捷集成比单个模型能更好地估计集成的泛化性能,并且可以近似实际集成的验证性能。因此,快捷集成可以在交叉验证期间提供一种成本较低的集成验证方法。
关于混合动力飞机的研究数量正在稳步增加,因为这些配置可以降低运营成本并降低对环境的影响,而这些配置比传统飞机要低。然而,由于缺乏实际混合动力飞机的参考数据,设计工具和结果很难验证。本文通过对比两种独立开发的尺寸确定方法的假设和结果,分析了开发或实施混合动力飞机设计工具时必须验证的关键点。选择一架现有的 19 座通勤飞机作为基线测试案例,并使用两种设计工具来确定该飞机的尺寸。然后,根据混合动力推进技术调整飞机的尺寸。这适用于并联、串联和全电动动力系统架构。最后,进行敏感性研究,以评估混合动力飞机设计的基本假设和方法的有效性。发现这两种方法都可以预测参考飞机的最大起飞质量 (MTOM),误差小于 4%。预测各种(混合)电动配置的 MTOM 和有效载荷范围能量效率的最大差异分别约为 2% 和 5%。本研究的结果证实了这两种方法的正确制定和实施,并提供了可用于对设计工具进行基准测试的参考数据集。
5.2(a)在此模型中,我们将根据训练数据中最接近的树的类别对一棵新树进行分类。这高度取决于培训数据的选择。如果我们将数据集分为两半,并为这两个数据集中的每个数据集制作k = 1的最邻居模型,那么我们很可能会在两个模型上获得非常不同的决策界限,因为我们将预测基于单个训练数据点。这意味着我们在模型中有很大的差异。至于偏见:是高还是低取决于我们认为仅地理位置是否足以确定树类型的信息。如果是这种情况,则偏差很低,因为1-NN模型可以描述非常灵活的映射(在这种情况下,从“位置”到“树类型”)。但是,如果有有关模型中未使用的功能中可用的树类型的相关信息,则可以将其视为偏见,这是由于“真实”输入输出关系的模型不足。
摘要 — 本研究的目的是通过微波辐射计对风暴和热带系统演示时间实验 (TEMPEST-D) CubeSat 任务和全球降水测量微波成像仪 (GMI) 上的降水系统的观测进行交叉验证。本文的目的有两个:首先,展示 TEMPEST-D 和 GMI 观测之间的一致性;其次,展示合并 TEMPEST-D 和 GMI 观测时增强时间采样的潜力。采用了两种交叉验证方法。第一种交叉验证方法是使用先验时空约束定量比较 TEMPEST-D 和 GMI 对降水系统的亮度温度 (TB) 观测。对比分析表明,两种仪器的TB观测值具有相似的概率分布,平均绝对差为2.9 K。第二种交叉验证方法是定量比较TEMPEST-D和GMI TB对热带气旋系统的观测结果。本对比研究分析了三个风暴案例。分析表明,TEMPEST-D和GMI TB观测中的风暴结构和强度相似,总体平均相关系数(r)为0.9。与单独使用GMI数据相比,结合TEMPEST-D和GMI TB对飓风系统的观测可将采样频率提高2.5倍。
说明交叉验证的放松套索,人工神经网络(ANN),渐变机('xgboost'),随机森林('Randomforestsrc'),倾斜随机('aorsf'),递归分区('rpart')或步骤WISE WISE RECLISTION模型。交叉阀排出样品(导致嵌套交叉验证),或使用Bootstrap排除外部样品来评估和比较这些模型之间的性能与表格或图形均值预示的结果。校准图也可以是基于(外部嵌套)交叉验证的(外部嵌套)或引导程序(从包中)样本的。对于某些数据集,例如,当设计矩阵不完全排名时,“ glm-net”可能会在拟合轻松的Lasso模型时具有很长的运行时间,这是从我们的经验中,当我们的经验与许多预测变量和许多患者一起将COX模型拟合到数据时,这使得很难从Glmnet()或Cv.glmnet()中获得解决方案。调用glmnet()和cv.glmnet()时,我们可以通过“路径= true”选项来纠正这一点。在glmnetr包中,路径= true的方法默认情况下是按照。When fitting not a relaxed lasso model but an elastic-net model, then the R- packages 'nestedcv' < https: //cran.r-project.org/package=nestedcv >, 'glmnetSE' < https://cran.r-project.org/ package=glmnetSE > or others may provide greater functionality when performing a nested CV.
[19] 分类器。基本上,此实现的目标是提高 DT 分类器的效率。此分类器的学习率为
在我们的工作中,我们还实施了交叉验证,以提高模型的准确性。交叉验证是用于评估模型性能的机器学习中的一种技术。它有助于确保预测模型对看不见的数据的概括。它涉及将数据分配到不同的集合中,并将结果从不同的分区集获得。有不同类型的交叉验证,例如分层的k折交叉验证,k折的交叉验证,遗留一个交叉验证等[10]。是工作,我们使用了k折的交叉验证。在k折的交叉验证中,数据集分为k折,每个倍数用作验证集,并且测量了每次迭代的精度,最终精度是所有k迭代的平均值[11]。
摘要为了确保机器学习模型可靠并且广泛适用,交叉验证方法至关重要。他们提供了一种有条不紊的方法来调整超参数,评估模型性能以及通过过度拟合,不平衡数据和时间依赖性解决问题。本评论文章对机器学习中使用的许多交叉验证策略进行了详尽的分析,从诸如K折的交叉验证等传统技术到针对特定类型的数据和学习目标的更专业策略。除了当前的发展和交叉验证方法中的最佳实践外,我们还介绍了每种技术的基本原理,用途,利益和弊端。我们还强调了要考虑的重要因素和建议,以根据数据集的特性和建模目标选择合适的交叉验证程序。这项研究的目的是使学者和实践者彻底了解交叉验证方法及其在开发可用的可用文献中开发可靠和可靠的机器学习模型方面的重要性。