对于每个组大小和一对决策集成方法,我们比较了所有可能的小组获得的所有方法的准确性。然后,我们应用了Wilcoxon签名的等级测试,以获得统计显着性的度量。正如其中一位审稿人正确指出的那样,Wilcoxon签名的等级测试要求所有观察结果彼此独立:在我们的情况下,这种假设可能违反,因为不同的群体可能共享很大比例的个体。要验证这是否可能是一个问题,我们将自己置于零假设中,即测试的聚合方法对不会改变记录的组绩效。因此,我们遍历了每个组,然后随机交换了通过测试的两种方法获得的精度,然后运行Wilcoxon签名的等级测试。我们重复了此过程10,000,并确定了所得数据集中的第5个百分位数。这代表标准置信度,α= 0.05。Wilcoxon测试以所有组尺寸和成对的聚合方法的p值在第5个百分点中返回的P值非常接近0.05。对于巡逻实验,它们为0.05041±0.00205,前哨实验为0.05021±0.00441。这表明与样品独立性相关的任何潜在问题都是最小的,并在我们的实验中验证了Wilcoxon签名的等级测试的使用。
主要关键词