在不同训练的模型之间预测的差异是公平二进制分类中的重要,爆炸率不足的错误源。实际上,某些数据示例的差异是如此之大,以至于决策可以有效任意。为了调查这个问题,我们采用了一种实验方法,并做出了四个总体贡献。WE:1)定义一个称为自矛盾的度量,源自差异,我们将其用作衡量和降低任意性的代理; 2)开发一种结合算法,即预测是任意的时弃权分类的; 3)对公平二进制分类中方差(相对于自愿和任意性)的作用(相对于自愿和任意性)的作用进行最大的实证研究;以及4)释放一种工具包,该工具包使《美国房屋抵押贷款披露法》(HMDA)数据集易于用于未来的研究。总的来说,我们的实验揭示了关于基准数据集上结论的可靠性的令人震惊的见解。在考虑预测中存在的任意性数量时,最公平的二进制分类台 - 在我们甚至尝试采用任何公平干预措施之前。这一发现质疑了常见算法公平方法的实际实用性,进而表明我们应该重新考虑如何选择如何测量二进制分类中的公平性。
主要关键词