7.9.1 解释和绘制预测变量和目标变量 ...................................................... 107 7.9.2 活动 0:空闲摘要图 ...................................................................... 109 7.9.3 活动 0(空闲):简化图 ...................................................................... 110 7.9.4 活动 1(移动)摘要图 ...................................................................... 111 7.9.5 活动 1(移动):简化图 ...................................................................... 112 7.9.6 活动 2(觅食):摘要图 ...................................................................... 113 7.9.7 活动 2(觅食):简化图 ...................................................................... 113 7.9.8 活动 3(吃):摘要图 ...................................................................... 115 7.9.9 活动 3(吃):简化图 ...................................................................... 116
保险公司和雇主通常出于经济动机而歧视那些未来更有可能承担医疗费用的人。尽管如此,许多联邦和州法律仍试图限制这种基于健康的歧视。例子包括《怀孕歧视法案》(PDA)、《美国残疾人法案》(ADA)、《就业年龄歧视法案》(ADEA)和《遗传信息非歧视法案》(GINA)。但本文认为,当雇主或保险公司依靠机器学习人工智能(AI)来指导他们的决策时,这些法律无法可靠地防止基于健康的歧视。归根结底,这是因为机器学习人工智能本质上是结构化的,可以识别和依赖代理特征,这些特征可以直接预测它们被编程为最大化的任何“目标变量”。由于员工和被保险人的未来健康状况实际上直接预测了雇主和保险公司无数表面上中立的目标,因此机器学习人工智能往往会产生与基于健康相关因素的故意歧视类似的结果。尽管《平价医疗法案》(ACA)等法律可以通过禁止所有未经事先批准的歧视形式来避免这种结果,但这种方法并不广泛适用。让问题更加复杂的是,几乎所有开发“公平算法”的技术策略在涉及基于健康的代理歧视时都行不通,因为健康信息通常是私密的,因此不能用来纠正不必要的偏见。尽管如此,本文最后还是提出了一种新的策略来对抗人工智能基于健康的代理歧视:限制公司使用与健康相关因素有很强可能联系的目标变量来编程人工智能的能力。
7.9.1 解释和绘制预测变量和目标变量 ...................................................... 107 7.9.2 活动 0:空闲摘要图 .......................................................................... 109 7.9.3 活动 0(空闲):简化图 ...................................................................... 110 7.9.4 活动 1(移动)摘要图 ...................................................................... 111 7.9.5 活动 1(移动):简化图 ...................................................................... 112 7.9.6 活动 2(觅食):摘要图 ...................................................................... 113 7.9.7 活动 2(觅食):简化图 ...................................................................... 113 7.9.8 活动 3(吃):摘要图 ...................................................................... 115 7.9.9 活动 3(吃):简化图 ...................................................................... 116 7.10 开发状态表示:有限状态机 ................................................................ 117
7.9.1 解释和绘制预测变量和目标变量 ...................................................... 107 7.9.2 活动 0:空闲摘要图 .......................................................................... 109 7.9.3 活动 0(空闲):简化图 ...................................................................... 110 7.9.4 活动 1(移动)摘要图 ...................................................................... 111 7.9.5 活动 1(移动):简化图 ...................................................................... 112 7.9.6 活动 2(觅食):摘要图 ...................................................................... 113 7.9.7 活动 2(觅食):简化图 ...................................................................... 113 7.9.8 活动 3(吃):摘要图 ...................................................................... 115 7.9.9 活动 3(吃):简化图 ...................................................................... 116 7.10 开发状态表示:有限状态机 ................................................................ 117
7.9.1 解释和绘制预测变量和目标变量 ...................................................... 107 7.9.2 活动 0:空闲摘要图 .......................................................................... 109 7.9.3 活动 0(空闲):简化图 ...................................................................... 110 7.9.4 活动 1(移动)摘要图 ...................................................................... 111 7.9.5 活动 1(移动):简化图 ...................................................................... 112 7.9.6 活动 2(觅食):摘要图 ...................................................................... 113 7.9.7 活动 2(觅食):简化图 ...................................................................... 113 7.9.8 活动 3(吃):摘要图 ...................................................................... 115 7.9.9 活动 3(吃):简化图 ...................................................................... 116 7.10 开发状态表示:有限状态机 ................................................................ 117
相反,应使用卡方检验和p值来确保真正的关联,而不是依靠套索和RF方法。5-7因此,它们的结果可能有所不同。机器学习中的特征选择可能无法提供真正的关联,原因有几个原因。一个主要问题是过度插入,其中模型,尤其是复杂的模型,捕获噪声而不是训练数据中的真正基础模式。此外,机器学习算法通常会鉴于特征与目标变量之间的相关性,但是这些相关性可能并不意味着因果关系。这种区别至关重要,因为相关并不意味着一个变量会导致另一个变量。另一个挑战是特征选择方法固有的偏差和差异。这些方法可能对使用的特定数据敏感,从而导致偏见或高变化的恢复,这些偏差并不能很好地推广到新数据。此外,不同的算法具有不同的优势和劣势。例如,拉索可能会收缩一些系数为零,可能缺少重要的重要特征,而RF由于其固有的结构而可能会过度强调某些特征。卡方检验和p值是统计方法,可在目标和特征之间提供真正关联。卡方检验和p值测量特征与目标变量之间关联的统计意义,有助于将真实关联与随机噪声区分开。这些方法基于假设检验,提供了一个框架,以测试观察到的关联是否可能是由于偶然的原因。另外,统计方法可以控制混杂变量,以确保确定的关联不是虚假的。最后,统计测试的结果通常可重现,可以在不同数据集中验证。
相关性是随机变量之间的统计关系,其中一个随机变量的变化会导致另一个变化的期望变化。重要的是,在识别模型中选择的特征与目标变量高度相关,以提高预测的准确性,并且还将有助于简化识别模型的训练并有助于提高预测效率。[13,14]来自Kaggle.com的数据集与房地产特征及其价格细分市场有关,以作为培训神经网络和方法的数据。数据集包括具有21613值的房价细分市场以及18个属性。基于属性,选择了价格类别的属性,该属性具有值0、1和2的属性,其中0是廉价段,1是中段,而2是昂贵的段。数据图如表1所示。