我们的报告建立了一个基本框架,用于在健康保险欺诈检测的背景下实施可解释的机器学习技术。在健康保险欺诈检测的情况下,欺诈性案件的数量远低于非伪造案件。这种差异会导致机器学习模型偏向非伪装类,从而将欺诈性主张视为非欺骗性的主张。为解决这个问题,这是一种标准做法,可以通过合成增加少数(欺诈性)类样本的数量或通过称为数据不平衡技术的方法来减少多数(非福利)类样本。我们在预处理阶段实施了四种不同的数据不平衡技术,这些技术在第3节中进行了更详细的解释。我们对这三个模型进行了三种机器学习模型的比较研究,并实施了可解释性技术。有关实施机器学习模型工作的更多详细信息,请在第3节中给出。各种不同部分详细介绍了各种可解释的机器学习方法在现实生活中的健康保险数据集上的应用。我们深入了解特征重要性技术,仔细检查输入如何影响输出并探索交互作用。功能重要性技术可以帮助我们更详细地了解各种功能的重要性,并让我们发挥一定的意义。专门的部分还致力于以与业务逻辑相符的方式来解释这些结果。
主要关键词