多元正态分布n(m,c)具有单型号的“钟形”密度,其中钟的顶部(模态值)对应于分布均值,m。分布n(m,c)由其平均值m∈R唯一决定,其对称和正定的协方差矩阵c∈Rn×n。协方差(正定定义)矩阵具有吸引人的几何解释:可以用(超 - )椭圆形{x∈Rn |唯一地识别它们。 X T C -1 x = 1},如图1。椭圆形是分布相等密度的表面。椭圆形的主轴对应于C的特征向量,平方轴的长度与特征值相对应。特征成分由C = B(d)2 B t表示(请参阅Sect。0.1)。如果d =σi,其中σ∈R> 0,我表示身份矩阵,c =σ2i,椭球是各向同性的(图1,左)。如果b = i,则C = D 2是对角线矩阵,椭圆形是平行于轴平行的(中间)。在由B的列给出的坐标系中,分布n(0,c)总是不相关的。
图 1:将样本从两个类别中分离出来的最大边际超平面 ...................................................................... 9 图 2:决策树算法 .............................................................................................................. 11 图 3:使用决策树对直接邮寄的响应进行分类 ........................................................................ 12 图 4:用于数据分析的 Python 库 ............................................................................................. 21 图 5:我们数据集中缺失值的摘要 ............................................................................................. 23 图 6:热图函数表示空值的分布 ............................................................................................. 24 图 7:说明调查类型的 Python 代码 ............................................................................................. 25 图 8:说明业余建造的 Python 代码 ............................................................................................. 26 图 9:说明飞行阶段的 Python 代码 ............................................................................................. 27 图 10:说明可变数量的发动机的 Python 代码 ............................................................................. 28 图 11:用四个属性的模态值替换缺失值的 Python 代码和结果 ................................................................................................................. 29 图 12:清理后的数据集,没有空值 ............................................................................................. 30图 14:从分类转换为数值后的调查类型摘要 ......................................................................................................................................................................31 图 15:从分类转换为数值后的天气状况摘要 ......................................................................................................................................................31 图 16:从分类转换为数值后的业余建造摘要 ......................................................................................................................31 图 17:从分类转换为数值后的飞行阶段摘要 ......................................................................................................31 图 18:带有数值的发动机数量摘要 .............................................................................................................32 图 19:我们数据集中变量之间相关性的摘要。 .............................................................................................34 图 20:我们数据集的形状 .............................................................................................................................34 图 21:我们数据集中的所有变量 .............................................................................................................35 图 22:筛选特征(可能导致空调事故的潜在特征) .............................................................................................35 图 23:特征重要性 ................................................................................................................ 36 图 24:决策树分类器的分类报告和准确度得分 .............................................................................. 37 图 25:决策树分类器的混淆矩阵 .............................................................................................. 38 图 26:基于曲线下面积的决策树分类器性能图表 ............................................................................................. 38 图 27:随机森林分类器的分类报告和准确度得分 ............................................................................. 39 图 28:随机森林分类器的混淆矩阵 ............................................................................................. 39 图 29:基于曲线下面积的随机森林分类器性能图表 ............................................................................................. 39 图 30:SVM 分类器的分类报告和准确度得分 ............................................................................................. 40 图 31:SVM 分类器的混淆矩阵 ............................................................................................. 40 图 32:基于 AUC 的 SVM 分类器性能图表 ............................................................................................. 40 图 33:朴素贝叶斯的分类报告和准确度得分分类器 .................................................. 41 图 34:朴素贝叶斯分类器的混淆矩阵 .............................................................. 41 图 35:基于 AUC 的朴素贝叶斯分类器性能图表 .............................................. 41 图 36:基于 AUC 对飞机事故数据的不同分类模型的评估性能 ............................................................................................................. 42SVM 分类器的混淆矩阵 ................................................................................................ 40 图 32:基于 AUC 的 SVM 分类器性能图表 .............................................................. 40 图 33:朴素贝叶斯分类器的分类报告和准确度得分 ............................................................ 41 图 34:朴素贝叶斯分类器的混淆矩阵 ............................................................................. 41 图 35:基于 AUC 的朴素贝叶斯分类器性能图表 ............................................................. 41 图 36:基于 AUC 的不同分类模型在飞机事故数据上的评估性能 ............................................. 42SVM 分类器的混淆矩阵 ................................................................................................ 40 图 32:基于 AUC 的 SVM 分类器性能图表 .............................................................. 40 图 33:朴素贝叶斯分类器的分类报告和准确度得分 ............................................................ 41 图 34:朴素贝叶斯分类器的混淆矩阵 ............................................................................. 41 图 35:基于 AUC 的朴素贝叶斯分类器性能图表 ............................................................. 41 图 36:基于 AUC 的不同分类模型在飞机事故数据上的评估性能 ............................................. 42