python中的主成分分析(PCA)的温和介绍

最流行的功能减少和数据压缩方法,通过在Python中使用Scikit-Learn实施轻轻解释。

来源:KDnuggets
作者的图像|意识形态图

主成分分析(PCA)是降低高维数据维度的最流行技术之一。这是在各种现实世界中的重要数据转换过程以及图像处理,金融,遗传学和机器学习应用程序(数据包含许多需要更有效分析的功能)等行业。

主成分分析

降低降维技术等重要性等原因是多种多样的,其中三个脱颖而出:

    效率:减少数据中的功能数量表明,诸如培训高级机器学习模型之类的数据密集过程的计算成本降低了。发行性:通过将数据投射到低维空间中,同时保持其关键模式和属性,保持其关键模式和属性,保持其在2D和3D中的易于启动和可视化的功能。当通过PCA等方法检测时,可以在保留(甚至改善)随后分析的有效性的同时消除。
  • 效率:减少数据中的功能数量表示降低了数据密集型过程的计算成本,例如培训高级机器学习模型。
  • 效率:
  • 可解释性:通过将数据投影到低维空间,同时保留其关键模式和属性,更容易在2D和3D中进行解释和可视化,有时有助于从其可视化中获得洞察力。
  • 解释性
  • 降低噪声降低:通常,高维数据可能包含冗余或嘈杂的特征,当通过PCA等方法检测时,可以在保留(甚至改善)随后分析的有效性时消除。
  • 降噪

    如何在Python中应用主成分分析

    主组件 mnist数据集
    MNIST数据集|来源:TensorFlow fit_transform 形状
    MNIST数据集|来源:TensorFlow fit_transform形状