当 Pearson 不够时的 Spearman 相关系数

并非所有关系都是线性的,这就是 Spearman 的用武之地。当 Pearson 不够时的后 Spearman 相关系数首先出现在《走向数据科学》上。

来源:走向数据科学

关于皮尔逊相关系数,我们讨论了如何使用它来衡量两个变量(经验年数和薪资)之间线性关系的强度。

皮尔逊相关系数

并非所有变量之间的关系都是线性的,当关系遵循直线模式时,皮尔逊相关性效果最好。

当关系不是线性但仍朝一个方向一致变化时,我们使用 Spearman 相关系数来捕获该模式。

为了理解 Spearman 相关系数,让我们考虑一下鱼市数据集。

鱼市数据集

该数据集包含每条鱼的物理属性,例如:

    Weight – 鱼的重量(以克为单位)(这将是我们的目标变量)Length1、Length2、Length3 – 各种长度测量值(以厘米为单位)Height – 鱼的高度(以厘米为单位)Width – 鱼身体的对角线宽度(以厘米为单位)
  • 重量 – 鱼的重量(以克为单位)(这将是我们的目标变量)
  • Length1、Length2、Length3 – 各种长度测量值(以厘米为单位)
  • 高度 – 鱼的高度(以厘米为单位)
  • 宽度 – 鱼体的对角线宽度(以厘米为单位)
  • 我们需要根据各种长度、高度和宽度来预测鱼的重量。

    这与我们在之前的博客中用于理解多元线性回归背后的数学的示例相同,但首先仅使用高度和宽度作为自变量来获取斜率和截距的各个方程。

    这里我们试图拟合一个多元线性回归模型,我们有五个自变量和一个目标变量。

    现在我们来计算每个自变量与目标变量之间的皮尔逊相关系数。

    代码:

    权重与 之间的 Pearson 相关系数

      长度3为0.923044 长度2为0.918618长度1为0.915712宽度为0.886507高度为0.724345
  • 长度3为0.923044
  • 长度2为0.918618
  • 长度 1 为 0.915712
  • 宽度为 0.886507
  • 高度为 0.724345
  • 高度

    编号

    作者图片
    Spearman 相关系数为 0.8586