Spearman 相关系数原理解释

定义

首先将两组数据$X_i, X_i$进行排序,有四种排序方法任选一种:$X_i$升序,$X_i$降序,$Y_i$升序,$Y_i$降序,如下:

$X_i$$Y_i$$x_i$$y_i$
102018
15021
17534
18342
20453
22865.5
23977
25885.5

当 $X_i$ 或者 $Y_i$ 有两个数据或以上重复的时候,取$y_i$ 到 $y_{i + n}$ 的平均值,之后我们将定义一个 $d_i$

$$ d_i = (x_i - y_i) $$

此时即可求我们的相关系数 $r_s$

$$ r_s = 1 - \frac{6\displaystyle\sum^n_{i = 1} d_i^2}{n(n^2 - 1)} $$

原理

斯皮尔曼相关系数表明 $X$ (独立变量)和 $Y$ (依赖变量)的相关方向。如果当 $X$ 增加时,$Y$ 趋向于增加,斯皮尔曼相关系数则为正。如果当$X$ 增加时,$Y$ 趋向于减少,斯皮尔曼相关系数则为负。斯皮尔曼相关系数为零表明当 $X$ 增加时 $Y$ 没有任何趋向性。当 $X$ 和 $Y$ 越来越接近完全的单调相关时,斯皮尔曼相关系数会在绝对值上增加。当 $X$ 和 $Y$ 完全单调相关时,斯皮尔曼相关系数的绝对值为 1。完全的单调递增关系意味着任意两对数据$X_i$,$Y_i$ 和 $X_j$,$Y_j$,有 $X_i−X_j$ 和 $Y_i−Y_j$ 总是同号。完全的单调递减关系意味着任意两对数据 $X_i$,$Y_i$ 和 $X_j$,$Y_j$,有 $X_i−X_j$ 和 $Y_i−Y_j$总是异号。

显著性的确定

Spearman相关系数的显著性为

$$ t = r_s\sqrt{\frac{n - 2}{1 - r^2_s}} $$

其在零假设下服从 $n - 2$ 的 t分布(一般用于找 p-value)。一般地,斯皮尔曼相关系数在有三个或更多条件的情况下是有用的。并且,它预测观测数据有一个特定的顺序。例如,在同一任务中,一系列的个体会被尝试多次,并预测在多次尝试过程中,性能会得到提升。

参考资料

  1. spearman相关系数_百度百科 (baidu.com)
  2. 斯皮尔曼等级相关系数Spearman's rank correlation coefficient - 知乎 (zhihu.com)