Spearman 相关系数原理解释
定义
首先将两组数据$X_i, X_i$进行排序,有四种排序方法任选一种:$X_i$升序,$X_i$降序,$Y_i$升序,$Y_i$降序,如下:
$X_i$ | $Y_i$ | $x_i$ | $y_i$ |
---|---|---|---|
10 | 20 | 1 | 8 |
15 | 0 | 2 | 1 |
17 | 5 | 3 | 4 |
18 | 3 | 4 | 2 |
20 | 4 | 5 | 3 |
22 | 8 | 6 | 5.5 |
23 | 9 | 7 | 7 |
25 | 8 | 8 | 5.5 |
当 $X_i$ 或者 $Y_i$ 有两个数据或以上重复的时候,取$y_i$ 到 $y_{i + n}$ 的平均值,之后我们将定义一个 $d_i$
$$ d_i = (x_i - y_i) $$
此时即可求我们的相关系数 $r_s$
$$ r_s = 1 - \frac{6\displaystyle\sum^n_{i = 1} d_i^2}{n(n^2 - 1)} $$
原理
斯皮尔曼相关系数表明 $X$ (独立变量)和 $Y$ (依赖变量)的相关方向。如果当 $X$ 增加时,$Y$ 趋向于增加,斯皮尔曼相关系数则为正。如果当$X$ 增加时,$Y$ 趋向于减少,斯皮尔曼相关系数则为负。斯皮尔曼相关系数为零表明当 $X$ 增加时 $Y$ 没有任何趋向性。当 $X$ 和 $Y$ 越来越接近完全的单调相关时,斯皮尔曼相关系数会在绝对值上增加。当 $X$ 和 $Y$ 完全单调相关时,斯皮尔曼相关系数的绝对值为 1。完全的单调递增关系意味着任意两对数据$X_i$,$Y_i$ 和 $X_j$,$Y_j$,有 $X_i−X_j$ 和 $Y_i−Y_j$ 总是同号。完全的单调递减关系意味着任意两对数据 $X_i$,$Y_i$ 和 $X_j$,$Y_j$,有 $X_i−X_j$ 和 $Y_i−Y_j$总是异号。
显著性的确定
Spearman相关系数的显著性为
$$ t = r_s\sqrt{\frac{n - 2}{1 - r^2_s}} $$
其在零假设下服从 $n - 2$ 的 t分布(一般用于找 p-value
)。一般地,斯皮尔曼相关系数在有三个或更多条件的情况下是有用的。并且,它预测观测数据有一个特定的顺序。例如,在同一任务中,一系列的个体会被尝试多次,并预测在多次尝试过程中,性能会得到提升。