pearson与spearman相关系数的比较

如题所述

相关分析说明

相关分析一般是研究定量数据和定量数据的相关性,以及变量之间存在相关性,相关程度是如何的,比如研究身高和体重之间是否有关联等等。

相关分析数据格式

在进行数据分析之前都需要将数据整理成正确的数据格式然后在进行分析,那么相关分析的数据格式是什么样的呢?如下说明:

相关分析的数据格式为一个分析项为一列,比如上图中研究身高和体重,则身高为一列、体重为一列。

Pearson相关系数也叫皮尔逊积矩相关系数,通常用r表示,使用pearson相关系数,数据需要满足:

    线性

    正态分布

    没有异常值

    如果不满足条件可以考虑使用spearman相关系数,以及pearson相关系数的计算如下:

Speaman计算公式如下:

针对pearson相关系数不能识别非线性关系以及并且对一个或者几个异常值比较敏感,此时可以使用spearman相关系数进行替代,spearman相关系数有时也被称为级别相关系数或者秩相关系数,该相关系数是根据两个变量的秩进行相关分析,spearman相关系可以用来衡量两个变量之间是否存在单调相关关系。当值为1时说明一个变量随着一个变量单调递增,当值为-1时,说明一个变量随着另一个变量单调递减。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2022-06-13

相关性(correlation)是指两个随机变量之间的关系,可以衡量两个变量间关系的强弱和方向。一般我们常用的是皮尔森相关系数和斯皮尔曼相关系数。

皮尔森相关系数(pearson correlation coefficient, PCC)是衡量两个连续型变量的 线性 相关关系。

斯皮尔曼相关系数(spearman's rank correlation coefficient, SCC)是衡量两变量之间的单调关系,两个变量同时变化,但是并非同样速率变化,即并非一定是线性关系。

某些情况下两种结果是一致的:

当不完全是线性关系时:

另外,当有离群点时,两者的处理是明显不同的。创建一个数据集,并且加上离群点:

相关系数输出:

即在没有离群点的时候,两者都是0.44;但是当存在离群点之后,pearson系数变成了0.69,但是spearman仍是0.44。spearman系数会考虑这种存在离群点的情况,更加稳定。

参考:
(1) https://stats.stackexchange.com/questions/11746/what-could-cause-big-differences-in-correlation-coefficient-between-pearsons-an
(2) https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/a-comparison-of-the-pearson-and-spearman-correlation-methods/

欢迎大家关注啊!

相似回答