皮尔逊相关系数的适用条件:当两个变量的标准差都不为零。两个变量之间是线性关系,都是连续数据。两个变量的总体是正态分布,或接近正态的单峰分布。
皮尔逊相关系数衡量随机变量X与Y线性相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
皮尔逊相关系数的适用范围:
理解皮尔逊相关系数:
两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数
以看做是两组数据的向量夹角的余弦
皮尔逊相关系数适用于以下条件:
变量是连续型的。
变量之间呈线性关系。
变量的分布是近似正态分布的。
变量之间没有明显的异常值或离群点。
变量的观测值是成对的,即每个变量都有相应的观测值。
需要注意的是,皮尔逊相关系数只能反映变量之间的线性相关程度,不能用于检测非线性关系。此外,相关系数只能衡量两个变量之间的关系,不能确定因果关系。