相关性分析

如题所述

第1个回答  2022-06-26
简单相关分析的基本步骤如下:

统计-r(相关系数)与R^2的区别

r与R^2没有关系,就如同标准差与标准误差没有关系一样。

1.相关系数r(correlation coefficient)是一个 评价两个变量线性相关度的指标 。在线性拟合中可以通过拟合结果和实测值的相关系数来反应拟合结果和实测结果 线性相关度 。但是如果本来就用的非线性拟合(多项式、曲线),那这个指标对于评估拟合没有任何意义。

相关系数(r)定义:变量之间线性相关的度量,分三种,spearman, pearson, kendall。

*协方差:两个变量变化是同方向的还是异方向的。X高Y也高,协方差就是正,相反,则是负。*为什么要除标准差:标准化。即消除了X和Y自身变化的影响,只讨论两者之间关系。*因此,相关系数是一种特殊的协方差。

2.决定系数R^2(Coefficient of determination)是一个 评价拟合好坏的指标 。这里的拟合可以是线性的,也可以是非线性的。即使线性的也不一定要用最小二乘法来拟合。两个变量变化是同方向的还是异方向的,X高Y也高,协方差就是正,相反,则是负。

定义:对模型进行线性回归后,评价回归模型系数拟合优度。

公式:R^2=SSR/SST=1-SSE/SST

SST (total sum of squares):总平方和;SSR (regression sum of squares):回归平方和;SSE (error sum of squares) :残差平方和。

解释:残差(residual):实际值与观察值之间的差异

在一组数据中,采用平均值做基线模型(图中黑线)我们的模型(蓝线)都与这个黑线比较,来判断模型的好坏

 结论:R^2=81%,因变量Y的81%变化由我们的自变量X来解释。

R^2 的缺陷:当我们人为的向系统中添加过多的自变量,SSE会减少,从而R^2变大。
相似回答
大家正在搜