统计学(53)-用统计检验方法判断正态性

如题所述

第1个回答  2022-07-24
(1)SW检验的思想是基于偏离峰度或/和偏度。峰度(Kurtosis) 通俗来讲就是分布形状是平坦还是尖峰;偏度(Skewness) 则反映了分布形状是否对称。也就是说,峰度和偏度分别从上下和左右两个维度来说明分布是否符合正态分布。
(2)正态分布的峰度和偏度均为0。如果峰度大于0则提示为尖峰,如果峰度小于0则提示为平坦峰;如果偏度大于0则提示为右偏态(正偏态),如果偏度小于0则提示为左偏态(负偏态)。
(3)假定有两个变量x和y,它们的峰度和偏度分别如下左图和右图所示(为了便于比较,将它们的纵坐标进行了统一)。变量x和y的峰度分别为1.66和-0.27, 因此可以看出左图更高尖一些,右图则矮平一些。变量x和y的偏度分别为3.64 和-0.44,与此对应,左图是右偏态,而右图是左偏态。
(4)SW 检验反映了基于峰度和/或偏度对正态分布的偏离程度,该值介于0和1之间,越接近1, 说明越符合正态分布;越接近0, 说明越偏离正态分布。应用例数扩大到5000以内。
(5)对图中的x和y变量进行SW检验,结果分别为W=0.869(P<0.001)和W=0.986(P=0.01),说明相对而言,y变量更接近正态分布。

(1)KS、CVM、AD检验都是基于拟合优度的思想,计算理论(正态)分布与基于数据得到的(正态)分布之间的差异,通俗来说就是,(正态)分布应该有一种形状,而实际数据又是一种形状,比较这两个形状是不是一样的。这几种方法不仅可以用于正态分布的拟合,也可用于其他分布的拟合优度检验(如验证数据是否服从指数分布)。
(2)正态分布的拟合优度检验思路是:先求出正态分布的累积概率函数(Cumulative Distribution Function, CDF), 然后看一下样本数据与该函数的差别有多大。如果二者的差别较小,则说明样本数据的分布接近正态分布,可认为服从正态分布;如果差别较大,则说明样本数据可能不服从正态分布。
(3)KS、CVM、AD这三种检验都是基于这种思想的,它们的区别主要在于对“差别”的定义,如KS法定义理论分布与实际数据分布的差别是绝对值形式,而CVM法是平方的形式,AD法则对CVM法进一步做出了改进。
(4)一个示例

图中较光滑的粗线表示理论的CDF, 粗糙的细线表示实际数据的CDF。可以看出,x变量的差别更大一些,而y变量的差别小一些。这与前面的SW检验结果一致。

(1)如果例数在2000以内,则SW检验的效率最高, 一般建议作为首选方法;而在基于拟合优度的3种检验方法中, AD法效率最高, KS法效率最低。
(2)其实从对上图中的变量y的检验结果中也可以看出, KS检验在0.05的检验水准上无统计学意义(不能推翻“满足正态分布"的无效假设),而SW和AD法均有统计学意义(认为不满足正态分布)。这说明SW和AD法更容易检测出对正态分布的偏离。
相似回答