统计学(54)-用描述的方法判断正态性

如题所述

第1个回答  2022-06-30

为什么用要描述的方法呢?之前的检验不可行吗?
我们在上图中已经发现,右图y的分布挺像正态的,但SW检验和AD检验仍然提示不满足正态分布。

(1)首先要明确,正态性检验的无效假设是"数据服从正态分布“,也就是说, SW等方法先计算偏离正态的程度,然后看能否推翻无效假设。跟其他的假设检验一样,当数据越多时,越容易推翻无效假设。就像t检验中比较两组均值一样,当样本量很大的时候,即使差别0.01也会有统计学意义;同样, 当样本量很大的时候,即使偏离正态很小,也会有统计学意义。
(2)但是,有统计学意义未必代表有实际意义,因为统计学的差异有时对我们来说并不是很重要,如两组身高的差值为0.1cm, 即便有统计学意义,也没有多大实际意义。

不少统计学家并不建议用统计学检验的方法来判断正态性,而是推荐用图形等描述性方法来进行判断。虽然略带主观性,但是考虑到多数的经典统计方法对“偏离正态”这一问题都是有一定抵抗力的,因此图形判断法还是比较有价值的。

(1)Q-Q图和P-P图
Q-Q图(左图)是Quantile-Quantile 的缩写,也就是分位数-分位数图。在Q-Q图中,横坐标是正态分位数,纵坐标是实际数据的分位数。其思想就是:比较理论分位数和实际分位数的差距,如果理论分位数和实际分位数没什么差别,那么图中所有的点应该都在一条直线上;如果差别大,就会偏离直线较远。
因此, Q-Q 图判断正态性的原则就是:如果图中的点大致呈一条从左下至右上的直线,则可以认为是正态的。
P-P(Probability-Probability) 图(右图)的思想跟Q-Q 图差不多,只不过不是用分位数,而是用累积概率。它比较理论上正态分布的累积概率与样本数据的累积概率,其横坐标为理论的累积概率分布,纵坐标为样本数据的累积概率分布。显然,如果二者吻合,则应该是一条从左下至右上的直线;如果偏离直线较远,则说明样本数据不服从正态分布。

相似回答