常用的统计分析方法总结(聚类分析、主成分分析、因子分析)

如题所述

第1个回答  2022-07-07

1. 系统聚类法 :由N类--1类
2. 分解法 :由1类---N类
3. K-均值法 :事先在聚类过程中确定在K类,适用于数据量大的数据
4. 有序样品的聚类 :N个样品排序,次序相邻的样品聚成一类
5. 模糊聚类法 :模糊数学的方法,多用于定性变量
6. 加入法 :样品依次加入,全部加入完得到聚类图。

a.夹角余弦
b.相关系数

a.常用的类间距离定义有8种之多,与之相应的 系统聚类法 也有8种,分别为
a. 中间距离法
b. 最短距离法 :类与类之间的距离最近两个样品的距离。
c. 最长距离法 :类与类之间的距离最远两个样品的距离。【先距离最短,后距离最远合并】
d. 类平均法 :两类元素中任两个样品距离的平均。
e. 重心法 :两个重心xp 和xq 的距离。
f. 可变类平均法
e. 离差平方和法(Ward法) : 该方法的基本思想来自于方差分析,如果分类正确,同 类样品的离差平方和应当较小,类与类的离差平方和较大。 具体做法是先将 n 个样品各自成一类,然后每次缩小一类,每 缩小一类,离差平方和就要增大,选择使方差增加最小的两 类合并,直到所有的样品归为一类为止。

a. 最短距离法的主要缺点是它有链接聚合的趋势,容易形 成一个比较大的类,大部分样品都被聚在一类中,所以最短 距离法的聚类效果并不好,实际中不提倡使用。
b. 最长距离法克服了最短距离法链接聚合的缺陷,两类合 并以后与其他类的距离是原来两个类中的距离最大者,加大 了合并后的类与其他类的距离。

a. 定义 :主成分分析(Principal Component Analysis,简记 PCA)是将 多个指标化为少数几个综合指标的一种统计分析方法 ,通常我们把转化成的综合指标称为主成分。

b. 本质:降维

c. 表达 :主成分为原始变量的线性组合
d. 即信息量在空间降维以后信息量没有发生改变,所有主成分的方差之和与原始的方差之和

e. 多个变量之间有一定的相关性,利用原始变量 的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用。

f. 累积贡献率一般是 85% 以上

(1)每一个主成分都是各 原始变量的线性组合
(2)主成分的数目大大少于原始变量的数目
(3)主成分保留了原始变量绝大多数信息
(4)各主成分之间 互不相关

a. 基本目的:用 少数几个综合因子去描述多个随机变量之间的相关关系
b. 定义:多个变量————少数综合因子(不存在的因子)
c. 显在变量:原始变量X;潜在变量:因子F
d. X=AF+e【公共因子+特殊因子】
e. 应用: 因子分析主要用于相关性很强的多指标数据的降维处理。
f. 通过研究原始变量相关矩阵内部 的依赖关系,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
g. 定义:原始的变量是可观测的显在变量,而 综合 的因子是 不可观测 潜在变量 ,称为因子。

i. 根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。
ii. 公共因子 :每组变量代表一个基本结构,并用一个不可观测的综合变量表示。
iii. 对于所研究的某一具体问题,原始变量分解成两部分:

i. R 型因子分析——研究变量之间的相关关系
ii. Q 型因子分析——研究样品之间的相关关系

a. 因子载荷 是第i个变量与第j个公共因子的相关系数,绝对值越大,相关的密切程度越高。

a. 变量 Xi 的共同度是因子载荷矩阵的第i行的元素的平方和。记为

b. 所有的公共因子与特殊因子对变量 Xi 的贡献和为1。

a. 确定因子载荷
b. 因子旋转
c. 计算因子得分

a. 寻找简单结构的载荷矩阵:载荷矩阵A的所有元素都接 近0或±1,则模型的公共因子就易于解释。
b. 如果各主因子的典型代表变量不突出,就需要进行旋转使因子载荷矩阵中载荷的绝对值向0和1两个方向分化。

a.意义:对公共因子作正交旋转相当于对载荷矩阵 A 作一正交变换 ,右乘正交矩阵 T ,使 A* = AT 能有更鲜明的实际意义。
b.几何意义:是在 m 维空间上对原因子轴作一刚性旋转。 因子旋转不改变公共因子的共同度,这是因为 A A '=ATT'A'=AA'
c. 旋转方法有:正交旋转和斜交旋转
d. 最普遍的是: 最大方差旋转法

a. 定义:通过坐标变换使各个因子载荷的方差之和最大。
b. 任何一个变量只在一个因子上有高贡献率,而在 其它因子上的载荷几乎为0;
c. 任何一个因子只在少数变量上有高载荷,而在其 它变量上的载荷几乎为0。

思想相同: 降维
前提条件:各变量间必须有 相关性 ,否则各变量之间没有共享信息

相似回答