PCA主成分分析原理

如题所述

在多点地质统计学中,数据样板构成了一个空间结构,不同方向节点就是一个变量。一个数据事件就是由众多变量值构成的整体。在进行数据事件相似性计算与比较时,需要逐点计算其差异;在进行聚类时亦要对所有数据事件进行比较,导致计算效率非常低下。因此很有必要挖掘数据事件内部结构,将其变量进行组合,求取特征值,并用少量特征值完成数据事件的聚类,有效提高储层建模效率。因此,PCA主成分分析被引入到多点地质统计学中。

主成分分析(Pirncipal Component Analysis,PCA)是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。PCA的目标是寻找r(r<n)个新变量,使它们反映事物的主要特征,压缩原有数据矩阵的规模。每个新变量是原有变量的线性组合,体现原有变量的综合效果,具有一定的实际含义。这r个新变量称为“主成分”,它们可以在很大程度上反映原来n个变量的影响,并且这些新变量是互不相关的,也是正交的。通过主成分分析,压缩数据空间,将多元数据的特征在低维空间里直观地表示出来。

假设x=[x1,x2,…,xp]′是一个p维的随机向量,它遵从正态分布x~N(u,σ2)。导出主成分的问题就是寻找x的线性函数a′x,并使a′x的相应的方差最大。

多点地质统计学原理、方法及应用

因此,在代数上就是寻找一个正交矩阵a,使a′a=1,并使方差:

多点地质统计学原理、方法及应用

设矩阵A的特征值为λ1≥λ2≥…≥λp≥0对应λi的特征向量记为ui,令Up×p=

多点地质统计学原理、方法及应用

则U是正交矩阵,即UU′=I,由于A是实对称矩阵,所以有

多点地质统计学原理、方法及应用

多点地质统计学原理、方法及应用

当a=u1时,

多点地质统计学原理、方法及应用

因此,当a=u1时,就满足了方差最大的要求,等于相应的特征值λ1

同理,可推广到一般:

多点地质统计学原理、方法及应用

并且协方差为

多点地质统计学原理、方法及应用

这就是说,综合变量的系数aj是协方差矩阵A的特征值λj对应的特征向量ju,综合变量Fj的重要性等同于特征值λj,这样,就可以用少数几个变量来描述综合变量的性质。

温馨提示:答案为网友推荐,仅供参考
相似回答