多点地质统计学Dmps方法的原理

如题所述

严格地讲,基于距离的多点地质统计学Dmps原理与Simpat一致。其区别在于Simpat仅对训练图像做了倒角变换,以提取多点统计特征;而基于距离的多点地质统计学Dmps方法则对训练图像的数据样板进行了多次优化处理,提高其模拟性能。

在Dmps算法中,训练图像中数据事件的处理是其核心。处理过程包括PCA主成分分析,核变换以及K均值聚类。

1.PCA主成分分析

PCA主成分分析是数学地质中的常用方法。其主要目的是进行降维,简化变量和公式的一种方法。即将空间中包含的多个变量进行重新组合,达到用少数几个变量进行描述的目的。在Dmps中,PCA用于对训练图像中的数据事件进行分析。对于每个数据事件,其包含的节点数即是其变量数。可以想象一个5*5*5的数据样板,其包含的变量数为125个。直接分析这125个变量之间的相关性及其结构特征显得特别复杂,也没有必要。PCA主成分分析即是对这125个变量进行数学分析,将这125个变量进行合理的组合为新的一组特征向量(d1,d2…dn),选择前面少数几个特征向量就能描述原来125个变量的空间特征,从而达到降维和简化运算的目的。选择特征向量采用核变换方法。

2.核变换

在PCA主成分分析后,需要对特征向量进行选择。选择过多的特征向量计算量大,达不到降维、简化运算的目的,过少的特征向量无法完全揭示原来的数据事件内部的空间结构特征。为了不增加计算成本,同时又能代表数据事件大部分特征,需要开展特征向量选择研究。这里,引入核函数对特征向量进行选择。核变换方法很多,其中,高斯径向基函数方法是常用的一种方法。

首先对特征向量进行排序,d1≥d2≥…≥dn≥0,选择前q个特征向量将特征向量集分为两个部分:φ1={d1,d2,d3,…,dq},φ2={dq+1,dq+2,…,dnT},定义下面的一个高斯对数函数:

多点地质统计学原理、方法及应用

其中{μ11},{μ22}分别由φ12确定。

采用最大似然估计方法,确定q值

多点地质统计学原理、方法及应用

将高斯函数代入上式

多点地质统计学原理、方法及应用

3.K均值聚类

一旦确定了前q个特征向量。就可以用K均值聚类的方法对数据事件进行聚类。需要注意的是,K均值聚类选择的变量是q个特征向量。由于这q个特征向量是线性无关的,因此,k均值聚类效果较好。将对应的数据事件归入到K类中,完成数据事件的聚类。随后,在每一类中,将所有数据事件进行加权平均,获得此类的数据事件原型模型。以此原型模型为基础,就可以开展基于距离的多点地质统计学预测了。

4.基于距离多点地质统计预测

在获得原型模型后,通过比较待估点数据事件与原型模型之间的距离,选择距离最小的原型模型作为模拟结果,随后,在此原型模型中随机选择一个数据事件替换(整体或者局部)待估点处数据事件,完成当前节点模拟。

5.Dmps建模步骤

Dmps建模步骤如下:

1)选择合适的数据样板T;

2)利用数据样板扫描训练图像,建立训练模式库;

3)将数据模式距离投影到多维尺度空间中;

4)利用PCA分析获得特征向量;

5)最大似然估计准则下利用基函数获得前q个特征向量;

6)对q个特征向量所代表的数据事件进行聚类,获得数据事件原型模型;

7)定义一条随机模拟路径,对每一个节点。

a.提取待估点周围数据事件devT(u);

b.计算其与数据事件原型模型距离,选择最接近的数据事件原型模型;

c.从原型模型中随机选择一个数据事件;

d.将选择的数据事件整体或者局部替换掉待估点周围数据事件,固定模拟值;

e.转向下一个待估点,重复a~d,直到所有节点都模拟到,完成一次随机模拟实现。

温馨提示:答案为网友推荐,仅供参考