贝叶斯决策论及贝叶斯网络

如题所述

第1个回答 2022-07-02

对于一个数据进行分类，那么数据的属性信息称为x，如果知道后验概率的情况下即能得到确定x的情况下分类为ci的概率。这时我们还需要一个损失的权值，λij称为i错判为j的损失（λii为0，一般λij都相等=1但具体情况可以具体分配），由前边得到的后验概率来乘上这个λ的参数这就叫做条件风险（conditional risk）。

那么我们可以设计一个映射关系h，从x->c可以将结果带入条件风险，求整体风险最小。
但是其中后验概率很难在现实任务中取到，所以引入机器学习的目标的就是去训练这样一个后验概率（从大量的样本数据中）当然也有两种方式：

可以看到前边判别类别的决策树，bp，svm都是判别式模型。（从这里看出我们的终极目标还是去计算 p(c|x) ，符合现实的要求。）

根据贝叶斯定理，要求联合概率分布，可以通过 p(c )*p(x|c)/p(x) 来得到，前者是类先验概率，后者是类条件概率，或者称似然。
p（x）是用于归一化的证据因子，对于给定的样本x，证据因子和类标记无关。（证据因子的存在知识为了保证各类别的后验概率的总和为1,所以在固定x的情况下这一项相当于常数，在比较时不做考虑）

但如果x样本的属性很多或者是一个连续值，那么样本个数是不可能完全模拟到所有的取值的，更不用说还要去计算他们出现的联合概率了，也就是说得到的 p(x|c) 会有很多零值。
那么无法通过样本来进行模拟分布，可以用mle（极大似然估计）的方法，通过设定一个通用的分布函数（如：正态分布，不一定是正态，所以这个假设存在一定误差，或者说我们在指定假设分布形式时需要参考一定的先验知识（也就是我们训练数据的风格））然后通过训练分布中的参数来让极大似然最大。

1.朴素贝叶斯分类器：（naïve bayes classification）
条件：
将所有的属性假设为相互独立也就是每个属性独立地对分类结果发生影响，这个想法很天真，很梦幻。
当然有了这个假设就很好计算了，计算联合分布的过程：通过训练集D来得到类先验概率然后再得到类条件概率。对于离散的取值数据量够可以直接用取值在训练集D中的概率直接估计，对于离散取值过多，或者是连续取值的情况可以用最大似然来做估计。
然后通过计算和比较 p（c=1，x) 和 p（c=2,x) 的大小，来或者最后输出c是判为1还是2。
因为离散取值会因为在数据集中找不到而变成概率为0，这样会影响所有的判断，这样就可以通过一个平滑处理（如：拉普拉斯修正）来将其修正为（Dci+1）/（Dc+Nx），Dci为类别为c，x属性取值为i的个数，Nx为属性x的可能的取值数。同理对于类先验也要进行平滑处理。（这样的平滑操作算是一种先验，而且随着样本集增大影响逐渐减少的趋向于真实值。）

2.半朴素贝叶斯分类器（semi-naïve bayes classification）
条件：
既然所有属性都假设为相互独立过于天真，那么我们假设一种独依赖，也就是假设每一个属性在类别之外最多仅依赖于一个其他属性。我们称这种假设为semi-naïve 的假设。
那么这样的独依赖也会有一些设计的方式:
1.都依赖于一个相同的父属性(SPODE);
2.随机依赖于除自己以外的其他的属性，但要让生成的树达到最大的权值（权值由两个属性之间的条件互信息来决定），构成最大带权生成树（TAN）。
但是因为有无环的性质，所以无论哪一种最后一定会有一个属性是没有父依赖的。

3.非朴素贝叶斯--贝叶斯网络：（放弃之前“天真”的假设）

条件：
前边半朴素通过图连接来刻画属性之间的依赖关系，那么同样贝叶斯网络也在用这种有向无环图来刻画属性之间的依赖关系，并用条件概率表（CPT，conditional probability table）作为边的参数也就是（整个贝叶斯网络的参数）主要是子属性和父属性相对应的条件概率。而一个属性他的父属性个数没有任何限制。
问题：
但这样不如上一个半朴素贝叶斯结构基本固定直接遍历搜索空间也不会很大，可以用最大边的方式构建贝叶斯网络，也就是说这样的网络结构很难去构建和生成，主要是用似然损失+构造损失（参数个数*参数的精度）作为损失函数来进行优化，但是这直接求解是一个NP难的问题，这样就有两种方式第一种：贪心法，通过初始化一个网络结构，然后每次调整一个边（增加，删除或调整方向）使得loss变化最大，直到最后评分函数无法在降低。（当然这样的一个初始化网络结构就会变得很重要）第二种：通过给网络结构添加约束，比如将网络结构限定为树形结构等。
方法：
除了之前我们用作的分类问题，还可以做扩展到一个推断的问题，比如蒙着眼摸出西瓜的根蒂，形状，大小，能推断出它的色泽到底是青绿还是黄绿，是好瓜还坏，甜度如何等等。而且还可以直接精确计算出后验概率，但是当网络结点很多，连接又很稠密，而且查询的属性又含有依赖关系的时候，在短时间内计算出准确的结果会很难。所以我们通过借助近似的方式推断结果。（我们只想知道哪种可能性大得多，具体大多少不是我们要求的结论）
这种近似的做法就是吉布斯采样方法，固定我们获得的证据属性E，然后通过初始化一个q0，接着对于q0中的某一个属性根据其他的属性不变，根据计算得到的条件概率进行采样。这是一个马尔科夫链（marcov chain），性质：在经过t次的采样之后，马尔科夫会收敛于一个平稳分布，而这个平稳分布正是我们要求的那个 p（Q|E=e）的分布。这样我们就可以通过吉布斯采样来得到一个模拟化的分布得到q最有可能的取值。（或者给定q， p（q|E=e）估计的概率是多少）

隐变量介绍以及解决方法：
上诉还有一个问题那就是属性缺失的情况下怎么办，我们的模型网络还能创建得出来吗？也就是说存在隐变量（latent variable）该怎样解决这样的问题？
EM(Expectation-Maximization）算法是常用的估计参数隐变量的方法。
主要的思想就是：隐变量和模型参数是我们要求的，而二者之间存在相互依赖的关系，也就是不知道隐变量无法求出模型参数，不知道模型参数也无法反推出隐变量。那如果是一种优化迭代算法的话，初始化隐变量，然后训练得到最优的参数，然后通过固定最优的参数再反过来训练到最优的隐变量。直到最后收敛到一个局部最优解。（所以这种算法求解的结果是和初始值关系比较大的局部最优解，如果能找到一个接近全局最优解的初始值，或者在接受解的概率上做调整不至于过快收敛，可能可以得到一个更好的解。）

参考文献：西瓜书-贝叶斯决策论

相似回答

贝叶斯网络的用途答：贝叶斯网络的用途是用于建模和推理不确定性问题。贝叶斯网络是一种概率图模型，由一组节点和有向边组成，用于表示随机变量之间的依赖关系。节点表示随机变量，有向边表示条件依赖关系。通过贝叶斯网络，可以方便地计算联合概率分布、条件概率分布等，从而进行推理和决策。贝叶斯网络的应用非常广泛，例如在自然语言...

贝叶斯网络的特性答：1、贝叶斯网络本身是一种不定性因果关联模型。贝叶斯网络与其他决策模型不同，它本身是将多元知识图解可视化的一种概率知识表达与推理模型，更为贴切地蕴含了网络节点变量之间的因果关系及条件相关关系。2、贝叶斯网络具有强大的不确定性问题处理能力。贝叶斯网络用条件概率表达各个信息要素之间的相关关系，能在...

贝叶斯原理及应用答：贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想是：1、已知类条件概率密度参数表达式和先验概率。2、利用贝叶斯公式转换成后验概率。3、根据后验概率大小进行决策分类。他对统计推理的主要贡献是使用了"逆概率"这个概念，并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一...

贝叶斯网络在航天控制中的应用主要是处理什么问题答：1、贝叶斯网络本身是一种不定性因果关联模型。贝叶斯网络与其他决策模型不同，它本身是将多元知识图解可视化的一种概率知识表达与推理模型，更为贴切地蕴含了网络结点变量之间的因果关系及条件相关关系。2、贝叶斯网络具有强大的不确定性问题处理能力。贝叶斯网络用条件概率表达各个信息要素之间的相关关系，能在...

如何运用机器学习解决复杂系统的预测问题答：2, 朴素贝叶斯分类器到贝叶斯网络:分类,是决策的基础,商业中要根据收集客户的消费特征将客户分类从而精准营销。金融中你要根据一些交易行为的基本特征将交易者做分类。从贝叶斯分析的基本思路出发我们可以迅速得到几种分类器。首当其冲的朴素贝叶斯分类器,它是机器学习一个特别质朴而深刻的模型:当你要根据多个特征而...

贝叶斯网络和贝叶斯分类算法的区别答：2、贝叶斯分类算法是：统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naïve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。3、贝叶斯网络和贝叶斯分类算法的区别：由于贝叶斯...

大家正在搜

贝叶斯决策论入门贝叶斯决策贝叶斯决策是依据贝叶斯决策的概念最小贝叶斯决策贝叶斯决策分析贝叶斯决策例题贝叶斯决策面贝叶斯公式决策