Metropolis法和Metropolis-Hastings法有什么区别吗？各自的优点是什么呢？感谢大神

如题

举报该问题

推荐答案 2021-02-23

原文链接：http://tecdat.cn/?p=19664

MCMC是从复杂概率模型中采样的通用技术。

蒙特卡洛

马尔可夫链

Metropolis-Hastings算法

问题

如果需要计算有复杂后验pdf p（θ| y）的随机变量θ的函数f（θ）的平均值或期望值。

请点击输入图片描述

您可能需要计算后验概率分布p（θ）的最大值。

请点击输入图片描述

解决期望值的一种方法是从p（θ）绘制N个随机样本，当N足够大时，我们可以通过以下公式逼近期望值或最大值

请点击输入图片描述

将相同的策略应用于通过从p（θ| y）采样并取样本集中的最大值来找到argmaxp（θ| y）。

解决方法

1.1直接模拟

1.2逆CDF

1.3拒绝/接受抽样

如果我们不知道精确/标准化的pdf或非常复杂，则MCMC会派上用场。

马尔可夫链

请点击输入图片描述

为了模拟马尔可夫链，我们必须制定一个过渡核T（xi，xj）。过渡核是从状态xi迁移到状态xj的概率。

马尔可夫链的收敛性意味着它具有平稳分布π。马尔可夫链的统计分布是平稳的,那么它意味着分布不会随着时间的推移而改变。

Metropolis算法

对于一个Markov链是平稳的。基本上表示

处于状态x并转换为状态x'的概率必须等于处于状态x'并转换为状态x的概率

请点击输入图片描述

或者

请点击输入图片描述

方法是将转换分为两个子步骤；候选和接受拒绝。

令q（x'| x）表示候选密度，我们可以使用概率 α（x'| x）来调整q 。

候选分布 Q（X'| X）是给定的候选X的状态X'的条件概率，

和接受分布 α（x'| x）的条件概率接受候选的状态X'-X'。我们设计了接受概率函数，以满足详细的平衡。

该转移概率可以写成：

请点击输入图片描述

插入上一个方程式，我们有

请点击输入图片描述

Metropolis-Hastings算法

A的选择遵循以下逻辑。

请点击输入图片描述

在q下从x到x'的转移太频繁了。因此，我们应该选择α（x | x'）=1。但是，为了满足细致平稳，我们有

请点击输入图片描述

下一步是选择满足上述条件的接受。Metropolis-Hastings是一种常见的选择：

请点击输入图片描述

即，当接受度大于1时，我们总是接受，而当接受度小于1时，我们将相应地拒绝。因此，Metropolis-Hastings算法包含以下内容：

初始化：随机选择一个初始状态x；

根据q（x'| x）随机选择一个新状态x';

3.接受根据α（x'| x）的状态。如果不接受，则不会进行转移，因此无需更新任何内容。否则，转移为x'；

4.转移到2，直到生成T状态；

5.保存状态x，执行2。

原则上，我们从分布P（x）提取保存的状态，因为步骤4保证它们是不相关的。必须根据候选分布等不同因素来选择T的值。重要的是，尚不清楚应该使用哪种分布q（x'| x）；必须针对当前的特定问题进行调整。

属性

Metropolis-Hastings算法的一个有趣特性是它仅取决于比率

请点击输入图片描述

是候选样本x'与先前样本xt之间的概率，

请点击输入图片描述

是两个方向（从xt到x'，反之亦然）的候选密度之比。如果候选密度对称，则等于1。

马尔可夫链从任意初始值x0开始，并且算法运行多次迭代，直到“初始状态”被“忘记”为止。这些被丢弃的样本称为预烧（burn-in）。其余的x可接受值集代表分布P（x）中的样本

Metropolis采样

一个简单的Metropolis-Hastings采样

让我们看看从伽玛分布模拟任意形状和比例参数，使用具有Metropolis-Hastings采样算法。

下面给出了Metropolis-Hastings采样器的函数。该链初始化为零，并在每个阶段都建议使用N（a / b，a /（b * b））个候选对象。

请点击输入图片描述

基于正态分布且均值和方差相同gamma的Metropolis-Hastings独立采样

从某种状态开始xt。代码中的x。

在代码中提出一个新的状态x'候选

计算“接受概率”

请点击输入图片描述

从[0,1] 得出一些均匀分布的随机数u；如果u <α接受该点，则设置xt + 1 = x'。否则，拒绝它并设置xt + 1 = xt。

MH可视化

画图

设置参数。

修改图，仅包含预烧期后的链

请点击输入图片描述

初始值

第一个样本 vec 是我们链的初始/起始值。我们可以更改它，以查看收敛是否发生了变化。

选择方案

如果候选密度与目标分布P（x）的形状匹配，即q（x'| xt）≈P（x'）q（x'|），则该算法效果最佳。 xt）≈P（x'）。如果使用正态候选密度q，则在预烧期间必须调整方差参数σ2。

通常，这是通过计算接受率来完成的，接受率是在最后N个样本的窗口中接受的候选样本的比例。

如果σ2太大，则接受率将非常低，因为候选可能落在概率密度低得多的区域中，因此a1将非常小，且链将收敛得非常慢。

示例2：回归的贝叶斯估计

Metropolis-Hastings采样用于贝叶斯估计回归模型。

请点击输入图片描述

设定参数

DGP和图

请点击输入图片描述

正态分布拟然

为什么使用对数

似然函数中概率的对数，这也是我求和所有数据点的概率（乘积的对数等于对数之和）的原因。

我们为什么要做这个？强烈建议这样做，因为许多小概率相乘的概率会变得很小。在某个阶段，计算机程序会陷入数值四舍五入或下溢问题。

因此，当您编写概率时，请始终使用对数

示例：绘制斜率a的似然曲线

请点击输入图片描述

先验分布

这三个参数的均匀分布和正态分布。

后验

先验和概率的乘积是MCMC将要处理的实际量。此函数称为后验函数。同样，这里我们使用和，因为我们使用对数。

Metropolis算法

该算法是从后验密度中采样最常见的贝叶斯统计应用之一。

上面定义的后验。

从随机参数值开始

根据某个候选函数的概率密度，选择一个接近旧值的新参数值

以概率p（new）/ p（old）跳到这个新点，其中p是目标函数，并且p> 1也意味着跳跃

请注意，我们有一个对称的跳跃/候选分布 q（x'| x）。

请点击输入图片描述

标准差σ是固定的。

请点击输入图片描述

所以接受概率等于

请点击输入图片描述

实施

（e）输出接受的值，并解释。

算法的第一步可能会因初始值而有偏差，因此通常会被丢弃来进行进一步分析（预烧期）。令人感兴趣的输出是接受率：候选多久被算法接受拒绝一次？候选函数会影响接受率：通常，候选越接近，接受率就越大。但是，非常高的接受率通常是无益的：这意味着算法在同一点上“停留”，这导致对参数空间（混合）的处理不够理想。

我们还可以更改初始值，以查看其是否更改结果/是否收敛。

小结

总结：

请点击输入图片描述

最受欢迎的见解

1.用R语言模拟混合制排队随机服务排队系统

2.R语言中使用排队论预测等待时间

3.R语言中实现马尔可夫链蒙特卡罗MCMC模型

4.R语言中的马尔科夫机制转换(Markov regime switching)模型

5.matlab贝叶斯隐马尔可夫hmm模型

6.用R语言模拟混合制排队随机服务排队系统

7.Python基于粒子群优化的投资组合优化

8.R语言马尔可夫转换模型研究交通伤亡人数事故预测

9.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/Ux29vp2n22s9pvxvpii.html

其他回答

第1个回答 2019-10-18

Metropolis-Hastings算法理解（链接参考：随机过程--Metropolis-Hastings算法）

1.接受率的意义

重点1，平时看到的概率密度函数的意义是在X这个点上有多大概率出现一个事件 Y轴越高的代表出现的概率越高这个大家都明白但是关键时候就忘了所以一定得记住。

重点2，有一个Q分布叫做proposal distribution, 意思是我给你一个建议的分布，他非常要非常像要采样的分布P。这时候接受率就要起作用了，他要做的就是防止这个Proposal distribution走偏了，要指导着他往要采样的分布P走。例子，现在我采了一个点，现在要采下一个了，然后随便采了一个点，这时候就得看接受率了。如果接受率很低，就说明要采样的分布P这里本来就不会出现多少点，所以接受率就是你别采这里，这里在P上概率不高，你返回刚才的那个点再采一个。这次又采了一个点，这时候正好采的这个点接受率很高，然后就接受率就同意这个点了，然后再继续从这个点采。

重点3，接受率是一个分布，接受率概率越高的地方，采的点就会越多，最终采样出来的分布就跟要采样的分布很像。接受率在指导采样的进行。

2.MH里面等比例放大的意思

理解了接受率，下面就是想想为啥要等比例放大。主要就是为了加速采样。

重点1，有时候接受率会一直很小，这个意味着你随便采一个点，很可能就不接受，就是说你一直在做无用功。

重点2，既然接受率是个概率，那么他最大就是1了，那就让人工让他的最大值设为1，其他的取两次转移的比例。这样就能成倍放大采样的概率，比如你原来一个点的采样的时候的接受率是0.01，现在是0.1，这样效率就增加了10倍。这个东西就是区别MCMC和MH的最大的地方。

3.细致平稳分布其实是主要用来推出来接受率的，形象化的认识会比较麻烦，所以不要在上面花很多时间。（资料来源：Metropolis-Hastings算法理解）

Metropolis-Hastings 算法是较早出现且比较一般化的MCMC 方法，最初由 Metropolis 等人在 1953 年提出之后由Hastings 对其加以推广形成了，Metropolis-Hastings 方法。该方法的基本思路是：选择一转移函数68px和初始值25px，若第9px次迭代开始时的参数值为

33px，则第29px次迭代过程为：

从68px中抽取一个备选值15px，计算接受概率253px，以概率73px，置52px，以概93px

，置69px；重复i –iii 次，则可得后验样本101px。根据后验样本可计算后验分布的各阶矩，进行相应的统计推断。

Metropolis算法（参考Metropolis 采样算法）：是蒙特卡洛方法中最著名的算法，它的应用疆域包括统计物理、QCD、天体物理、物理化学、数学、计算生物等等，甚至是社会科学。1953年，Nicolas Metropolis连同Arianna W. Rosenbluth、 Marshall N. Rosenbluth 、Augusta H. Teller、 Edward Teller在《The Journal of Chemical Physics》上发表了一篇题为“Equations of State Calculations by Fast Computing Machines”的文章，提出了后来以Nicolas Metropolis的名字命名的算法。这篇文章至今已被引用了17 000多次。

相似回答

采样方法答：Gibbs Sampling解决了什么问题对于高维的情形，由于接受率a的存在(通常a< 1), 以上 Metropolis-Hastings 算法的效率不够高。能否找到一个转移矩阵Q使得接受率a=1呢？不需要接受率了，根据细致平稳分布。对数据进行重采样，使原本不均衡的样本变得均衡 ...

MCMC把妹法答：根据细致平稳条件，于是，可见分子和分母同比例放大或缩小等式恒成立，所以我们只需要让分子和分母中较大的一个值放大到1，就可以将接受率提高到最大，也就是说让于是，经过改造的MCMC采样算法就变成了教科书中最常见的 Metropolis-Hastings 算法：到这里，我们的MCMC把妹法就算是大功告成了...

时间序列法的缺点和优点分别是什么?答：优点：可以从时间序列中找出变量变化的特征、趋势以及发展规律，从而对变量的未来变化进行有效地预测。缺点：在应用时间序列分析法进行市场预测时应注意市场现象未来发展变化规律和发展水平，不一定与其历史和现在的发展变化规律完全一致。间序列预测法因突出时间序列暂不考虑外界因素影响，因而存在着预测误差的缺陷...

项目反应理论(IRT)详解答：而MCMC算法的介入，更是为参数估计增添了独特的韵律。它通过马尔科夫链，如优雅的舞蹈，以平稳分布的均值为指引，进行多元参数的精细调整。在双参数模型的实践中，Gibbs采样与Metropolis-Hastings方法如同交响乐团中的主旋律和和弦，共同编织出精准的参数估计乐章。综上所述，项目反应理论(IRT)如同教育测量的...

化学中“一锅法”的优点是什么?答：优点是提高反应效率。化学中的一锅合成法（one－potsynthesis），或简称一锅法，是指在一个反应器中使反应物连续进行多步反应，以提高反应效率的一种化学反应策略。这种方法被化学家所广泛青睐，因为此法可以避免在后处理过程中冗长的分离过程和中间体化合物的纯化过程，从而节省时间与资源并且提高收率。

国际经济法概念的狭义说和广义说各自有什么优点与缺点?答：广义说优点：考虑到国际经济法的多元性和开放性，使其成为一个更加全面、包容的法律体系。广义说缺点：可能会造成概念上的混淆，不便于明确理解国际经济法的核心内容和基本原则。狭义说和广义说适用范围的差异 1、适用领域的差异：广义说适用于所有国际经济活动，包括国际贸易、投资、金融等领域，以及相关的...

大家正在搜

法与法律的区别和联系假法斗和真法斗的区别阿尔法和威尔法的区别成文法和不成文法区别法的本质是什么法与法律区别基本法是什么法是什么法与其他社会规范的区别在于