统计学(40)-贝叶斯估计

如题所述

第1个回答  2022-07-20

最大似然估计,本质就是以现有样本为基础分析,然后求出最大可能出现这种结果的总体参数值。
有了这个参数值,就有这批样本整个规律的体现了。就是说当样本数据复杂的时候,点估计(一个点),最小二乘(多个点)的情况并不能有效统计了,最大似然则找出最适参数展现这些数据的特性。

贝叶斯(Bayes) 估计是基于先验信息的一种估计方法,也就是说,根据已有的一些经验(规律),把经验纳入估计过程中,从而得到估计值。在经典的频率统计中,参数是固定的,样本统计量是随机变量。而在贝叶斯统计中,认为参数也是随机变量,服从某一概率分布的随机变量,贝叶斯统计的重点是研究参数的分布。
由研究样本与参数的关系到研究参数的分布,这就是点估计到贝叶斯估计的转变。

某市男性司机和女性司机各自占的比例为60%和40%。现在发生了一起车祸,某位司机把一堵墙撞倒了,没有发生人员伤亡。我们想了解一下,这位撞墙的司机可能是男性还是女性。
在这里,往往我们会考虑两个问题:第一男女司机的比例,第二是男女司机撞墙的可能性。
这两点就是已有经验!
思考过程:
(1)如果我们没有任何数据,只有该市男女司机的比例,那么我们会推测,撞墙的司机有60%的可能是男性(毕竟男性司机更多) 。
(2)但我们又获得了另一组数据,即男性司机撞墙的可能性为1%, 女性司机撞墙的可能性为5% 。那么在这种情况下,我们如何来判断呢?
(3)我们可以计算出:男性司机撞墙的概率是60% x 1%=0.6%, 女性司机撞墙的概率是40% x 5%=2%。此时撞墙为男性司机的可能性为0.6%/(0.6%+2%)=23%, 撞墙为女性司机的可能性为2%/(0.6%+2%)=77%, 也就是说,发生这起撞墙事故的更有可能是女性司机。
(4)这里的先验是很重要的,如果本例中已知男女司机比例不是60%和40%, 而是90%和10%, 那么最终计算的男性司机撞墙的概率就不是0.6%, 而是0.9%; 同样,女性司机撞墙的概率也不是2%, 而是0.5%。这样一来,这起撞墙事故就很可能是由男性司机造成的。

已知某疾病的患病率为1%, 某研究者发现一个诊断指标,该诊断指标的灵敏度和特异度均为95% 。
也就是说,如果一个人患病,则有95%的概率能够正确诊断其患病;如果一个人没有患病,则有95% 的概率能够正确诊断其为非患者(反过来就是说,如果一个人没有患病,则有5%的可能性将其误诊为患病)。我们来分析一下该诊断指标是否值得在临床上推广。
分析过程:
(1)甲患病且诊断为患病的概率为 1% X 95% = 0.95%
(2)乙没有患病且诊断为患病的概率为 99% X 5% = 4.95%
(3)正确诊断为患病的概率0.95%/(0.95%+4.95%)=16.1%
在患病的诊断例子中,正确诊断患病的概率是16.1%,其实,这个概率并不高。
为什么会这样呢?
原因就是该病的患病率太低,多数人是不患病的。在这种情况下,尽管只有5%的误诊率,但考虑到不患病人数巨大, 5%的误诊率足己造成很高的假阳性。由千患病率很低,如果该诊断指标想进一步提高正确诊断的性能,则应该在提高特异度上下功夫( 特异度95%还是太低啊 )。

特点:首先要了解一定的先验,然后收集样本数据,根据样本数据的结果再进行调整,重新计算得到所谓的后验信息。
贝叶斯公式一般可以表示为:

式中P(BIA)表示在A 成立的条件下, B 的发生概率。我们把公式中的A和B替换一下,改为更通俗易懂的形式:

传统的概率分布一般是正向概率,如某病的患病率是1%,如果随机抽取一个人,那么此人患该病的概率有多大。而贝叶斯估计基于逆向概率,如在诊断疾病的例子中,人被该诊断指标诊断为患病,反推他真正患病的概率有多大;在司机撞墙时间中,如果一位司机被发现撞倒了墙,反推他是男性司机的概率有多大。
厉害!厉害!厉害!

(1)已有的先验或规律是男性司机占60%, 现象是撞墙,男性司机撞墙的可能性为1%, 女性司机撞墙的可能性是5%, 同时考虑到男性和女性,则整个撞墙现象出现的概率就是1%x60%+5%x40%=2.6% 。根据这些数据,估计撞墙为男性司机的可能性为:

(2)已有的先验或规律是患病率为1%, 现象是诊断患病,患病者被诊断为患病的可能性为95%, 未患病者被诊断为患病的可能性是5%, 则整个诊断为患病现象出现的概率就是95% x 1%+5%x99%=5.9% 。根据这些数据,估计诊断为患病的人是患者的可能性为:

相似回答