贝叶斯推理的案例

如题所述

参加常规x光透视检查的40岁妇女中,患乳腺癌的概率是1%。如果一个妇女患了乳腺癌,她的胸透片呈阳性的概率是80%。如果一个妇女她没有患乳腺癌,她的胸透片呈阳性的概率是9.6%。现有一个该年龄段的妇女她的胸透片呈阳性,那么她实际患乳腺癌的概率有多少?如果把患乳腺癌和不患乳腺癌作为两个互斥事件H和一H,他们的概率分别为P(H)和P(一H);把胸透片呈阳性作为在H和一H中都能观察到某一共同特征D,它在两个事件中出现的概率分别为P(D/H)和P(D/-H);那么,当D出现时,根据以上概率信息就可以计算出事件H发生的概率P(H/D)。一般将P(H)和P(一H)称为基础概率(base rate),将P(D/H)称为击中率(hit rate),将P(D/-H)称为误报率(false-alarm rate),将P(H/D)称为后验概率,其计算方法为:
P(H/D)=P(H)P(D/H)/[(P(H)P(D/H)+P(D/-H)P(-H)]
这就是贝叶斯公式,利用贝叶斯公式进行推断的过程则称之为贝叶斯推理。根据公式,P(H/D)=(1%×80%)/(1%×80%+99%×9.6%)=0.078。也就是说,阳性的检查结果表明该妇女有7.8%的可能性患病。但是Eddy用该问题让内科医生判断,结果95%的答案介于70%~80%,远高于7.8%。尽管贝叶斯公式只是一些简单的乘法、加法以及除法过程的结合,一个并没有学过该公式的人也有可能在推断中不自觉的应用这种方法,但是在包括上述乳腺癌问题在内的许多研究均发现,人们常常会犯类似的推理错误,称之为基础概率忽略(base-rate neglect)现象.Kahneman等(1982)提出启发—偏差理论(heuristics and biases approach)来解释这一现象,并由此引发了关于贝叶斯推理问题的大量研究和争论国内外关于贝叶斯推理问题的研究方法主要是实验法,将不同类型贝叶斯问题呈现给被试并要求他们解答,采用一定的指标对被试的解题过程和结果进行评价,据此来考察贝叶斯推理的认知过程和影响因素。本文以贝叶斯推理的影响因素为线索回顾了以往的研究,并对其中的一些问题进行了初步的分析和探讨。 某地区居民的肝癌发病率为0.0004,现用甲胎蛋白法进行普查。医学研究表明,化验结果是存有错误的。已知患有肝癌的人其化验结果99%呈阳性(有病),而没患肝癌的人其化验结果99.9%呈阴性(无病)。试问:在化验结果呈阳性的人中可能有多少人患有肝癌?
如果我们用A表示样本的观察证据“化验结果呈阳性”,用H表示假说命题“被检查者患有肝癌”,那么由上面可知:
P(H)(即某地区居民的肝癌发病率)=0.0004
P(‘H)(即某地区居民没患肝癌的比率)=1-0.0004=0.9996
P(E/H)(即患有肝癌者其化验结果呈阳性的比率)=0.99
P(E/‘H)(即没患肝癌者其化验结果呈阳性的比率)=1-0.999=0.001
现在需要我们推断的是P(H/E),即在化验结果呈阳性的条件下,假说“被检查者患有肝癌”的比率。显然,根据重新解释过的贝叶斯定理,我们可以很容易地得出P(H/E)的值。
P(H/E)=0.0004×0.99/((0.0004×0.99)+(0.9996×0.001))=0.284
这表明,在化验结果呈阳性的人中,真患肝癌的人不到30%。这个结果可能会使人吃惊,但仔细分析一下就可以理解了。因为肝癌发病率很低,在10000个人中约有4人患肝癌,而9996个人不患肝癌。对10000个人用甲胎蛋白法进行检查,按其错检的概率可知,9996个不患肝癌者中约有9996×0.001≌9.994个呈阳性,另外4个真患肝癌者的检查报告中约有4×0.99≌3.96个呈阳性。仅从13.954(9.994+3.96)个呈阳性者中看,真患肝癌的3.96个人约占28.4%。
从上例可以看出,贝叶斯推理实际是借助于新的信息修正先验概率的推理方法。显然,这样的方法如果运用得当,可以使我们在依据概率作出决断时,不必一次收集一个长期过程的大量资料,而可以根据事物发展的情况,不断利用新的信息来修正前面的概率,作出正确决策。下面的例子很好地说明了这一点。 有甲、乙、丙三家工厂生产同一种零件,市场占有率分别为10%、25%和65%。已知甲、乙、丙三家工厂生产零件的不合格率分别是30%、20%和10%。现从市场上某批零件中随机抽取一件,经检验该零件不合格,则这个零件由甲厂、乙厂、丙厂生产的可能性各是多少?
在没有抽取零件之前,我们知道,来自甲厂的产品其可能性是10%,来自乙厂的可能性是25%,来自丙厂的可能性是65%,这些就是先验概率。相比来说,丙厂生产产品的概率最高。现在我们在市场上随机抽出的是不合格品,这是一个新的信息,可以利用这个信息修正先验概率。如果我们用E表示“抽出的零件是不合格品”,用H1、H2和H3分别表示假说命题“这个零件是由甲厂生产的”、“这个零件是由乙厂生产的”、“这个零件是由丙厂生产的”,那么由上面可知:
P(H1)=0.1 P(H2)=0.25 P(H3)=0.65
P(E/H1)=0.3 P(E/H2)=0.2 P(E/H3)=0.1
根据贝叶斯推理我们可以很容易地得出P(H /E)、P(H )和P(H/E)。其中
P(H1/E)=0.1×0.3/((0.1×0.3)+(0.25×0.2)+(0.65×0.1))=0.207
P(H2/E)=0.25×0.2/((0.1×0.3)+(0.25×0.2)+(0.65×0.1))=0.345
P(H3/E)=0.65×0.1/((0.1×0.3)+(0.25×0.2)+(0.65×0.1))=0.448
显然,根据上面的结果,我们判断该零件是丙厂生产的可能性已从65%下降到44.8%,而该零件是乙厂生产的可能性已从25%上升到34.5%,是甲厂生产的可能性也已从10%上升到20.7%。
在上面的例子中,如果随机抽取一件产品还不能提供充足的信息,可以再随机抽取一件产品以获取更多的信息。现在我们假定连续抽取两件产品都是不合格品,那么这批产品来自各厂的可能性又是多少呢?为了说明这个问题,首先要分别计算甲厂、乙厂、丙厂产品连续抽取两个都是不合格品的概率各是多少。这里假设产品是无限的,则有
P(E/H1)=0.3×0.3=0.09
P(E/H2)=0.2×0.2=0.04
P(E/H3)=0.1×0.1=0.01
然后仍然根据贝叶斯推理依次地得出P(H1/E)、P(H2/E)和P(H3/E)。其中
P(H1/E)=0.1×0.09/((0.1×0.09)+(0.25×0.04)+(0.65×0.01))=0.353
P(H2/E)=0.25×0.04/((0.1×0.09)+(0.25×0.04)+(0.65×0.01))=0.392
P(H3/E)=0.65×0.01/((0.1×0.09)+(0.25×0.04)+(0.65×0.01))=0.255
根据上面的结果,我们可看到,如果连续两次抽取的都是不合格品,则这批产品来自甲、乙、丙三厂的可能性为35.3%、39.2%和25.5%。这种情况下,这批产品来自乙厂的可能性变为最大。
我们还可以再进一步,假定从一批产品中随机抽取三件产品,抽样结果是:不合格、不合格、合格。此时甲厂、乙厂、丙厂产品抽取结果为不合格、不合格、合格的概率分别为(此时A表示“抽出的零件是不合格、不合格、合格”)
P(E/H1)=0.3×0.3×(1-0.3)=0.063
P(E/H2)=0.2×0.2×(1-0.2)=0.032
P(E/H3)=0.1×0.1×(1-0.1)=0.009
根据贝叶斯推理依次地可得出这批产品来自甲、乙、丙三厂的可能性分别为
P(H1/E)=0.1×0.063/((0.1×0.063)+(0.25×0.032)+(0.65×0.009))=0.313
P(H2/E)-0.25×0.032/((0.1×0.063)+(0.25×0.032)+(0.65×0.009))=0.397
P(H3/E)=0.65×0.009/((0.1×0.063)+(0.25×0.032)+(0.65×0.009))=0.290
显然,根据新的抽样信息,我们修正了先验概率,使来自甲、乙、丙三厂的概率分别修正为31.3% 39.7%和29.0%。
我们再来看一个用贝叶斯推理分析伊索寓言“孩子与狼”的例子。
伊索寓言“孩子与狼”讲的是一个小孩每天到山上放羊,山里有狼出没。第一天,他在山上喊:“狼来了!狼来了!”,山下的村民闻声便去打狼,可到山上发现狼没有来。第二天仍是如此。第三天狼真的来了,可无论小孩怎么喊叫,也没有人来救他,因为前二次他说了谎,人们不再相信他了。现在用贝叶斯推理来分析此寓言中村民对这个小孩的可信程度是如何下降的。
我们用E表示“小孩说谎 用H表示“小孩可信”。不妨设村民过去对这个小孩的印象为P(H)=0.8,则P('H)=0.2
我们现在用贝叶斯推理来推断P(H/E),也即这个小孩说了一次谎后,村民对他可信程度的改变。
在贝叶斯推断中我们要用到概率P(E/H)和P(E/'H),前者为可信的孩子说谎的可能性,后者为不可信的孩子说谎的可能性。在此不妨设P(E/H)=0.1,P(E/'H)=0.5
第一次村民上山打狼,发现狼没有来,即小孩说了谎。村民根据这个信息,对这个小孩的可信程度改变为P(H/E)=0.8×0.1/((0.8×0.1)+(0.2×0.5))=0.444这表明村民上了一次当后,对这个小孩的可信程度由原来的0.8下降到了0.444。
在此基础上,我们再一次用贝叶斯推理来推断P(H/E),也即这个小孩第二次说谎后,村民对他的可信程度改变为P(H/E)=0.444×0.1/((0.444×0.1)+(0.556×0.5))=0.138这表明村民们经过两次上当,对这个小孩的可信程度已经从0.8下降到了0.138,如此低的可信度,村民听到第三次呼叫时怎么再会上山打狼呢? 通过观察知道,牵牛花是在黎明4时左右开放,野蔷薇是在黎明5时左右开放, 龙葵花是在清晨6时左右开放,芍药花是在清晨7时左右开放。它们开放的时间虽然不同,但都有确定的开放时间,由此可见所有的花都有确定的开花时间。
显然,这是一个简单枚举归纳推理,相对于观察前提,结论“所有的花都有确定的开花时间”可靠吗?结论为真的可信程度有多大?是否可以用量来刻划?这些问题用贝叶斯推理的方法是可以解决的。
我们用E1、E2、E3、E4分别表示牵牛花有确定的开放时间、野蔷薇有确定的开放时间、龙葵花有确定的开放时间、芍药花有确定的开放时间,它们的合取用字母E来表示。结论“所有的花都有确定的开花时间”用H表示。这样,我们现在需要确定的就是P(H/E)。
根据贝叶斯推理的形式,我们有
(1)P(H/E)=P(H)×P(E/H)/(P(H)×P(E/H)+P('H)×P(E/'H))由于枚举归纳的前提可从结论中必然推出,即P(E/H)=1。因此,由(1)可得:
(2)P(H/E)=P(H)/(P(H)+P('H)×P(E/'H))根据逻辑否定规则,由(2)可得出:
(3)P(H/E)=P(H)/(P(H)+(1-P(H))×P(E/'H))
在(3)中,P(E/'H)表示,假定归纳结论H不真,E(即E1、E2、E3、E4等)为肯定事例的概率。
现在上面的问题可以解决了。相对于背景知识,已知归纳结论H 的先验概率P(H)=0.5,在H不真时“牵牛花有确定的开放时间”、“野蔷薇有确定的开放时间” 等肯定事例出现的先验概率P(E /‘H)=0.8。把以上数据代入(3)得:
P(H/E)=0.5/(0.5+(1-0.5)×0.8)
= 0.5/0.90
= 0.56
这说明,相对于观察证据E1、E2、E3、E4而言,归纳结论H(所有的花都有确定的开花时间)的可信程度为百分之五十六。

温馨提示:答案为网友推荐,仅供参考
相似回答