经典问题——两男孩问题(二)
经典问题——两男孩问题(二)
作为对比,再次列出经典表述:
- 史密斯先生有两个孩子。其中至少一个是男孩。则两个孩子均为男孩的概率是多少?
表述歧义
- 史密斯先生有两个孩子。其中一个是男孩。则两个孩子均为男孩的概率是多少?
这里涉及到“其中一个”是特指还是泛指的问题。有人认为既然出现了“其中一个”,那么就能够将两个孩子区分开,设“其中一个”是 号孩子,那么另一个就是 号孩子。从而问题的答案变为 。也可以认为“其中一个是男孩”是“至少一个是男孩”的等价表述,因此答案为 。我倾向于后者的理解,因为数学上有很多类似的表述,用“其中一个”代指“存在一个”。这是一个完全的表述歧义问题,无需深究,只需要在讨论时明确题意即可。下文中均认为“其中一个孩子如何如何”等价于“存在如何如何的孩子”。
“另一个”所引发的歧义
- 史密斯先生有两个孩子。其中一个是男孩。则另一个也是男孩的概率是多少?
这里涉及到了“另一个”这一表述。由于“另一个”是相对于“一个”而言的,所以需要谨慎地定义问题。问题的关键在于“另一个”是否明确指代了一个孩子。
一种理解是,“其中一个”指代了一个具体的孩子。我们可将其编号为 号孩子。那么“另一个”为 号孩子。从而问题的答案变为 。
另一种理解是,“其中一个”不指代具体的孩子。“另一个”是相对于“其中一个”而言的。那么上述表述可以理解为:
- 史密斯先生有两个孩子,我们将年长的孩子称为 号孩子,年幼的孩子称为 号孩子;
- 定义函数 ,即从孩子编号映射到性别的函数。
- “其中一个是男孩”:定义事件 :存在,使得 。
- “其中一个是男孩(的条件下),另一个也是男孩”:定义事件 : 且 。
- 求 。
那么这种理解下,答案为。这可以通过列表观察得到。( 为“真”, 为“假”。)
家庭 | 概率 | 事件 | 事件 |
---|---|---|---|
所以
我倾向于这种理解。也就是说,“另一个”是相对于“其中一个”而言的,设“其中一个”为 号,则“另一个”为 号。而“另一个也是男孩的概率”不能单独看做是“某个孩子是男孩”的概率,而要与“其中一个”连起来看待,即上述事件“”中的事件不能脱离事件单独存在。
看起来这和上面的“表述歧义”类似,通过明确定义问题就可以避免歧义。但值得注意的是,“另一个”这种表述有时能引发意想不到的问题。
有人认为出现“另一个”一定是特指,基于这样两个问题:
- 史密斯先生有两个孩子。其中一个是男孩且出生于星期二。则另一个也是男孩的概率是多少?
- 史密斯先生有两个孩子。其中一个出生时刻为中午12:00前。则另一个是男孩的概率是多少?
在对“另一个”的理解不同时,答案会有不同。我们先讨论“星期二男孩”问题本身。
“星期二男孩”问题
我们先考虑一个歧义较少的版本。
- 史密斯先生有两个孩子。其中一个是男孩且出生于星期二。则史密斯先生家有两个男孩的概率是多少?
直观来看,男孩是否出生于星期二似乎与另一个孩子的性别无关,因此答案也许是 或 。我们试着用上述函数描述的方式来描述这个问题:
- 史密斯先生有两个孩子,我们将年长的孩子称为号孩子,年幼的孩子称为号孩子;
- 定义函数 ,即从孩子编号映射到性别的函数。
- 定义函数 ,即从孩子编号映射到出生星期数的函数。
- “其中一个是男孩且出生于星期二”:定义事件 :存在 ,使得 且 。
- “史密斯先生家有两个男孩”:定义事件 : 且 。
- 求 。
按照这种表述,我们可以认为“其中一个是男孩且出生于星期二”等价于“有出生于星期二的男孩”。那么这个问题可以写为:
- 史密斯先生有两个孩子。其中有出生于星期二的男孩。则史密斯先生家有两个男孩的概率是多少?
问题的解
我们设孩子出生于星期二的概率为 ,即 。将出生于星期二的男孩记为 ,出生于其他日子的男孩记为 ,仍然通过列表进行计算:
家庭 | 概率 | 事件 | 事件 |
---|---|---|---|
其他 | - |
所以
结果分析
为什么会获得如此反直觉的结果呢?这和我们之前所说的“抽样”改变概率本质上是一样的原理,即通过得知“有出生于星期二的男孩”,我们获得了比“至少一个是男孩”更多的信息。
首先需要强调的是,获取“有出生于星期二的男孩”这一信息的方式的不同是会改变所求概率的。答案为 的前提是,我们是通过一个上帝视角来获取这一信息的,例如第三人告知、事先统计然后混洗等。在这一前提下,“星期二男孩”问题可以按如下方式描述:
- 将所有恰好有两个孩子的家庭信息写在卡片上;
- 筛选出有出生于星期二的男孩的家庭;
- 将满足条件的家庭卡片放入纸箱,充分混洗;
- 从纸箱中随机抽取一张卡片。
求抽到两男孩家庭的概率。
在这种情况下,为什么我们抽到两男孩家庭的概率略小于 呢?我们可以想象这样的过程:
- 将所有恰好有两个孩子的家庭信息写在卡片上;
- 筛选出有出生于星期二的男孩的家庭;
- 我们在每张满足条件家庭卡片上粘贴一到两根线绳,每根线绳另一端连接着一颗小球。卡片上的家庭每有一个出生于星期二的男孩,则粘贴一根连接小球的线绳。这样,有的卡片会连接一颗小球,有的则会连接两颗。
- 将小球放入纸箱,充分混洗;
- 从纸箱中随机抽取一颗小球。
求小球所连接的卡片为两男孩家庭的概率。
不难理解,这样抽出的小球所连接的卡片为两男孩家庭的概率为 。因为这相当于从所有“星期二男孩”中随机抽取一名男孩,调查他的兄弟姐妹的性别。
那么为什么抽取卡片抽到的概率与抽取小球不同呢?答案也显而易见了,因为某些卡片连接着两颗小球。如果总共有 张卡片,那么平均意义下,会有 张卡片连接着两颗小球,其它卡片连接着一颗小球,总共 颗小球。如果从这 颗小球中等可能地抽取,那么有 颗小球连接着“两男孩家庭”卡片,故概率为 。如果从 张卡片中等可能地抽取,那么有 张卡片是“两男孩家庭”。
列表查看这 个家庭:
注意到只有 家庭卡片会连接两颗小球,其余家庭卡片均连接一颗小球。
从这些家庭中随机抽取一个家庭时,抽到两男孩家庭()的概率比 更小,可以这样理解:由于“星期二男孩”均匀分布在“一男一女”家庭()中,但不完全均匀地分布在 家庭中。两类家庭的“星期二男孩”总数相同,故而拥有“星期二男孩”的 家庭数()是略小于拥有“星期二男孩”的 家庭数()的。因此随机抽取一个家庭时,抽到 的概率会略小于 。
额外信息影响概率
那么为什么答案比 大呢?这一点可以从获取额外信息的角度去理解。通过得知“有出生于星期二的男孩”,我们获得了两方面信息:
- 该家庭有男孩;
- 对该家庭的所有男孩查看出生于星期几,发现有出生于星期二的。
如果只有第一条信息,那么所求概率()为 。第二条信息显著增大了所求概率。其原因是,一个孩子出生于星期二的概率是比较小的(只有 ),而我们发现这个家庭有“星期二男孩”,那么我们会更倾向于认为这个家庭有两个男孩,否则如果只有一个男孩的话,恰好遇到“星期二男孩”也太巧了一点。如果这么说比较难理解,我们可以将数字放大试试:
- 有A、B两类人,他们都买彩票;
- A类人占总人数的 ,他们每期买一万注彩票;
- B类人占总人数的 ,他们每期只买一注彩票;
- 现在从这群人这种随机抽取一人,发现他中了彩票。
请问这个人更可能是A类人还是B类人?
答案显然是A类人。虽然A类人占总人数的比例更小,抽到A类人的概率本应比较小。但是我们发现他中了彩票,所以他更可能是买了一万注彩票的A类人。类似的,虽然 只占“有男孩家庭”的 ,但“两男孩家庭”中“有出生于星期二的男孩”的概率显著大于 ,使得我们比原先更愿意相信该家庭为 。
另外,在所有“有男孩家庭”中, 的数量应是 的一半。如果 中“有星期二男孩”的概率是 的恰好两倍,那么我们应认为“有星期二男孩”的家庭是 或 的概率各为 。而事实上, 中“有星期二男孩”的概率略小于 的两倍(分别为和),所以我们认为“有星期二男孩”的家庭是 的概率也略小于。
事实上,观察之前的概率公式:
我们发现,当 取更小的值时(例如改成男孩出生于某月1日、某年1月1日等),该概率趋近于。这是因为 很小时, 家庭发生该事件的概率更接近 家庭的两倍。
当 时,。所以
时两者近乎相等,故而后验概率均接近 。
另一方面,当 时(例如“有智力正常的男孩”、“有会说话的男孩”等),所求概率趋近于 。这也很好理解,因为一个概率接近 的事件所提供的信息是很少的,所以基本没有额外信息,在此条件下的后验概率也基本等于先验概率。
可见,通过分析“星期二男孩问题”,我们再次验证了之前的观点:获取额外的信息会影响概率。
所以,当分析概率问题时,要注意以下几点:
- 分析概率的主体:不同的主体(不同的人)掌握的信息不同,对同一事件所求得的概率也不同;
- 分析概率的时机:在不同时机,我们可能会掌握更多的信息(例如通过额外观察到某事件)或者更少的信息(例如通过混洗卡牌),从而影响我们对某事件发生的可能性的判断;
- 后发生的事件也能影响先前发生事件的概率,因为后发生的事件可能给我们带来额外的信息,从而影响我们对之前的某事件发生的可能性的判断;
- 其他人的行为也能影响我们对某事件所计算的概率,因为观察其他人的行为的结果可能给我们带来额外的信息。[1]
对“特指”、“指明”、“限定”的理解
刚才说到,当选取其他事件代替“出生于星期二”这个事件时,会得到不同的 ,从而改变所求概率。如果我们选取比较具体的事件,例如“出生于2010年1月1日”,那么 会相当接近 (一个孩子出生于特定年月日的概率相当小),从而使得计算出的概率相当接近 。如果我们采取更加具体的事件,例如“姓名为张三,且在2010年1月1日出生于北京”,那么所求概率将无限接近 。这就等同于“指定其中一个是男孩”时的所求概率。
这也就是说,所谓的“特指”或“指明”,就是定义了一个只会发生在特定个体上的事件A,以至于
注意概率为零并不代表不可能发生。而所谓的“限定”就是定义一个发生在特定群体上的事件B,使得
其中 为该群体占总样本空间的比例。
“指明”和“限定”的概念对特定概率问题的理解是有帮助的,但是对于诸如“星期二男孩”类的问题就只能定性分析,而不能解释最后的答案为何小于 。如要定量分析则需要得知上述 。
后续文章将继续讨论“另一个”所引发的歧义问题。
后发生的事件也能影响先前发生事件的概率,以及其他人的行为也能影响我们对某事件所计算的概率,在“三门问题”中都有所体现。 ↩︎