经典问题——两男孩问题(一)


经典问题——两男孩问题(一)

本文尝试从两男孩问题出发,探讨概率问题中常见的误区。这些误区大多来自知乎提问和回答。

希望通过本文阐述以下观点:

  • 概率是在已知部分信息的基础上,对未知事件发生的可能性的度量;
  • 计算概率的主体是掌握部分信息的某个人或某个群体,而不是客观世界(或者如果针对客观世界,则主体可以是全人类);
  • 信息的获取方式潜在地影响概率;
  • 获取额外的信息会影响概率;
  • 概率问题需要比较严谨的表述,模糊不清的表述会引起歧义。

两男孩问题(也称“两孩子问题”、“男女孩悖论”等)的问题表述如下:

  • 琼斯先生有两个孩子。其中年长的孩子为女孩。则两个孩子均为女孩的概率是多少?
  • 史密斯先生有两个孩子。其中至少一个是男孩。则两个孩子均为男孩的概率是多少?

对于第一个问题,答案比较明确,就是 。对于第二个问题,由于题目中缺乏关键信息,所以存在一定的歧义。根据具体情况的不同,答案可能是 ,甚至其他值。

我们暂且放下语言表述方面的问题(后面会讨论),如所求概率是孩子的概率还是家庭的概率等;也暂且放下诸如“孩子性别已经确定了,为什么还有概率”之类的问题;更暂且放下“大于等于究竟能不能等于”之类的问题。我们先来讨论经典表述下的题目(史密斯先生家的男孩数)本身。同时,我们认为“至少一个是男孩”等价于“男孩数不为零”。

经典表述下的问题分析

提示

在下面的讨论中,请时刻注意问题的关键:“至少一个是男孩”这一信息是如何得知的。

通过上帝视角得知

如果我们用下面的表述,答案应该会明确许多:

在所有恰好拥有两个孩子、且男孩数不为零的家庭中,随机抽取一个家庭,求抽到有两个男孩的家庭的概率是多少?

这等价于我们做了如下操作:

  • 将所有恰好拥有两个孩子的家庭的信息写在卡片上,每张卡片一个家庭;
  • 扔掉所有男孩数为零的家庭的卡片;
  • 将所有剩余卡片混洗均匀放入纸箱;
  • 随机从纸箱中抽取一个家庭。

求抽出的家庭是“两男孩家庭”的概率。

那么答案很明确,是

在这一问题中,我们是如何得知“至少一个是男孩”这一信息的?是事先统计得知的,我们的抽取只发生在满足这一条件的家庭中。也就是说,我们在制作卡片时已经得知了每个家庭的情况,只不过后来我们通过混洗卡片,将每个家庭的具体信息又丢弃了。这样的过程有些复杂,容易让人产生迷惑。我们可以再改为下面的操作:

  • 请一个裁判 将所有恰好拥有两个孩子的家庭的信息写在卡片上,每张卡片一个家庭;
  • 请裁判 扔掉所有男孩数为零的家庭的卡片;
  • 请裁判 将所有剩余卡片混洗均匀放入纸箱;
  • 我自己 随机从纸箱中抽取一个家庭。

求抽出的家庭是“两男孩家庭”的概率。

这样的操作可以一定程度上避免对操作前后的概率的混淆。类似地,我们可以这样表述这个问题:

史密斯先生家有两个孩子。了解史密斯先生家庭情况的第三人告诉我:“史密斯先生家的男孩数不为零”。

求在已知这些信息的条件下,我认为史密斯先生家有两个男孩的概率。

这几种表述有一个共同点:有一个上帝视角的人告知我“至少一个是男孩”这一信息。在三个例子中,这个上帝视角的人分别是:洗牌之前的我自己、裁判和第三人。在这种情况下,计算出的答案是

通过一次抽样得知

除了通过上帝视角得知之外,我们也可能通过一次抽样得知“至少一个是男孩”这一信息。例如:

史密斯先生家有两个孩子。我询问史密斯先生年长的孩子的性别,史密斯先生回答:“是男孩”。

这种情况下答案与“琼斯先生家”问题相同,史密斯先生家是两个男孩的概率为

计算得的概率不同,意味着我们从题目中获取的信息不同。为什么“询问男孩数是否为零”和“询问年长的孩子的性别”所带来的信息不同呢?

有人试图以“特指”、“泛指”、“指明”、“限定”等概念来解释这个问题,即“年长的孩子”是特指(或者指明),所以计算出的答案有所不同。这可能也是一种理解方式,但这些概念的引入会进一步复杂化这个问题,并且只能定性描述而非定量。我这里采用“抽样”作为解释方法,并且能够展示出为什么“抽样”会改变所求概率。

我们可以认为,“询问年长的孩子的性别”是一次抽样。想象两个孩子是两个小球,如果小球是红色则为男孩,白色为女孩。“询问年长的孩子的性别”等价于这样的操作:

  • 请史密斯先生将两个小球按年龄顺序排列好;
  • 我取出第一个小球并查看其颜色。

我取出小球的过程即为一次“抽样”。那么为什么抽样得到的信息与直接通过上帝视角获知的信息不同呢?

抽样得到了什么信息

试想下面的情景:

史密斯先生家有两个孩子。某日我拜访史密斯先生家,按门铃后,一男孩开了门。

假设我们知道家中的孩子一定是史密斯先生的孩子、史密斯先生的两个孩子都有开门的能力、每次开门的孩子是随机的等等不必赘述的前提。那么我们在这种情况下可以计算出,史密斯先生家是两个男孩的概率为

第二天我再次拜访史密斯先生家,按门铃后,一男孩开了门。

假设我是脸盲,并不能判断出第二天开门的男孩和第一天开门的男孩是否为同一人,只能判断出其性别。那么在这种条件下,我们仍然只能确定“男孩数不为零”,但是你会认为史密斯先生家是两个男孩的概率仍为 吗?也许你还没有什么感觉。我们重复上述过程再看:

第三天我再次拜访史密斯先生家,按门铃后,一男孩开了门。

第四天我再次拜访史密斯先生家,按门铃后,一男孩开了门。

……

天我再次拜访史密斯先生家,按门铃后,一男孩开了门。

在这种条件下,我们仍然只能确定“男孩数不为零”,因为不能排除有女孩但我没有遇见的情况。那么在第 天,你还会认为史密斯先生家是两个男孩的概率仍为 吗?如果按照常识去思考,史密斯先生家几乎一定是两个男孩。否则如果是一男一女的话,我拜访了 次,怎么可能每次都是男孩来开门呢?(注意前提:每次开门的孩子是随机的。)

所以,我们回过头来可以发现,第一天拜访时,一男孩开了门,这为我们提供了两部分信息:

  • 史密斯先生家的男孩数不为零;
  • 从两个孩子中随机抽样一次,抽到了男孩。

其中第二条信息潜在地增大了史密斯先生家有两个男孩的概率。因为如果史密斯先生家是一男一女,那么我是有可能抽到女孩的。但是从结果来看,我抽到了男孩,因此史密斯先生家有两个男孩的概率提高了。虽然只抽样了一次,概率的提高不是很明显,所以容易被人忽略。

从定量的角度,我们可以用贝叶斯公式计算每天拜访后,通过我们掌握的信息所推断出的史密斯先生家有两男孩的概率。

为简短起见,记“史密斯先生家有两个男孩”为“两男”,类似地有“两女”、“一男一女”。

第一天:

注意到“两女”条件下“男孩开门”的概率为 ,后续计算省略“两女”的情况。

第二天:

第三天:

以此类推,第 天:

可以看出,随着 逐渐增大,即越来越多次地遇到男孩开门,我们认为“史密斯先生家有两个男孩”的概率也是逐渐增大的,并且随着 。但只要中间某一天有女孩来开门,我们认为“史密斯先生家有两个男孩”的概率瞬间变为,因为女孩开门的事件能使我们确信史密斯先生家有一男一女两个孩子。

箱子抽球问题

如果男孩女孩还是令你难以理解,也可以把问题想象为如下这样:

箱子里有两个球,球的颜色非红即白,并且每个球为红色或白色的可能性相同。(例如可以请裁判抛硬币两次,抛出正面则将一颗红球放入箱中,反之则放入一颗白球。放入两颗球后混洗均匀。)

上帝视角获得“至少一个为红色”的过程如下:

请裁判查看箱子中球的颜色,询问是否有红球。裁判答曰:“有红球”。

求箱子中两个球均为红色的概率。

答案为 。因为

抽样一次获得“至少一个为红色”的过程如下:

随机抽取一颗球查看其颜色,为红球。

求箱子中两个球均为红色的概率。

答案为 。因为

  • 随机抽取一颗球查看其颜色,为红球。
  • 将球放回混洗均匀,再随机抽取一颗球查看其颜色,仍为红球。
  • 如此重复 次,每次抽出来的都是红球。

求箱子中两个球均为红色的概率。

直观地看,你是不是几乎可以认定箱子中是两颗红球了?否则哪有那么巧,每次抽到的都是红的。

经典表述下的结论

再重复一次经典表述:

  • 史密斯先生有两个孩子。其中至少一个是男孩。则两个孩子均为男孩的概率是多少?

在这一表述下,“至少一个是男孩”这一表述缺乏关键信息,即“至少一个是男孩”这一信息是如何得知的。

  • 如果是通过上帝视角得知的,那么答案是 。这类情况包括但不限于:
    • 询问第三人史密斯先生家的男孩数是否为零,答曰不为零;
    • 拜访史密斯先生家,孩子不在但看到了男孩玩具;
    • 有一台读取到男性身份证就会响的机器A,将两个孩子的身份证一起放入,机器响了;等等。
  • 如果是通过抽样一次得知的,那么答案是 。这类情况包括但不限于:
    • 询问年长的孩子的性别,得知是男孩;
    • 拜访一次遇到男孩开门;
    • 街上偶遇史密斯先生带着一名男孩;
    • 将两个孩子的身份证随机抽出一张,不看,直接放入上述机器A,机器响了;等等。
  • 如果是通过抽样多次得知的,那么答案随具体抽样情况还会发生变化。

后续文章将接着讨论有歧义的表述等问题。