生男生女概率一样吗?为什么中国男性多于女性?

874 阅读5分钟

数据仓库系列文章(持续更新)

  1. 数仓架构发展史
  2. 数仓建模方法论
  3. 数仓建模分层理论
  4. 数仓建模—宽表的设计
  5. 数仓建模—指标体系
  6. 数据仓库之拉链表
  7. 数仓—数据集成
  8. 数仓—数据集市
  9. 数仓—商业智能系统
  10. 数仓—埋点设计与管理
  11. 数仓—ID Mapping
  12. 数仓—OneID
  13. 数仓—AARRR海盗模型
  14. 数仓—总线矩阵
  15. 数仓—数据安全
  16. 数仓—数据质量
  17. 数仓—数仓建模和业务建模

先来看一下2019年人口普查,也是第七次人口普查的男女性别比例数据,是目前最新的数据了。这里性别比,女性基数是100,例如:20 ~ 24这个区间,性别比是114.61,也就是说,114.6个男性对应100个女性。

可以看出,男女数量差异比较明显,但是在这个人口基数大国中,这个差异得以放大。那么,这个性别数量差异是怎么造成的呢?我们继续探究。

故事一

以前在农村重男轻女现象比较严重,我村里一户人家想要一个男孩,结果接连生了5胎,都是女孩。人生就是这样的倔强,也需要顽强,有时候你不坚持一下,你都不知道什么叫绝望。

故事二

午饭后跟我的程序员同事们,在软件园散步,聊到找对象的问题,进而深入到当下国内,男多女少的这个高深问题,他们给出的观点是:重男轻女的思想的产物,如果第一胎是男孩就不要二胎了;如果第一胎是女孩,继续二胎,直到男孩为止。

上面两个观点,本质上都是一种,以为可以通过毅力和坚持,获得想要的男孩,即人为控制初生儿的男女性别,这自然是不行的。

这就跟抛硬币一样,正反面的概率都是50%,如果你只想要正面,抛到反面就不放弃,贵在坚持,一直抛,恭喜你,你会发现一个规律,正反面概率都接近50%。

从生物学上来说,女性只产生X染色体,男性产生X、Y两种染色体,XX(女性),XY(男性),即理论上来说,生男生女概率都是1/2。这就解释了用抛硬币实验来类比的合理性。

但是,我们都知道再小的概率都有可能发生,更何况是50%的概率呢,生两胎确实增加了男孩儿的概率。让你投篮,给你一次机会,和给你2次机会,自然是选择两次机会,投中的胜算大一些嘛!所以故事一中的行为,就是通过多次行为,加大获得男孩的概率。再比如,赌徒输了很多,仍然不愿意离开赌场;你买诺安基金亏了好多,仍然不愿意离开;因为你相信你还有机会,都是这个道理。

这些都是赌博的行为,但是我们要相信科学,要相信真理。

就算一次生育行为可以用抛硬币来解释,那么每年那么多生育行为整体概率都是50%吗,我相信大数定律可以解决这个问题了。 设X1,X2,...,Xn是独立同分布的随机变量,记它们的公共均值为μ。又设它们的方差存在并记为σ2。则对任意给定的ε>0,有

大数定律

大数定律从理论上是可以解释多次生育行为中,生男生女的概率是大致相同的,即男女数量应该大致相等。

下面,我们用计算机程序来模拟。

实验分析

用random模块生成区间[0,1)之间的随机数,如果生成的数小于0.5,就记为硬币正面朝上,否则记为硬币反面朝上。由于random.random()生成的数可以看做是服从区间[0,1)上的均匀分布,所以以0.5为界限,随机生成的数中大于0.5或小于0.5的概率应该是相同的(相当于硬币是均匀的)。这样就用随机数模拟出了实际的抛硬币试验。理论上试验次数越多(即抛硬币的次数越多),正反面出现的次数之比越接近于1(也就是说正反面各占一半)。

m_f

横轴是试验次数,纵轴是正反面出现次数的比值。

随着实验次数的增加,正反面出现次数之比越来越接近于1。

那么问题来了,微观来来看,生男生女概率是50%,宏观上来看,生男生女概率也是50%,为什么男女数量有微小差异?

下面再看个故事。

一个家庭里重男轻女的观念,多是体现在媳妇刚刚怀孕的时候。每到这个时候,一些迫切想要孙子的爷爷或奶奶,就会在口中念叨着“大孙子、宝贝金孙”......一些明显带有性别歧视的词语。接着,他们就会想方设法的让怀孕的儿媳去进行胎儿性别鉴定,一旦鉴别腹中胎儿非男性,就会强制性的要求儿媳做人工流产。

到这里,为什么生男生女概率一样,男女数量有微小差异的原因呢?相比大家心里都有答案了,有些事情真相真的让人细思极恐。