几个常识性概念与人口预测

2023-06-12 20:52 作者:黄文政-人口观察 0人读过 | 我要投稿

【导读】本文用通俗的语言详细解释出生率、生育率、更替水平、死亡率和预期寿命等概念及人口预测每个步骤的细节。看完本文，你可以自己做人口预测，这本来就是一个很直白的事情。文 | 黄文政

本文2023年6月9日发表

本文共5104字，需用时10分钟

【正文】

媒体讨论人口问题常出现常识性错误，如混淆出生率和生育率，或在生育率数据后加百分号。本文用通俗语言解释这些概念并介绍人口预测方法。理解本文的主体只需初中数学。读者也可根据本文的介绍编写人口预测程序。

1）反映生育情况的概念

1.1) 出生率

出生率指当年出生人口相对年中总人口的比率，一般带百分号或千分号。

例如，中国2022年出生率是0.677% = 956/141218，这里年中人口取2021和2022两年年末总人口的平均。

使用年中而非年末数据是因为用时间颗粒的中间值来近似，比用其边缘值更能减小颗粒度较粗带来的误差。

长期来看，出生率要维持在1/预期寿命的水平，才能保持总人口稳定。现在中国预期寿命是78岁，出生率要达到1/78 = 1.28%，即每年出生14000*1.28% ≈1800万人，才能维持14亿总人口。

这个很好理解。每年出生1800万人都活78岁，总人口就是78*1800万，即14亿。2022年出生的956万只对应于7.5亿的总人口，但不意味着中国人口能维持7.5亿。按目前趋势，出生人口会无底线地不断下滑。

每出生100个女孩对应出生的男孩数被称为出生性别比，其在自然状态是106。中国出生性别比在1980年代以前介于105-110，但随计划生育严厉化一路上升，至2000年代初一度超过120，近年随限制放宽逐步回落到约110。

出生率很直观，但受人口年龄结构影响。前不久文章根据深圳出生率在广东居首就得出深圳人很能生的错误结论；深圳相对更高出生率只是因为年轻人占比更高。

1.2) 生育率

相比出生率，人们更常用生育率来刻画生育情况。任何一个年龄段的生育率是指，该年龄段女性当年活产孩子数除以该年龄段年中女性数。如果今年25岁女性有850万，她们年内共生育150万小孩，那今年25岁女性的生育率就是150/850 = 0.176。

我们称按女性年龄分列的生育率为生育率表。一般只考虑15-49岁的女性，因为该区间以外生育极为罕见。

人口统计把15-49岁区间按1岁分成35段，或按5岁等分成7段。我倾向于使用颗粒度更细的按1岁分段，但这对分析结果影响有限。

我们通常会一两个指标来概括由35个或7个数值表达的生育表。最常用的概括性指标是总和生育率和平均生育年龄。

总和生育率是指每个年龄段的生育率加和值，一般不带百分号。如果一个女性从出生到育龄结束无夭折风险，在每个年龄生育的概率正好是当年这个年龄的生育率，那总和生育率就是该女性终生累计生育孩子数，可通俗地理解为女性“平均”生育的孩子数。

因此，总和生育率是生育率表的一个具可解释意义的概括。另一个概括性指标是平均生育年龄，即以分年龄生育率为权重，各年龄段中间年龄的加权平均。

总和生育率和平均生育年龄由生育率表决定，与人口的年龄结构关系。其计算所需的各年龄段的女性及其生育的孩子数，一般由抽样调查获得。

基于代表性不好的抽样框所估算的生育率给数据扭曲提供了巨大的空间。从2010到2015年，由每年出生人口推算的总和生育率与抽样调查生育率相差10%-40%，严重误导决策。

容易让人迷惑的是，总和生育率一般又简称为生育率。我们说生育率是1.07，指的就是总和生育率。

出生率和生育率听起来语义接近，但只要记住出生率侧重于多少小孩出生，而生育率侧重于女性的生育力度，就不容易混淆。

1.3）更替水平

人们通常把维持人口数量代际稳定所需的总和生育率称为更替水平。总和生育率处于更替水平意味着，当下出生的人在数量上可以替代其父母辈。

要准确得出更替水平，需针对具体人口做模拟计算，但直观上可由下式估算：

(1+出生性别比/100)/女性从出生到育龄的存活率。

针对106的出生性别比，不考虑女性夭折，更替水平为(1+106/100)/1 = 2.06，即100个女性生100*2.06 = 206个小孩，其中100个女婴、106个男婴，正好替代父母辈。再除以存活率意在补偿女性生育前的夭折。

发达国家更替水平约为2.07。在严厉计划生育时期，中国出生性别比和女性死亡率都高于发达国家，要更高的更替水平如2.2才能维持人口代际稳定。考虑到二孩政策实施后，出生性别比逐步回落但依然高于自然水平，我现在用2.1来作为中国的更替水平。

联合国统一把2.1设定为更替水平，会相对高估发展中国家的人口增长。我不确定这到底是否有意，但知道联合国是对中国人口长期高估最严重的机构。

2) 反映死亡情况的概念

2.1）死亡率

死亡率指当年死亡人数相对年中总人口的比率，一般带百分号或千分号。

死亡率也受人口年龄结构的影响。例如，中国人口在每个年龄的死亡风险都小于巴基斯坦，但总死亡率却高于后者，就是因为中国年龄结构更老化。

人口统计一般把年龄分成0岁、1岁、… 、99岁、100岁和以上共101段。我们称按性别和年龄段分列的死亡率为死亡率表。

2.2) 预期寿命

预期寿命用于概括死亡率表，指一个人如果在不同年龄死亡的概率等于当年这个年龄的死亡率，其在出生时的预期存活岁数。预期寿命也被通俗地称为平均寿命。

假设当年0岁、1岁、2岁、…的死亡率分别是0.5%、0.0703.%、0.0603%、…。那出生的10000人中，

死于0岁的人数是：10000*0.5% = 50，

死于1岁的人数是：9950*0.0703% = 7，

死于2岁的人数是：9943*0.0603% = 6，

……。

这10000个人的平均寿命则是：

（0.5 * 50 + 1.5 * 7 + 2.5 * 6 + …)/10000。

在上面，0.5、1.5、2.5分别代表0岁、1岁、2岁去世的人去世时的平均年龄。把10000换成任何一个正数都不影响计算结果。

如果出生人口稳定，预期寿命延长会成比例增加总人口。从1949到1980年，中国预期寿命从35岁增长到67岁，由1949年的5.4亿（并非很多人误以为的4亿）推算，1980年的总人口应该有5.4*67/35 = 10.3 亿，但实际只是9.9亿。

也就是说新中国前30年的人口增长基本可归因于预期寿命延长。这点也可从出生人口的变化看出。据2010年人口普查数据回测，中国在1949年的出生人口是1925万，到1980年则是2030万。不过，1980年出生人口相对于1960年代中末期的2500-3000万是低谷。

在人口预测中，除了使用男女预期寿命外，我还会加上男女婴儿死亡率，即一共4个指标来概括死亡率表。婴儿死亡率就是0岁死亡率，其数值显著高于其他低龄死亡率。只使用预期寿命来概括整个死亡率表不足以充分反映死亡情况的变化。

3) 人口预测

3.1) 人口状态表的更新

在任何年份，我们称按性别和年龄段分列的人口数为人口状态表。按1岁分段，当年人口状态表包含2*101个数值。不考虑人口迁徙，人口预测主要是根据每年生育情况和死亡情况，由当年的人口状态表来推定下年的人口状态表。

我们用出生性别比和分年龄生育率表来刻画生育情况，用男女分年龄死亡率表来刻画死亡情况。根据这些数据，按下式来更新当年的人口状态表而得到下年的人口状态表：

下年0岁人口 =

当年15岁女性生育率 * 当年15岁女性数

+ 当年16岁女性生育率 * 当年16岁女性数

…

+ 当年49岁女性生育率 * 当年49岁女性数。

按男女出生性别比，可把上式得出的下年0岁人口分成男女两部分。下年1岁男女人口则分别按如下计算：

下年1岁男性人口 =

当年男性0岁人口 * (1 - 当年男性0岁死亡率)，

下年1岁女性人口 =

当年女性0岁人口 * (1 - 当年女性0岁死亡率) ；

下年2岁的男女人口则分别可以按下面公式计算：

下年2岁男性人口 =

当年男性1岁人口 * (1 - 当年男性1岁死亡率)，

下年2岁女性人口 =

当年女性1岁人口 * (1 - 当年女性1岁死亡率)；

……。

以此类推，可一直计算到下年男女100岁和以上的人口，得到下年完整的人口状态表。对未来每年依次重复如上算法，就可以推定未来任何一年的人口状态表。

上述过程只用到加减乘除，一点也不高深。如果假设生育率表和死亡率表不变，或只考虑总和生育率改变，做人口预测只需初中数学知识。

3.2）构造生育率表和死亡率表

如果生育情况和死亡情况有变，未来人口状态如何演变？

我们用出生性别比、总和生育率、平均生育年龄、男女婴儿死亡率和男女预期寿命共7个指标来概括生育情况和死亡情况，现在的任务是，给定基底年份的生育率表和死亡率表，由未来任何一年的概括性指标的设定值或预测值，来构造该年完整的生育率表和死亡率表，再根据这些表加上出生性别比，由上年的人口状态表来推定该年的人口状态表。

我一般选人口普查年为基底年，因为这些年份的生育率表和死亡率表数据的样本更大，理应更可信。

生育率表包括15-49岁的35个数值，由总和生育率和平均生育年龄两个指标概括。如果平均生育年龄不变，总和生育率改变，可直接将每个年龄的生育率乘一个系数使得总和生育率等于设定的值。

本文以下部分所需知识超过初中范围。

给定总和生育率，从设定的平均生育年龄来构造生育率表会比较麻烦。我的做法是把不同年龄的生育率归一化，再把与此对应的分布函数处在0-1之间的应变量，通过一个正态分布函数的逆函数映射到实数轴上做平移，然后把平移后的函数应变量通过之前的正态分布函数反映射到0-1之间。最后对这个变换后的概率分布通过差分计算出不同年龄的归一化生育率，使其平均生育年龄等于设定的值。在这个变换中使用标准差为4的正态分布函数能很好地拟合不同年份的生育率表。

任何性别的死亡率表包括101个死亡率数值，可看成由0岁死亡率和预期寿命两个指标来概括。给定0岁死亡率，对1-100岁的分年龄死亡率乘上一个系数，再乘上按年龄固定的放大率，得出缩放后的分年龄死亡率，使相应的预期寿命等于设定的值。把放大率在1岁时设为2，然后线性递减到10岁时的1，在10岁后维持在1能很好拟合不同年份的生育率表。

值得一提的是，在构造生育率表和死亡率表的过程中，具体的拟合方法对最终人口状态表的影响微乎其微。

给定上述构造方法，只要设定未来任何一年的7个概括性指标的数值，就可推定该年的人口状态表。因此，所谓人口预测的“预测”部分只是对这7个指标的设定或预测。

现在应该容易找到免费的人口预测程序包，但有基本编程技能的读者如果有兴趣，还是可以自己编写预测程序，这样对细节理解会更深刻，也不容易在人口趋势上被“专家们”误导。

实际上，我自己写的人口预测的核心程序也只用了四五行R语言代码，只是由设定参数构造生育率表和死亡率表麻烦一些，但加上这部分功能的程序也不超过200行代码。

总而言之，人口预测是很直白的事情。一个受过良好理工科训练的人，只要头脑清醒，注意力集中，熟悉了几张人口普查表格后，自己就应该可以独立发明我这里描述的所谓预测方法。

3.3）人口动力学方程及其拓展意义

可以把人口状态表的演化写成下面的离散化矩阵形式的动力学方程：

P[t+1]-P[t] = (B[t] - D[t]) * P[t]，

这里P[t]、B[t]和D[t]分别是t年的人口状态表、生育率表和死亡率表。

这很像是一维离散化的由物质不灭推导出来的扩散方程，只是扩散机制不同。从该角度来看，人口状态表可被视为一维的年龄空间的密度，而生育率表和死亡率表则刻画扩散机制。

考虑到人口空间迁徙，上述动力学方程可从一维年龄空间扩展到年龄加地理位置的多维空间。这时反映扩散机制的则是生育率、死亡率和迁徙率。

再进一步，如果把扩散方程左边视为复数空间上的波动函数，再把扩散系数拓展到虚数，那么扩散方程看起来就有点像量子力学里的薛定谔方程。

我提这些只是说那些看起来无关的现象底层的逻辑可能是相通的。要更好地理解这个世界，除了在现有的框架下学习知识外，还需要回到底层逻辑做自己的思考，而不应太局限于现有的学科分类体系。不管是对群体还是个体，只做好学生是不够的。

【全文完，感谢您的耐心阅读】

本号汇集黄文政文章，阐述人类美好生活依赖于时空关联的人口规模。一是由知识和技能凝结的纵向人数；二是由交流和互动凝聚的横向人数。该框架源自对生命群体演化底层逻辑的思考，探究我们是谁，应在哪，如何协同，意在解释为何生存、繁衍、兴盛是生命终极意义。

欢迎传播我们的理念。本号把所有文章的转载权限设置为“快捷转载”。任何帐号无需向我们申请即可直接转载本号的任何文章。

如要与作者交流，请发电邮至：renkouguimo@163.com。

标签：

几个常识性概念与人口预测

几个常识性概念与人口预测的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

几个常识性概念与人口预测

本文作者的其他文章

几个常识性概念与人口预测的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

几个常识性概念与人口预测的评论 (共条)