恒隆研究第6期 | 龙瀛研究团队：2020-2100年全球1公里网格尺度人口分布数据产品发布

2022-09-20 15:53:03 作者：龙瀛研究团队

【作者】王新宇a，孟祥凤a，龙瀛a,b*

a 清华大学建筑学院

b 清华大学恒隆房地产研究中心

【通讯作者邮箱】ylong@tsinghua.edu.cn

【原文信息】Wang, X., Meng, X. & Long, Y. Projecting 1 km-grid population distributions from 2020 to 2100 globally under shared socioeconomic pathways. Sci Data 9, 563 (2022). https://doi.org/10.1038/s41597-022-01675-x

【全文链接】https://www.nature.com/articles/s41597-022-01675-x

【数据下载地址】https://doi.org/10.6084/m9.fgshare.19608594.v2

【样例代码下载地址】https://doi.org/10.6084/m9.fgshare.19609356.v3

内容导读

清华大学恒隆房地产研究中心龙瀛课题组发布2020-2100年全球1公里网格尺度多情景人口分布数据产品，该数据的描述文章(Data Descriptor)题目为“Projecting 1 km-grid population distributions from 2020 to 2100 globally under shared socioeconomic pathways”（在共享社会经济路径下，预测2020-2100年全球1公里网格的人口空间分布情况），2022年9月12日由Nature旗下Scientific Data期刊在线发表。

高精度的人口空间网格数据可以在气候、环境、城市管理等相关领域发挥重要作用。目前已有的网格人口空间分布数据，多为历史性或区域性的，缺少关于全球未来高分辨率人口空间分布数据。

基于WorldPop数据集，结合随机森林算法，研究团队提出了一个覆盖全球248个国家或地区的网格化人口数据集（2020-2100年），其空间分辨率为30弧秒（约1公里），间隔时间为5年。数据集同5个社会经济共享路径情景（Shared Socioeconomic Pathways, SSPs）相统一。具体的预测方法可以分为三步：数据抽样、随机森林模型构建、未来预测。

为了检验预测数据的可靠性和科学性，研究团队用历史检验的方法在省级和网格层面与WorldPop数据集进行对比。3569个省，几乎是全球所有省份和超过48万个网格被纳入验证范围。结果表明此研究得到的人口预测数据具有较高的可靠性。此外，通过和现有的相关数据对比，也证明了本数据具有明显的优势，表现在数据的精度更高，能够支持城乡规划领域的相关研究。最终研究团队得到了2020-2100年5个情景的社会经济共享路径下1km的全球网格人口数据集，通过验证表明此数据集可以作为各相关领域预测研究的输入数据，具有广阔的应用前景。

研究方法与结果

我们通过建立一个基于空间路径依赖的RF模型来进行预测。空间路径依赖可以反映初始或早期条件对过程演化的影响，即T2时间的人口分布受到T1时间的分布以及其他环境因素的影响。

我们的研究方法包括三个步骤：抽样方法、随机森林（RF）模型开发和未来预测：
(1) 抽样方法：考虑到全球不同地区之间存在较大差异，我们排除了不适宜居住的地区，将全球分为8个地区进行模型训练，即欧洲（EU）、拉丁美洲（LA）、中东和北非（MENA）、俄罗斯和近东（RNA）、撒哈拉以南非洲（SSA）、美国和加拿大（USC）、大洋洲（OC）以及南亚和东亚（SEA），并在这些区域中，选择有代表性的250km网格进行抽样，在其内部随机抽取足够多的点建立我们的RF模型；
(2)计算预测模型：将多个输入数据集转化为可以预测分析的表格，并将其划分为训练集和测试集，调试模型（共计获得8个模型）。训练后的模型被用来计算人口潜力面。SSPs人口总量数据被用作国家层面的总人口约束；

(3)未来预测：我们根据时间序列（5年的间隔），在五个SSP情境下对8个模型分别进行周期性的预测，并将最终的结果进行合成，获得全球整体结果。具体流程图如图1（以欧洲模型为例）。最终的结果如图2所示（以两个区域为例）。

图1. 本研究的方法流程图

图2：2100年和2020年5个SSP情景下的人口分布（印度新德里及其周边区域与法国巴黎）

数据验证

我们的数据集的验证分为四个部分：（1）抽样方法层面：对于抽样方法的稳健性测试，（2）训练结果：RF模型在测试集上的表现，（3）模型输出结果：预测值和观测值的比较，以及（4）与已发表的相关数据集的比较。

（1）抽样方法层面：我们对8个模型均进行了20次采样以判定抽样方法的鲁棒性。结果表1所示。

（2）训练结果层面：结果见表2。

（3）模型输出结果：我们比较了2020年全球次国家级（省级）和网格层面的观测值和预测值。

图3：全球次国家级（省级）和网格层面的验证结果。横坐标为2020年人口观测值（数据来自WorldPop），纵坐标为2020年预测值（数据来自于本研究）。最上面的8个数字（红点）显示的是省级的结果，共计约3600个，其他数字（蓝点）显示的是网格级别的结果，共计超过48万个。

（4）与已发表的相关数据集的比较：我们选择了两个样例区域对比本研究的数据和其他相关数据，结果见图4。与其他数据集相比，我们的数据集似乎更适合当前的遥感图像，与非洲和中国的城市级数据集相比，我们的数据集更平滑。这意味着我们的数据集为比较不同SSP情景下城市尺度的人口发展模式提供了可能性。

图4：本数据和其他相关研究的对比。图a，g为样例区域所在位置，图b，h为样例区域2020年卫星遥感图，图f和l为本研究数据，图c、d、i、j、e、k为相关数据。

基金支持

研究由国家自然科学基金面上项目“城市收缩背景下城市空置的智能测度、机理认知与规划设计响应研究”（项目号：52178044），“中国收缩城市的精细化识别、空间表征与规划机制研究”（项目号：51778319）和能源基金会资助项目“Population Scenario Analysis for China（中国未来人口分布情景分析）”（项目号：G-1909-30260）共同资助。

附件【Projecting 1 km-grid population.pdf】已下载次

恒隆研究第6期 | 龙瀛研究团队：2020-2100年全球1公里网格尺度人口分布数据产品发布

中心概况

学者团队

研究成果

学术活动

业界联系

市场监测