中文 | English

  首页    > 学术活动    > 恒隆研究    > 内容

恒隆研究第6期 | 龙瀛研究团队:2020-2100年全球1公里网格尺度人口分布数据产品发布

2022-09-20 15:53:03 作者:龙瀛研究团队

 

 

【作者】王新宇a,孟祥凤a,龙瀛a,b*

a 清华大学建筑学院

b 清华大学恒隆房地产研究中心

【通讯作者邮箱】ylong@tsinghua.edu.cn

【原文信息】Wang, X., Meng, X. & Long, Y. Projecting 1 km-grid population distributions from 2020 to 2100 globally under shared socioeconomic pathways. Sci Data 9, 563 (2022). https://doi.org/10.1038/s41597-022-01675-x

【全文链接】https://www.nature.com/articles/s41597-022-01675-x

【数据下载地址】https://doi.org/10.6084/m9.fgshare.19608594.v2

【样例代码下载地址】https://doi.org/10.6084/m9.fgshare.19609356.v3


内容导读

清华大学恒隆房地产研究中心龙瀛课题组发布2020-2100年全球1公里网格尺度多情景人口分布数据产品,该数据的描述文章(Data Descriptor)题目为“Projecting 1 km-grid population distributions from 2020 to 2100 globally under shared socioeconomic pathways”(在共享社会经济路径下,预测2020-2100年全球1公里网格的人口空间分布情况),2022年9月12日由Nature旗下Scientific Data期刊在线发表。

高精度的人口空间网格数据可以在气候、环境、城市管理等相关领域发挥重要作用。目前已有的网格人口空间分布数据,多为历史性或区域性的,缺少关于全球未来高分辨率人口空间分布数据。

基于WorldPop数据集,结合随机森林算法,研究团队提出了一个覆盖全球248个国家或地区的网格化人口数据集(2020-2100年),其空间分辨率为30弧秒(约1公里),间隔时间为5年。数据集同5个社会经济共享路径情景(Shared Socioeconomic Pathways, SSPs)相统一。具体的预测方法可以分为三步:数据抽样、随机森林模型构建、未来预测。

为了检验预测数据的可靠性和科学性,研究团队用历史检验的方法在省级和网格层面与WorldPop数据集进行对比。3569个省,几乎是全球所有省份和超过48万个网格被纳入验证范围。结果表明此研究得到的人口预测数据具有较高的可靠性。此外,通过和现有的相关数据对比,也证明了本数据具有明显的优势,表现在数据的精度更高,能够支持城乡规划领域的相关研究。最终研究团队得到了2020-2100年5个情景的社会经济共享路径下1km的全球网格人口数据集,通过验证表明此数据集可以作为各相关领域预测研究的输入数据,具有广阔的应用前景。


研究方法与结果

我们通过建立一个基于空间路径依赖的RF模型来进行预测。空间路径依赖可以反映初始或早期条件对过程演化的影响,即T2时间的人口分布受到T1时间的分布以及其他环境因素的影响。

我们的研究方法包括三个步骤:抽样方法、随机森林(RF)模型开发和未来预测:
(1) 抽样方法:考虑到全球不同地区之间存在较大差异,我们排除了不适宜居住的地区,将全球分为8个地区进行模型训练,即欧洲(EU)、拉丁美洲(LA)、中东和北非(MENA)、俄罗斯和近东(RNA)、撒哈拉以南非洲(SSA)、美国和加拿大(USC)、大洋洲(OC)以及南亚和东亚(SEA),并在这些区域中,选择有代表性的250km网格进行抽样,在其内部随机抽取足够多的点建立我们的RF模型;
(2)计算预测模型:将多个输入数据集转化为可以预测分析的表格,并将其划分为训练集和测试集,调试模型(共计获得8个模型)。训练后的模型被用来计算人口潜力面。SSPs人口总量数据被用作国家层面的总人口约束;

(3)未来预测:我们根据时间序列(5年的间隔),在五个SSP情境下对8个模型分别进行周期性的预测,并将最终的结果进行合成,获得全球整体结果。具体流程图如图1(以欧洲模型为例)。最终的结果如图2所示(以两个区域为例)。

 

undefined

图1. 本研究的方法流程图

 

undefined

图2:2100年和2020年5个SSP情景下的人口分布(印度新德里及其周边区域与法国巴黎)

 

数据验证

我们的数据集的验证分为四个部分:(1)抽样方法层面:对于抽样方法的稳健性测试,(2)训练结果:RF模型在测试集上的表现,(3)模型输出结果:预测值和观测值的比较,以及(4)与已发表的相关数据集的比较。

(1)抽样方法层面:我们对8个模型均进行了20次采样以判定抽样方法的鲁棒性。结果表1所示。

 

undefined

(2)训练结果层面:结果见表2。

undefined

(3)模型输出结果:我们比较了2020年全球次国家级(省级)和网格层面的观测值和预测值。

undefined

图3:全球次国家级(省级)和网格层面的验证结果。横坐标为2020年人口观测值(数据来自WorldPop),纵坐标为2020年预测值(数据来自于本研究)。最上面的8个数字(红点)显示的是省级的结果,共计约3600个,其他数字(蓝点)显示的是网格级别的结果,共计超过48万个。

 

(4)与已发表的相关数据集的比较:我们选择了两个样例区域对比本研究的数据和其他相关数据,结果见图4。与其他数据集相比,我们的数据集似乎更适合当前的遥感图像,与非洲和中国的城市级数据集相比,我们的数据集更平滑。这意味着我们的数据集为比较不同SSP情景下城市尺度的人口发展模式提供了可能性。

undefined

图4:本数据和其他相关研究的对比。图a,g为样例区域所在位置,图b,h为样例区域2020年卫星遥感图,图f和l为本研究数据,图c、d、i、j、e、k为相关数据。

 

基金支持


     研究由国家自然科学基金面上项目“城市收缩背景下城市空置的智能测度、机理认知与规划设计响应研究”(项目号:52178044),“中国收缩城市的精细化识别、空间表征与规划机制研究”(项目号:51778319)和能源基金会资助项目“Population Scenario Analysis for China(中国未来人口分布情景分析)”(项目号:G-1909-30260)共同资助。