《2020中国人口普查分县资料》终于出版了,有些公众号也发布了该资料的PDF版本 , 为了方便大家使用我们在PDF的基础上处理成了excel和shp格式的数据分享给大家!
我们之前分享了《2020中国人口普查分县资料》的表1——人口基本情况、表2——分年龄、性别的人口和表3——各年龄组人口占总人口的比重、有65岁及以上老年人的户数、户口登记在外乡镇街道人口 。(表1-3的数据详情可查看之前发布的文章)
本次分享的是《2020中国人口普查分县资料》的表4——人口受教育状况!该表统计了我国省市县三级人口受教育状况!具体指标包括:
一、6岁及以上各种受教育程度人口
- 未上过学的男性女性人口
- 学前教育教育程度的男性女性人口
- 小学教育程度的男性女性人口
- 初中教育程度的男性女性人口
- 高中教育程度的男性女性人口
- 大学专科教育程度的男性女性人口
- 大学专科及以上教育程度的男性女性人口
- 合计
- 男性平均受教育年限
- 女性平均受教育年限
- 合计
- 15岁及以上文盲人口—男性
- 15岁及以上文盲人口—女性
- 合计
- 文盲人口占15岁及以上人口比重—男性
- 文盲人口占15岁及以上人口比重—女性
为了方便大家使用,我们花了大量的时间对数据进行了整理,形成了excel和shp两种格式的文件!整理出的数据除了港澳台地区外,没有缺失值!对于数据整理的细节我们会在下文详细介绍!以下为数据的详细介绍:
01 数据预览
下面我们来预览下数据 , 首先是excel格式的数据,如下图!省市县三级的所有指标在一个excel中,省市县的数据通过不同颜色分割 , 方便大家可以在excel中按照颜色选取不同等级的数据!每个指标的单位也标注在列名中!
下面我们再来看看shp格式的数据!分为三个shp文件,分别为省份的人口受教育情况、地级市的人口受教育状况、区县的人口受教育状况!
1.省份的人口受教育状况
我们以全国各省份的6岁以上未上过学的男性人口(人)和男性平均受教育年限(年)两个指标为例来预览下,数据不包括港澳台,剩下的所有省份均有数据 , 如下图:
全国各省份的6岁以上未上过学的男性人口(人)
全国各省份的男性平均受教育年限(年)
2.地级市的人口受教育状况
我们以全国各地级市的15岁及以上合计文盲人口(人)和男性文盲人口占15岁及以上人口比重(%)两个指标为例来预览下,数据不包括港澳台 , 剩下的所有地级市均有数据,如下图:
全国各城市的15岁及以上合计文盲人口(人)
全国各城市的男性文盲人口占15岁及以上人口比重(%)
3.区县的人口受教育状况
我们以全国各区县的6岁以上大学本科及以上的女性人口(人)和女性平均受教育年限(年)两个指标为例来预览下,数据不包括港澳台,剩下的所有区县均有数据,如下图:
全国各区县的6岁以上大学本科及以上的女性人口(人)
【「2020年七普数据整理」省市县三级人口受教育状况】全国各区县的女性平均受教育年限(年)
02 数据整理说明
本数据来源于《2020中国人口普查分县资料》 , 想得到最终的excel和shp数据 , 需要做两个工作 , 第一个是将数据电子化,形成excel格式的数据,第二个是将excel数据矢量化,得到shp格式的数据!
对于将PDF电子化,主要是要选择合适的视图软件,在这儿推荐wps(识别数字比较准确)和全能扫描王(识别汉字比较准确),在识别后要对识别错误的数据进行修改,比如错误的符号,错误的字母等,最后还要对数据进行检查,比如可以通过总人口是否等于男性人口 女性人口来检查这三列数据有没有错误!
我们重点来看一下第二步——将excel数据矢量化,得到shp格式的数据!对于将excel矢量化成shp数据,我们需要首先找到一个高精度的全国省市县的行政区划shp数据,在经过对比后,我们使用了‘锐多宝的地理空间’公众号分享的行政区划shp数据!有了行政区划数据,下一步的重点工作是将excel数据根据公共列(省名称、城市名称、区县名称)链接到行政区划shp数据里面 , 这一步会有很多错误,需要一一检查,我们依次来看一下!
1.将省份层级的excle数据矢量化形成shp数据
由于我国只有34个省级行政单元,excel数据和shp数据里面的省份名称是完全对应的,我们不用经过任何处理,使用arcgis中的连接功能,以省份名称为连接列,直接链接就能得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!
2.将地级市层级的excle数据矢量化形成shp数据
我国有300多个地级市行政单元,这300多个行政单元的名称都是唯一的 , 没有重复 , 所以也可以直接连接得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!
3.将区县层级的excle数据矢量化形成shp数据
相比于省份层级和地级市层级,区县等级的处理要复杂的多,需要大量的工作!主要包括如下几个方面:
①我国的区县名称并不是唯一的,比如全国有四个城市有鼓楼区,有两个城市有朝阳区 , 有两个城市有宝山区,全国重复的区县名称大约有60个,对于这些区县,如果直接根据区县名称进行连接会出错,需要一一进行处理,这儿的处理方式是将区县前面的城市和省份加上 , 这样区县名称就是唯一的啦,就可以进行连接了!
②我们使用的‘锐多宝的地理空间’公众号分享的行政区划shp数据虽然精度很高,但是依然有一些和基于《2020中国人口普查分县资料》整理的excel数据不对应的区县!这儿分为两种情况,第一种是有些已经调整的区划 , 行政区划shp数据里面没有跟着调整,对于这样的问题,我们以以excel数据为准,对行政区划shp数据进行调整,包括:
- 河北省邢台市进行了行政区划大调整,桥西区改为了信都区 , 桥东区改为了襄都区等,在这儿就不一一列举了 , 对行政区划shp数据进行相应调整;
- 海西蒙古族藏族自治州直辖改为海西蒙古族藏族自治州大柴旦行政委员会
- 南沙市改为南沙群岛
- 烟台蓬莱市和长岛县合并为蓬莱区
- 成都新津县改为新津区
- 江西省龙南县改为龙南市
03 数据获取