引用格式:
赵鹏军,曹毓书.基于多源地理大数据与机器学习的地铁乘客出行目的识别方法[J].地球信息科学学报,2020,22(9):1753-1765. [ Zhao P J, Cao Y S. Identifying metro trip purpose using multi-source geographic big data and machine learning approach[J]. Journal of Geo-information Science, 2020,22(9):1753-1765. ] DOI:10.12082/dqxxkx.2020.200134
问题的提出
基于智能卡数据(Smart Card Data, SCD)的居民出行监测与管控技术体系正在受到普遍关注,被广泛应用于城市交通流时空分布、居民出行规律等相关研究中。然而, SCD缺乏出行目的、持卡人社会经济属性等详细信息,使得SCD在信息挖掘方面受到限制。
本文基于城市交通与土地利用交互作用理论,探索城市全域范围内地铁乘客出行目的的识别方法。以北京市作为研究区域,融合多源地理大数据进行随机森林(Random Forest,RF)分类器训练,在分类器训练过程中融入出行特征的同时纳入土地利用特征;随后使用RF分类器,对SCD记录的每一次地铁出行进行分类,识别对应地铁出行的出行目的,并对不同目的地铁出行时空间分布特征进行可视化。最后,通过对比仅包括出行特征RF分类器,以及同时包括出行特征、土地利用特征的RF分类器的分类效果,检验纳入土地利用特征对RF分类器效果是否有提升,并以此映证城市交通与土地利用交互作用理论。
北京地铁线路图
理论基础与方法
城市交通与土地利用存在集计与非集计2个层面的时空互动。在非集计(个体)层面,依据Alonso单中心城市模型,居民会在交通出行成本与住房成本中进行权衡、以实现自身效用最大化,由此形成微观个体层面交通出行与土地利用之间的互动。另一方面,在集计层面,依据Hansen“土地利用与交通系统之间存在动态循环”假设,不同土地利用类型的空间分离使得工作、居住、购物、休闲等活动在不同的城市区位进行,居民在日常活动区位切换过程中产生交通出行,交通出行汇总后形成不同区域之间的交通流,引发交通服务设施供给的变化,进一步影响区域可达性,并影响居民个体的出行决策,导致土地利用变化。
01
基于居民出行调查数据筛选居民地铁出行记录,并提取出每条地铁出行记录的起点站、终点站等位置信息,以及出发时刻、到达时刻、出行时长、出行目的等出行特征信息。
02
根据地铁站点位置信息,使用POI数据,分别对居民出行调查数据与SCD中每次出行起止地铁站周边土地利用情况进行表征。
03
采用简单随机抽样法,将地铁出行样本划分为训练集与测试集。基于训练集数据,以地铁出行出发时刻、到达时刻、出行时长等出行特征,出行起始站点和到达地铁站点周边的土地利用特征,以及出行目的为预测变量,对RF分类器进行训练。
RF分类器训练过程
04
使用样本测试集对RF分类器效果进行检验。
RF分类器精度评估
05
结果分析
本文使用2015年北京市居民出行调查数据中包含的5565个地铁出行样本对分类器进行训练。首先基于训练集对RF分类器进行特征重要性评估、选择以及参数标定。另外,虽然RF分类器可以基于OOB误差衡量有效性,不需要划分训练集与测试集。但为能进一步验证RF分类器的准确性以及土地利用特征对于提升模型分类精度的有效性,采用简单随机抽样法,将样本的75%作为训练集,其余25%作为测试集,分别对RF分类器进行训练和测试。
特征重要性评估
01
RF分类器中不同特征MDA值
RF分类器特征选择与参数标定
02
RF分类器作为集成分类器,需要同时对选取特征数量以及决策树数量进行参数标定,使得泛化OOB估计精度最大,从而让RF分类器获得整体上最佳分类效果。在标定特征数量 N 时,通过计算 nTrees 为100、200、400、800时不同的N值对应的OOB精度的均值,进行参数 N 的标定实验。
RF分类器预测精度随特征数量N 变化情况
对RF 分类器中决策树数量进行标定,首先在RF分类器中输入选取的15个特征,改变决策树数量 nTrees 的值,计算不同决策树数量对应OOB 精度。RF分类器精度总体上先随着分类器中决策树的数量增加而增加,而后逐渐稳定。当决策树数量大于800 时,OOB精度不再随着决策树增多或有较大的波动,最终RF分类器中决策树数量 nTrees 为800。
随机森林分类器训练收敛情况及最佳树数量判断
03
仅包括出行相关特征RF分类器准确率为87.99%,低于同时包含出行特征与土地利用特征RF分类器模型91.01%的准确率;仅包括出行特征RF分类器相较于同时包含出行特征与土地利用特征的RF分类器,在3种出行目的分类准确率上均有下降。因此可以认为,土地利用特征可以提升RF分类器分类精度,从而进一步映证了交通与土地利用时空间互动理论。
仅包括出行特征随机森林分类器混淆矩阵结果及对比
结 论
1
2
土地利用特征可以提升RF分类器的分类精度
讨 论
文章存在理论和应用层面的优势以及不足,具体包括:
01
理论层面
02
实际应用层面
03
样本量方面
原文请到中国知网下载
作者信息
赵鹏军 教授
北京大学城市与环境学院城市与区域规划系教授、博士生导师,城乡规划与交通研究中心主任,国际SSCI期刊《Cities》主编。长期从事交通与空间规划领域研究,聚焦于地理空间与交通系统动态交互过程分析模拟及其规划调控研究。
转载自 地球信息科学学报
经作者授权转载
文章仅代表作者观点,与本公众号无关,版权归原作者所有
图文排版:吴炜
审编: 罗湘阳
终审:颜子明 黄宗财 鲁嘉颐返回搜狐,查看更多
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。