一种基于人群活动强度特征的通勤流量估计方法及系统
未命名
10-08
阅读:70
评论:0

1.本发明涉及城市人群移动流量估计与预测技术领域,特别是涉及一种基于人群活动强度特征的通勤流量估计方法及系统。
背景技术:
2.通勤流量指从家到工作地的日常平均通勤人数,可在一定程度上表征城市的社会经济状况,反映城市规划和交通设计水平,是城市居民、相关管理人员及科研学者等重点关注的指标。然而,通勤流难于直接观测,且不易准确估计。改进通勤流量估计方法并提高其估计精度是一个具有吸引力和挑战性的研究问题。
3.以空间交互模型和机器学习模型为代表的两大类方法是通勤流量估计的主流,近年来随着图网络深度学习的兴起,基于深度学习的图卷积神经网络模型逐渐成为估计通勤流量的一种重要技术手段。然而,这些流量估计方法仍存在以下不足:1)空间交互模型源自物理定律,旨在通过两个地区的属性和交互成本来估计区域间的交互强度。尽管空间交互模型具有易于理解的表达式,但难以描述影响因素和通勤流之间的复杂非线性关系。2)基于机器学习的通勤流模型,除人口和距离因素外,考虑了更多的区域社会经济和地理景观特征等,并利用梯度增强回归树gbrt、随机森林和人工神经网络等方法构建地点特征和通勤流量之间的非线性关系。尽管机器学习模型提升了非线性关系的模拟能力,但难以纳入邻近区域对流估计的影响,且当其应用于城市内精细空间单元尺度时,难以获取和准确量化模型输入所必须的就业、住房等社会经济指标。3)基于深度学习的图卷积神经网络模型通过建立地理单元间的距离、拓扑关系或流强度来模拟邻近区域影响。该类技术改进了机器学习模型难以模拟邻近区域的不足,但模型在训练和预测过程存在流量估计方法不一致的矛盾。
4.现有技术公开了一种基于点位片段客流的点位客流量预测方法,具体包括:首先采集离线数据,包括大量点位连续长时段客流样本、位置信息、场地信息、点位信息、环境信息、周边信息,环境信息、商家品牌信息等;再构造片段客流样本,再进行数据处理、特征工程和模型训练;然后再采集和构造片段客流视频,建立片段视频人数统计模型;最后根据输入片段视频样本及采集到的点位视频的时间、位置、场地等信息即可预测出所需的点位预计的日客流量、月日均客流量及全年每月日均客流量等客流量结果集。该发明虽然采取了机器学习回归算法和深度学习算法相结合的方式,但模型在训练和预测过程存在流量估计方法不一致的矛盾,且数据获取有难度。
技术实现要素:
5.本发明的目的是:提供一种基于人群活动强度特征的通勤流量估计方法及系统,以解决现有技术中存在的模型在训练和预测过程存在流量估计方法不一致且数据获取有难度的问题。
6.为了实现上述目的,本发明提供了一种基于人群活动强度特征的通勤流量估计方
法,包括:
7.s1、获取研究区的人群活动强度时间序列数据、平均通勤时长数据和通勤流量数据;
8.s2、将研究区划分为固定大小的多个格网;对人群活动强度时间序列数据进行预处理,得到各格网的人群活动强度;对平均通勤时长数据进行预处理,得到各格网间的平均通勤时长;分别将每个格网作为图节点,人群活动强度作为节点特征,平均通勤时长作为边,构建通勤网络图;
9.s3、构建时间图注意力网络模型,利用通勤流量数据对时间图注意力网络模型进行训练;时间图注意力网络模型用于学习图节点的人群活动强度的时间特征、图节点的空间结构特征,输出各节点的嵌入向量;
10.s4、在通勤网络图上选取起点和终点,通过训练好的时间图注意力网络模型对起点和终点的人群活动强度的时间特征、空间结构特征进行学习,获得起点嵌入向量、终点嵌入向量;
11.s5、将起点嵌入向量、终点嵌入向量以及起点和终点之间的距离特征作为梯度增强回归树方法的输入,获得两地之间的通勤流量估计值。
12.优选的,在步骤s2中,对人群活动强度时间序列数据进行预处理的过程为将热力图以点格式存储,点属性字段包括地理经纬度、时间和活跃用户数,选用活跃用户数来表征人群活动强度,选取多个工作日的热力图,根据空间关系将每个点汇总到格网,对不同工作日的每小时活跃用户数取平均值;
13.对平均通勤时长数据进行预处理的过程为通过调用地图api接口计算各格网间的平均通勤时长。
14.优选的,在步骤s2中,将研究区划分为固定大小的n个格网v1,v2,
…
,vn,标记格网的人群活动强度为acti={act1,act2,
…
,act
t
,act
t
},元素act
t
表示t时刻的人群活动强度;将通勤流记为三元组f={(vi,vj,f
ij
)},其中vi代表起点居住地,vj代表终点工作地,f
ij
表示通勤流量,代表从vi到vj的日平均通勤人数,定义in-flow和out-flow,将in-flow表示为f
:j
,代表到vj总的流入通勤人数,将out-flow表示为f
i:
,代表从vi流出的总通勤人数;将通勤时长记为三元组t={(vi,vj,t
ij
)},t
ij
代表从vi到vj的上下班平均通勤时长;
15.通勤网络图是一个有向图g=(v,t,a),其中,v={v1,v2,
…
,vn}是格网集合,作为图的节点;t={t
ij
,1≤i,j≥n}是通勤时长集合,当t
ij
满足条件0《t
ij
≤阈值,代表节点vi和vj之间存在边,且边的特征为t
ij
;a={act1,act2,
…
,actn}是人群活动强度集合,作为节点特征。
16.优选的,在步骤s3中,时间图注意力网络模型包含时空卷积层和时间卷积层,每个时空卷积层由一个门控时间卷积层和一个图注意力层构成,每个时间卷积层仅有一个门控时间卷积层,时空卷积层和时间卷积层交替堆叠。
17.优选的,在步骤s3中,门控时间卷积层用于学习人群活动强度的时间特征;图注意力层用于学习空间结构特征,空间结构特征为通勤网络图各节点在空间上的联系;时间图注意力网络模型通过随机初始化参数,学习图节点的人群人群活动强度的时间特征、图节点的空间结构特征,得到各节点的嵌入向量;
18.在步骤s4中,利用多任务约束学习策略和基于机器学习的梯度增强回归树方法对
起点和终点区域的总流出量或总流入量以及两个区域之间的流量进行估计,并将由估计值和真实值计算得到的损失值反向传播,以训练时间图注意力网络模型得到时间图注意力网络模型的最佳参数,基于最佳参数和人群活动强度的时空动态特征做矩阵的卷积运算,得到起点嵌入向量、终点嵌入向量;
19.利用多任务约束学习策略和基于机器学习的梯度增强回归树方法训练时间图注意力网络模型的过程为定义多任务约束学习策略,定义多任务约束学习策略为定义估计两个地理单元间的通勤流量为主任务,定义估计终点地理单元的流入总量in-flow、起点地理单元的流出总量out-flow为两个子任务,且模型的总损失值是这3个任务损失值的线性加权,总损失值为:
20.loss
total
=w
main
loss
main
+w
sub
loss
in
++w
sub
loss
out
[0021][0022][0023][0024]
式中,w
main
、w
sub
分别对应主任务和子任务权重,loss
main
、loss
in
、loss
out
分别代表主任务损失值和两个子任务的损失值,代表估计的通勤流量,代表流入总量估计值,代表流出总量估计值,f
ij
、f
:
、f
i:
分别代表真实的通勤流量;通过反向传播总损失值以训练时间图注意力网络模型的参数,从而得到起点嵌入向量、终点嵌入向量。
[0025]
优选的,利用门控时间卷积层学习人群活动强度的时间特征过程为选择膨胀因果卷积作为时间卷积层,以学习历史人群活动强度信息特征对当前人群活动强度的影响,并调整卷积核和膨胀因子来增加网络感受野和减少网络层数,同时,引入门控机制来控制膨胀因果卷积对历史信息的使用率;
[0026]
膨胀因果卷积为:
[0027][0028]
式中,act为时间序列输入,t代表时间步长,f代表卷积核,*代表卷积运算,d为膨胀因子,k为卷积核大小。
[0029]
引入了门控机制控制的膨胀因果卷积由两个膨胀因果卷积组成:
[0030]a(l+1)
=tanh(θ1a
(l)
+b)
⊙
σ(θ2a
(l)
+c)
[0031]
式中,a代表节点人群活动强度特征矩阵,l代表第l层,θ1、θ2、b和c分别表示两个膨胀因果卷积的学习参数,
⊙
表示元素乘法机制,tanh(θ1a
(l)
+b)代表对膨胀因果卷积结果进行激活,σ(θ2a
(l)
+c)是一个门控单元。
[0032]
优选的,利用图注意力层学习空间结构特征包括图注意力层在节点聚合操作中结合了注意力机制,即先通过注意力机制为邻域的不同节点分配不同权重,再通过聚合来更
新节点特征,权重由两个连接节点的节点特征和边特征确定,两个连接节点为中心节点和邻域节点。
[0033]
优选的,先通过注意力机制为邻域的不同节点分配不同权重,再通过聚合来更新节点特征的过程为图注意力层对节点和边特征进行线性变换,计算邻域节点注意力得分,并对其进行归一化处理,公式为:
[0034][0035][0036][0037][0038]
式中,w
(l)
∈rk×m和v
(l)
∈r
t
×n是参数矩阵,zi是要传递到给邻居的消息向量,σ是一个非线性激活函数,||代表串联合并操作,a
(l)
∈r
(2k+t)
×1是注意力输出的可训练权重参数向量,t代表转置,表示邻域节点j对中心节点i的关注得分,为归一化注意力得分,n(i)是节点i的邻域节点集合;
[0039]
得到节点的注意力得分后,对中心节点进行聚合以更新节点特征,聚合过程包括邻域节点影响和自我影响两部分,公式为:
[0040][0041]
式中,代表节点i在第l+1的节点嵌入向量,u
(l)
为参数矩阵,为归一化得分,表示邻居节点j的消息向量。
[0042]
优选的,在步骤s5中,将起点嵌入向量、终点嵌入向量以及起点和终点之间的距离特征作为梯度增强回归树方法的输入,获得两地之间的通勤流量估计值的公式为:
[0043][0044]
式中,代表节点i起点嵌入向量,代表节点j终点嵌入向量,d
ij
代表起点i和终点j之间的距离。
[0045]
本发明还提供一种基于人群活动强度特征的通勤流量估计系统,包括:
[0046]
数据预处理模块,用于获取和预处理研究区工作日的人群活动强度时间序列数据、平均通勤时长数据和通勤流量数据并进行预处理;
[0047]
图构建模块,用于根据预处理后的人群活动强度时间序列数据和预处理后的平均通勤时长数据构建通勤网络图;
[0048]
图节点嵌入学习模块,用于交替堆叠时空卷积层和时间卷积层构建时间图注意力网络模型,并结合多任务约束学习策略和基于机器学习的梯度增强回归树方法,得到起点嵌入向量、终点嵌入向量;
[0049]
通勤流量预测模块,用于根据起点嵌入向量、终点嵌入向量、起点和终点之间的距
离特征以及梯度增强回归树方法,预测得到通勤流量。
[0050]
与现有技术相比,本发明的有益效果在于:本发明输入数据采用人群活动强度动态变化数据,具有更细粒度的时空分辨率且更易于获取;
[0051]
进一步地,提出的时间图注意力网络模型通过结合时空卷积和时间卷积,能同时考虑人群活动强度特征的时间、空间依赖性,并通过引入多任务约束学习策略,以及模型在训练和预测过程中采用统一的流量估计方法,提高了通勤流量预测的准确性。
附图说明
[0052]
图1是本发明实施例的基于人群活动强度特征的通勤流量估计方法的流程图;
[0053]
图2是本发明实施例的基于人群活动强度特征的通勤流量估计方法的框架图;
[0054]
图3是本发明实施例的时间图注意力网络模型的结构示意图;
[0055]
图4是本发明实施例的基于人群活动强度特征的通勤流量估计系统的模块图。
[0056]
图中,101、数据预处理模块;102、图构建模块;103、图节点嵌入学习模块;104、通勤流量预测模块。
具体实施方式
[0057]
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0058]
在本发明的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0059]
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0060]
此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0061]
实施例一
[0062]
如图1、2所示,本发明优选实施例的一种基于人群活动强度特征的通勤流量估计方法,包括:
[0063]
s1、获取研究区的人群活动强度时间序列数据、平均通勤时长数据和通勤流量数据;
[0064]
s2、将研究区划分为固定大小的多个格网;对人群活动强度时间序列数据进行预处理,得到各格网的人群活动强度;对平均通勤时长数据进行预处理,得到各格网间的平均通勤时长;分别将每个格网作为图节点,人群活动强度作为节点特征,平均通勤时长作为边,构建通勤网络图;
[0065]
s3、构建时间图注意力网络模型,利用通勤流量数据对时间图注意力网络模型进行训练;时间图注意力网络模型用于学习图节点的人群活动强度的时间特征、图节点的空间结构特征,输出各节点的嵌入向量;
[0066]
s4、在通勤网络图上选取起点和终点,通过训练好的时间图注意力网络模型对起点和终点的人群活动强度的时间特征、空间结构特征进行学习,获得起点嵌入向量、终点嵌入向量;
[0067]
s5、将起点嵌入向量、终点嵌入向量以及起点和终点之间的距离特征作为梯度增强回归树方法的输入,获得两地之间的通勤流量估计值。
[0068]
在步骤s2中,对人群活动强度时间序列数据进行预处理的过程为将热力图以点格式存储,点属性字段包括地理经纬度、时间和活跃用户数,选用活跃用户数来表征人群活动强度,选取多个工作日的热力图,根据空间关系将每个点汇总到格网,对不同工作日的每小时活跃用户数取平均值;
[0069]
对平均通勤时长数据进行预处理的过程为通过调用地图应用程序编程接口(application programming interface,api)计算各格网间的平均通勤时长。
[0070]
本实施例中以百度热力图数据为例,以表征人群活动强度空间分布动态变化。原始百度热力图以点格式存储,点属性字段包括地理经纬度、时间和活跃用户数,选用活跃用户数来表征人群活动强度。为得到格网尺度的工作日平均小时人群活动强度空间分布,取若干个工作日的百度热力图,先根据空间关系将每个点汇总到格网,再对不同工作日的每小时取平均值。获取并预处理平均通勤时长数据,得到各格网间的平均通勤时长,可通过调用百度地图api接口计算格网所需的通勤时间;获取并预处理通勤流量数据,得到格网尺度的通勤流量数据;通勤流量数据由手机运营商中国联通提供。数据的每一行表示一对通勤流,数据字段包括格网id(居住地/工作地)、通勤时长和相应的基于联通手机数据提取的日平均通勤人数。为得到格网尺度的通勤流量数据,根据原始通勤流量格网中心的地理坐标,将原始通勤流量汇总到相应格网尺度上。
[0071]
对预处理后的通勤流量数据,按照6:2:2的比例分别将其随机划分成训练集、训练集、验证集和测试集,其中训练集和验证集用来训练和验证流量估计模型的训练性能,测试集用于评估流量估计模型的预测性能。
[0072]
在步骤s2中,将研究区划分为固定大小的n个格网v1,v2,
…
,vn,标记格网的人群活动强度为acti={act1,act2,
…
,act
t
,act
t
},元素act
t
表示t时刻的人群活动强度;将通勤流记为三元组f={(vi,vj,f
ij
)},其中vi代表起点居住地,vj代表终点工作地,f
ij
表示通勤流量,代表从vi到vj的日平均通勤人数,定义in-flow和out-flow,将in-flow表示为f
:j
,代表到vj总的流入通勤人数,将out-flow表示为f
i:
,代表从vi流出的总通勤人数;将通勤时长记为三元组t={(vi,vj,t
ij
)},t
ij
代表从vi到vj的上下班平均通勤时长;
[0073]
本实施例中先将城市划分为固定大小的若干个格网地理单元,取格网内人群活动强度时间序列作为格网特征,并用平均通勤时长表示格网间的联系。分别将每个格网作为图节点,动态人群活动强度作为节点特征,平均通勤时长作为图的边。
[0074]
通勤网络图是一个有向图g=(v,t,a),其中,v={v1,v2,
…
,vn}是格网集合,作为图的节点;t={t
ij
,1≤i,j≥n}是通勤时长集合,当t
ij
满足条件0《t
ij
≤阈值,代表节点vi和vj之间存在边,且边的特征为t
ij
;a={act1,act2,
…
,actn}是人群活动强度集合,作为节点
特征。
[0075]
实施例二
[0076]
本实施例与实施例一的区别在于,提出一个集成时间卷积、图注意力和机器学习模型(temporal graph attention network combined machine learning,tgat-ml),从节点时空特征表达和节点约束两方面获得起点嵌入向量、终点嵌入向量。tgat-ml首先使用2个结构相同的时间图注意力网络模型(temporal graph attention network,tgat)分别学习地理单元人群活动强度的时空动态特征,得到各节点的嵌入向量。tgat由时空卷积层和时间卷积层交替堆叠组成,通过时间卷积层的门控时间卷积(gated temporal convolutional layer,gtcn)学习节点特征的时间依赖,通过时空卷积层中的空间卷积图注意力(graph attention network,gat)学习节点特征的空间依赖。
[0077]
在步骤s3中,如图3所示,时间图注意力网络模型包含时空卷积层和时间卷积层,每个时空卷积层由一个门控时间卷积层和一个图注意力层构成,每个时间卷积层仅有一个门控时间卷积层,时空卷积层和时间卷积层交替堆叠。
[0078]
在步骤s3中,门控时间卷积层用于学习人群活动强度的时间特征;图注意力层用于学习空间结构特征,空间结构特征为通勤网络图各节点在空间上的联系;时间图注意力网络模型通过随机初始化参数,学习图节点的人群人群活动强度的时间特征、图节点的空间结构特征,得到各节点的嵌入向量;
[0079]
在步骤s4中,利用多任务约束学习策略和基于机器学习的梯度增强回归树方法(gradient boosting regressor tree,gbrt)对起点和终点区域的总流出量或总流入量以及两个区域之间的流量进行估计,并将由估计值和真实值计算得到的损失值反向传播,以训练时间图注意力网络模型得到时间图注意力网络模型的最佳参数,基于最佳参数和人群活动强度的时空动态特征做矩阵的卷积运算,得到起点嵌入向量、终点嵌入向量;
[0080]
利用多任务约束学习策略和基于机器学习的梯度增强回归树方法训练时间图注意力网络模型的过程为定义多任务约束学习策略,定义多任务约束学习策略为定义估计两个地理单元间的通勤流量为主任务,定义估计终点地理单元的流入总量in-flow、起点地理单元的流出总量out-flow为两个子任务,且模型的总损失值是这3个任务损失值的线性加权,总损失值为:
[0081]
loss
total
=w
main
loss
main
+w
sub
loss
in
++w
sub
loss
out
[0082][0083][0084][0085]
式中,w
main
、w
sub
分别对应主任务和子任务权重,loss
main
、loss
in
、loss
out
分别代表主任务损失值和两个子任务的损失值,代表估计的通勤流量,代表流入总量估计值,代表流出总量估计值,f
ij
、f
:
、f
i:
分别代表真实的通勤流量;通过反向传播总损失值以训练
时间图注意力网络模型的参数,从而得到起点嵌入向量、终点嵌入向量。
[0086]
本实施例的其他结构与实施例一相同,此处不再赘述。
[0087]
实施例三
[0088]
本实施例与实施例二的区别在于,利用门控时间卷积层学习人群活动强度的时间特征过程为选择膨胀因果卷积作为时间卷积层,以学习历史人群活动强度信息特征对当前人群活动强度的影响,并调整卷积核和膨胀因子来增加网络感受野和减少网络层数,同时,引入门控机制来控制膨胀因果卷积对历史信息的使用率;
[0089]
膨胀因果卷积为:
[0090][0091]
式中,act为时间序列输入,t代表时间步长,f代表卷积核,*代表卷积运算,d为膨胀因子,k为卷积核大小。
[0092]
引入了门控机制控制的膨胀因果卷积由两个膨胀因果卷积组成:
[0093]a(l+1)
=tanh(θ1a
(l)
+b)
⊙
σ(θ2a
(l)
+c)
[0094]
式中,a代表节点人群活动强度特征矩阵,l代表第l层,θ1、θ2、b和c分别表示两个膨胀因果卷积的学习参数,
⊙
表示元素乘法机制,tanh(θ1a
(l)
+b)代表对膨胀因果卷积结果进行激活,σ(θ2a
(l)
+c)是一个门控单元。
[0095]
利用图注意力层学习空间结构特征包括图注意力层在节点聚合操作中结合了注意力机制,即先通过注意力机制为邻域的不同节点分配不同权重,再通过聚合来更新节点特征,权重由两个连接节点的节点特征和边特征确定,两个连接节点为中心节点和邻域节点。
[0096]
假设中心节点i在第l层的特征为节点i的领域节点记作节点j,且节点i和节点j的边特征为e
ij
∈rn×1。先通过注意力机制为邻域的不同节点分配不同权重,再通过聚合来更新节点特征的过程为图注意力层对节点和边特征进行线性变换,计算邻域节点注意力得分,并对其进行归一化处理,公式为:
[0097][0098][0099][0100][0101]
式中,w
(l)
∈rk×m和v
(l)
∈r
t
×n是参数矩阵,zi是要传递到给邻居的消息向量,σ是一个非线性激活函数,||代表串联合并操作,a
(l)
∈r
(2k+t)
×1是注意力输出的可训练权重参数向量,t代表转置,表示邻域节点j对中心节点i的关注得分,为归一化注意力得分,n(i)是节点i的邻域节点集合;
[0102]
得到节点的注意力得分后,对中心节点进行聚合以更新节点特征,聚合过程包括
邻域节点影响和自我影响两部分,公式为:
[0103][0104]
式中,代表节点i在第l+1的节点嵌入向量,u
(l)
为参数矩阵,为归一化得分,表示邻居节点j的消息向量。
[0105]
本实施例中为得到两个地理单元间的流量估计值,基于机器学习ml的梯度增强回归树gbrt方法,将起点嵌入向量、终点嵌入向量以及起点和终点的距离特征d
ij
作为gbrt的输入,得到两地估计值;为得到终点区域的流入总量和起点区域的流出总量估计值,利用线性变换函数对节点嵌入向量进行线性变换得到。
[0106]
在得到最佳的节点嵌入表达后,采用与上述节点嵌入学习相同方法来预测通勤流。即选择任意两个地理区域和作为家和工作地,将它们的嵌入向量以及它们的距离合并起来,作为gbrt回归的输入,生成地理区域和之间的通勤流量。
[0107]
在步骤s5中,基于训练好的节点嵌入向量,选择两个节点i和j作为起点和终点区域,将起点嵌入向量、终点嵌入向量以及起点和终点之间的距离特征d
ij
作为梯度增强回归树方法的输入,获得两地之间的通勤流量估计值的公式为:
[0108][0109]
式中,代表节点i起点嵌入向量,代表节点j终点嵌入向量,d
ij
代表起点i和终点j之间的距离。
[0110]
本实施例的其他结构与实施例二相同,此处不再赘述。
[0111]
实施例四
[0112]
如图4所示,本发明还提供一种基于人群活动强度特征的通勤流量估计系统,包括:
[0113]
数据预处理模块101,用于获取和预处理研究区工作日的人群活动强度时间序列数据、平均通勤时长数据和通勤流量数据并进行预处理;
[0114]
图构建模块102,用于根据预处理后的人群活动强度时间序列数据和预处理后的平均通勤时长数据构建通勤网络图;
[0115]
图节点嵌入学习模块103,用于交替堆叠时空卷积层和时间卷积层构建时间图注意力网络模型,并结合多任务约束学习策略和基于机器学习的梯度增强回归树方法,得到起点嵌入向量、终点嵌入向量;
[0116]
通勤流量预测模块104,用于根据起点嵌入向量、终点嵌入向量、起点和终点之间的距离特征以及梯度增强回归树方法,预测得到通勤流量。
[0117]
本发明的工作过程为:
[0118]
s1、获取研究区的人群活动强度时间序列数据、平均通勤时长数据和通勤流量数据;
[0119]
s2、将研究区划分为固定大小的多个格网;对人群活动强度时间序列数据进行预处理,得到各格网的人群活动强度;对平均通勤时长数据进行预处理,得到各格网间的平均通勤时长;分别将每个格网作为图节点,人群活动强度作为节点特征,平均通勤时长作为
边,构建通勤网络图;
[0120]
s3、构建时间图注意力网络模型,利用通勤流量数据对时间图注意力网络模型进行训练;时间图注意力网络模型用于学习图节点的人群活动强度的时间特征、图节点的空间结构特征,输出各节点的嵌入向量;
[0121]
s4、在通勤网络图上选取起点和终点,通过训练好的时间图注意力网络模型对起点和终点的人群活动强度的时间特征、空间结构特征进行学习,获得起点嵌入向量、终点嵌入向量;
[0122]
s5、将起点嵌入向量、终点嵌入向量以及起点和终点之间的距离特征作为梯度增强回归树方法的输入,获得两地之间的通勤流量估计值。
[0123]
综上,本发明实施例提供一种基于人群活动强度特征的通勤流量估计方法及系统,提出的时间图注意力网络模型通过结合时空卷积和时间卷积,能同时考虑人群活动强度特征的时间、空间依赖性,并通过引入多任务约束学习策略,以及模型在训练和预测过程中采用统一的流量估计方法,提高了通勤流量预测的准确性,输入数据采用人群活动强度动态变化数据,具有更细粒度的时空分辨率且更易于获取。
[0124]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
技术特征:
1.一种基于人群活动强度特征的通勤流量估计方法,包括:s1、获取研究区的人群活动强度时间序列数据、平均通勤时长数据和通勤流量数据;s2、将研究区划分为固定大小的多个格网;对人群活动强度时间序列数据进行预处理,得到各格网的人群活动强度;对平均通勤时长数据进行预处理,得到各格网间的平均通勤时长;分别将每个格网作为图节点,人群活动强度作为节点特征,平均通勤时长作为边,构建通勤网络图;s3、构建时间图注意力网络模型,利用通勤流量数据对时间图注意力网络模型进行训练;时间图注意力网络模型用于学习图节点的人群活动强度的时间特征、图节点的空间结构特征,输出各节点的嵌入向量;s4、在通勤网络图上选取起点和终点,通过训练好的时间图注意力网络模型对起点和终点的人群活动强度的时间特征、空间结构特征进行学习,获得起点嵌入向量、终点嵌入向量;s5、将起点嵌入向量、终点嵌入向量以及起点和终点之间的距离特征作为梯度增强回归树方法的输入,获得两地之间的通勤流量估计值。2.根据权利要求1所述的一种基于人群活动强度特征的通勤流量估计方法,其特征在于:在步骤s2中,对人群活动强度时间序列数据进行预处理的过程为将热力图以点格式存储,点属性字段包括地理经纬度、时间和活跃用户数,选用活跃用户数来表征人群活动强度,选取多个工作日的热力图,根据空间关系将每个点汇总到格网,对不同工作日的每小时活跃用户数取平均值;对平均通勤时长数据进行预处理的过程为通过调用地图api接口计算各格网间的平均通勤时长。3.根据权利要求1所述的一种基于人群活动强度特征的通勤流量估计方法,其特征在于:在步骤s2中,将研究区划分为固定大小的n个格网v1,v2,....,v
n
,标记格网的人群活动强度为act
i
={act1,act2,...,act
t
,act
t
},元素act
t
表示t时刻的人群活动强度;将通勤流记为三元组f={(v
i
,v
j
,f
ij
)},其中v
i
代表起点居住地,v
j
代表终点工作地,f
ij
表示通勤流量,代表从v
i
到v
j
的日平均通勤人数,定义in-flow和out-flow,将in-flow表示为f
:j
,代表到v
j
总的流入通勤人数,将out-flow表示为f
i:
,代表从v
i
流出的总通勤人数;将通勤时长记为三元组t={(v
i
,v
j
,t
ij
)},t
ij
代表从v
i
到v
j
的上下班平均通勤时长;通勤网络图是一个有向图g=(v,t,a),其中,v={v1,v2,...,v
n
}是格网集合,作为图的节点;t={t
ij
,1≤i,j≥n}是通勤时长集合,当t
ij
满足条件0<t
ij
≤阈值,代表节点v
i
和v
j
之间存在边,且边的特征为t
ij
;a={act1,act2,...,act
n
}是人群活动强度集合,作为节点特征。4.根据权利要求1所述的一种基于人群活动强度特征的通勤流量估计方法,其特征在于:在步骤s3中,时间图注意力网络模型包含时空卷积层和时间卷积层,每个时空卷积层由一个门控时间卷积层和一个图注意力层构成,每个时间卷积层仅有一个门控时间卷积层,时空卷积层和时间卷积层交替堆叠。5.根据权利要求1所述的一种基于人群活动强度特征的通勤流量估计方法,其特征在于:在步骤s3中,门控时间卷积层用于学习人群活动强度的时间特征;图注意力层用于学习空间结构特征,空间结构特征为通勤网络图各节点在空间上的联系;时间图注意力网络模
型通过随机初始化参数,学习图节点的人群人群活动强度的时间特征、图节点的空间结构特征,得到各节点的嵌入向量;在步骤s4中,利用多任务约束学习策略和基于机器学习的梯度增强回归树方法对起点和终点区域的总流出量或总流入量以及两个区域之间的流量进行估计,并将由估计值和真实值计算得到的损失值反向传播,以训练时间图注意力网络模型得到时间图注意力网络模型的最佳参数,基于最佳参数和人群活动强度的时空动态特征做矩阵的卷积运算,得到起点嵌入向量、终点嵌入向量;利用多任务约束学习策略和基于机器学习的梯度增强回归树方法训练时间图注意力网络模型的过程为定义多任务约束学习策略,定义多任务约束学习策略为定义估计两个地理单元间的通勤流量为主任务,定义估计终点地理单元的流入总量in-flow、起点地理单元的流出总量out-flow为两个子任务,且模型的总损失值是这3个任务损失值的线性加权,总损失值为:loss
total
=w
main
loss
main
+w
sub
loss
in
++w
sub
loss
outoutout
式中,w
main
、w
sub
分别对应主任务和子任务权重,loss
main
、loss
in
、loss
out
分别代表主任务损失值和两个子任务的损失值,代表估计的通勤流量,代表流入总量估计值,代表流出总量估计值,f
ij
、f
:j
、f
i:
分别代表真实的通勤流量;通过反向传播总损失值以训练时间图注意力网络模型的参数,从而得到起点嵌入向量、终点嵌入向量。6.根据权利要求5所述的一种基于人群活动强度特征的通勤流量估计方法,其特征在于:利用门控时间卷积层学习人群活动强度的时间特征过程为选择膨胀因果卷积作为时间卷积层,以学习历史人群活动强度信息特征对当前人群活动强度的影响,并调整卷积核和膨胀因子来增加网络感受野和减少网络层数,同时,引入门控机制来控制膨胀因果卷积对历史信息的使用率;膨胀因果卷积为:式中,act为时间序列输入,t代表时间步长,f代表卷积核,*代表卷积运算,d为膨胀因子,k为卷积核大小。引入了门控机制控制的膨胀因果卷积由两个膨胀因果卷积组成:a
(l+1)
=tanh(θ1a
(l)
+b)
⊙
σ(θ2a
(l)
+c)式中,a代表节点人群活动强度特征矩阵,l代表第l层,θ1、θ2、b和c分别表示两个膨胀因果卷积的学习参数,
⊙
表示元素乘法机制,tanh(θ1a
(l)
+b)代表对膨胀因果卷积结果进行激
活,σ(θ2a
(l)
+c)是一个门控单元。7.根据权利要求5所述的一种基于人群活动强度特征的通勤流量估计方法,其特征在于:利用图注意力层学习空间结构特征包括图注意力层在节点聚合操作中结合了注意力机制,即先通过注意力机制为邻域的不同节点分配不同权重,再通过聚合来更新节点特征,权重由两个连接节点的节点特征和边特征确定,两个连接节点为中心节点和邻域节点。8.根据权利要求7所述的一种基于人群活动强度特征的通勤流量估计方法,其特征在于:先通过注意力机制为邻域的不同节点分配不同权重,再通过聚合来更新节点特征的过程为图注意力层对节点和边特征进行线性变换,计算邻域节点注意力得分,并对其进行归一化处理,公式为:一化处理,公式为:一化处理,公式为:一化处理,公式为:式中,w
(l)
∈r
k
×
m
和v
(l)
∈r
t
×
n
是参数矩阵,z
i
是要传递到给邻居的消息向量,σ是一个非线性激活函数,||代表串联合并操作,a
(l)
∈r
(2k+t)
×1是注意力输出的可训练权重参数向量,t代表转置,表示邻域节点j对中心节点i的关注得分,为归一化注意力得分,n(i)是节点i的邻域节点集合;得到节点的注意力得分后,对中心节点进行聚合以更新节点特征,聚合过程包括邻域节点影响和自我影响两部分,公式为:式中,代表节点i在第1+1的节点嵌入向量,u
(l)
为参数矩阵,为归一化得分,表示邻居节点j的消息向量。9.根据权利要求1所述的一种基于人群活动强度特征的通勤流量估计方法,其特征在于:在步骤s5中,将起点嵌入向量、终点嵌入向量以及起点和终点之间的距离特征作为梯度增强回归树方法的输入,获得两地之间的通勤流量估计值的公式为:式中,代表节点i起点嵌入向量,代表节点j终点嵌入向量,d
ij
代表起点i和终点j之间的距离。10.一种基于人群活动强度特征的通勤流量估计系统,包括:数据预处理模块,用于获取和预处理研究区工作日的人群活动强度时间序列数据、平均通勤时长数据和通勤流量数据并进行预处理;图构建模块,用于根据预处理后的人群活动强度时间序列数据和预处理后的平均通勤时长数据构建通勤网络图;
图节点嵌入学习模块,用于交替堆叠时空卷积层和时间卷积层构建时间图注意力网络模型,并结合多任务约束学习策略和基于机器学习的梯度增强回归树方法,得到起点嵌入向量、终点嵌入向量;通勤流量预测模块,用于根据起点嵌入向量、终点嵌入向量、起点和终点之间的距离特征以及梯度增强回归树方法,预测得到通勤流量。
技术总结
本发明涉及城市人群移动流量估计与预测技术领域,公开了一种基于人群活动强度特征的通勤流量估计方法及系统,提出的时间图注意力网络模型通过结合时空卷积和时间卷积,能同时考虑人群活动强度特征的时间、空间依赖性,并通过引入多任务约束学习策略,以及模型在训练和预测过程中采用统一的流量估计方法,提高了通勤流量预测的准确性,输入数据采用人群活动强度动态变化数据,具有更细粒度的时空分辨率且更易于获取。且更易于获取。且更易于获取。
技术研发人员:史清丽 卓莉 陶海燕
受保护的技术使用者:中山大学
技术研发日:2023.07.03
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/