多源轨迹数据表示方法及装置与流程

未命名 09-22 阅读:61 评论:0


1.本发明涉及大数据挖掘技术领域,尤其涉及一种多源轨迹数据表示方法及装置。


背景技术:

2.随着移动设备和定位技术的发展,人在城市空间中移动时产生的轨迹数据类型越来越丰富,如手机信令轨迹、车载gps轨迹数据,道路卡口监控轨迹,社交媒体行为轨迹等等。这些数据来自不同源头的传感器,虽然记录的是同一个人的移动行为,但不同源的数据的采样率、位置信息准确度等不尽相同。目前在进行轨迹分析时,一般是对单一源的轨迹数据进行分析,而对单一源轨迹数据分析存在着单一数据源轨迹不完整的问题,从而造成轨迹分析结果不准确。
3.而将多源轨迹数据进行融合分析可以克服单一数据稀疏性强、噪声大等对人类移动的描述和分析所带来的缺点;然而目前多源轨迹分析面临着计算复杂度高、准确性低的问题。li等虽然研究了利用深度学习技术将原始不均匀的轨迹表示为固定长度数值向量,但其未涉及多源轨迹的问题;且在实际应用中,用户在某一数据源的轨迹可能缺失。因此,针对多源轨迹数据,如何提高轨迹数据表示的准确性是亟待解决的技术问题。


技术实现要素:

4.有鉴于此,本发明提供了一种多源轨迹数据表示方法及装置,以解决现有技术中存在的一个或多个问题。
5.根据本发明的一个方面,本发明公开了一种多源轨迹数据表示方法,所述方法包括:
6.获取第一时间段内的多源轨迹数据,将所述第一时间段划分为多个时间区间,确定各所述时间区间内的各轨迹数据的轨迹点的token值,得到各轨迹数据对应的token值集合;
7.将各所述token值集合、各所述轨迹数据的源类别以及时间区间索引信息输入至轨迹表示模型,得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,将所述轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示与位置嵌入表示进行组合得到组合嵌入表示,基于各所述组合嵌入表示得到各所述轨迹数据的隐状态向量,将各所述轨迹数据的隐状态向量进行池化得到各所述轨迹数据的特征表示向量。
8.在本发明的一些实施例中,确定各所述时间区间内的各轨迹数据的轨迹点的token值,包括:
9.将各所述轨迹数据的各轨迹点分别分配至各时间区间;
10.确定各轨迹数据在各时间区间内出现次数最多的轨迹点;
11.将各时间区间内出现次数最多的轨迹点对应的token值作为相应时间区间内的token值。
12.在本发明的一些实施例中,当所述时间区间内的轨迹点数量为0时,所述时间区间
对应的token值为pad。
13.在本发明的一些实施例中,所述方法还包括:
14.确定所述轨迹表示模型的编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数,基于所述编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数构建模型总损失函数,基于所述模型总损失函数对所述轨迹表示模型的模型参数进行迭代更新;和/或
15.所述多源轨迹数据包括gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据。
16.在本发明的一些实施例中,所述模型总损失函数为:
17.l=l
bert
+α*lr+β*lg+l
con

18.其中,l为模型总损失,l
bert
为编码器损失,lr为轨迹还原损失,lg为轨迹生成损失,l
con
为对比学习损失,α和β均为超参数。
19.在本发明的一些实施例中,确定所述轨迹表示模型的轨迹还原损失函数,包括:
20.将所述轨迹数据的隐状态向量输入至第一解码器中,得到所述隐状态向量对应的时空轨迹还原数据,基于所述时空轨迹还原数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹还原损失函数。
21.在本发明的一些实施例中,确定所述轨迹表示模型的轨迹生成损失函数,包括:
22.将所述轨迹数据的特征表示向量和待生成的其他源的源类别嵌入表示输入至第二解码器,生成与所述轨迹数据不同源的其他源轨迹数据,基于所述其他源轨迹数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹生成损失函数。
23.在本发明的一些实施例中,所述轨迹还原损失函数为:
24.lr=l
rec
(g)+l
rec
(c)+l
rec
(a);
[0025][0026]
其中,l
rec(g)
、l
rec(c)
、l
rec(a)
分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据的轨迹还原损失,tokeni表示轨迹数据在第i个时间区间内的轨迹点的token值,p
1i
表示时空轨迹还原数据在第i个时间区间内轨迹点的概率分布,n
t
表示时间区间总数量;
[0027]
所述轨迹生成损失函数为:
[0028]
lg=l
g(g)
+l
g(c)
+l
g(a)

[0029][0030]
其中,l
g(g)
、l
g(c)
和l
g(a)
分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据相互生成的轨迹生成损失,tokeni表示轨迹数据在第i个时间区间内的轨迹点的token值,p
2i
表示所生成的其他源轨迹数据在第i个时间区间内轨迹点的概率分布,n
t
表示时间区间总数量,b为g、c或a。
[0031]
根据本发明的另一方面,还公开了一种多源轨迹数据表示系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。
[0032]
根据本发明的再一方面,还公开了一种计算机可读存储介质,其上存储有计算机
程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
[0033]
本发明上述实施例所公开的多源轨迹数据表示方法及装置,首先确定各时间区间内的各轨迹数据的轨迹点的token值,然而形成各轨迹数据对应的token值集合,进而基于轨迹表示模型得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,并根据轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示以及位置嵌入表示形成的组合嵌入表示得到最终的各轨迹数据的特征表示向量。该方法在对轨迹数据进行表示时,考虑了轨迹数据的源类别,因而该方法对于不同类别、大规模、复杂的轨迹数据均可以高效的进行表示,且还提高了轨迹数据表示的准确性。
[0034]
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
[0035]
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
[0036]
此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,并不构成对本发明的限定。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中:
[0037]
图1为本发明一实施例的多源轨迹数据表示方法的流程示意图。
[0038]
图2为本发明一实施例的多源轨迹数据表示系统的架构示意图。
具体实施方式
[0039]
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
[0040]
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
[0041]
应该强调,术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
[0042]
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
[0043]
图1为本发明一实施例的多源轨迹数据表示方法的流程示意图,参考图1,该多源轨迹数据表示方法至少包括步骤s10和s20。
[0044]
步骤s10:获取第一时间段内的多源轨迹数据,将所述第一时间段划分为多个时间区间,确定各所述时间区间内的各轨迹数据的轨迹点的token值,得到各轨迹数据对应的token值集合。
[0045]
在该步骤中,是对多源轨迹数据进行数据预处理,多源轨迹数据的类别具有多种,如可为手机信令轨迹数据、车载gps轨迹数据、道路卡口监控轨迹数据、社交媒体行为轨迹数据等,第一时间段示例性的可为一天、一周等。
[0046]
另外,对于不同源类别的轨迹数据其采用的坐标系具有差异,因而在确定各所述时间区间内的各轨迹数据的轨迹点的token值之前,一般的还可将多源轨迹数据中的不同坐标系下的各轨迹点的经纬度转换至同一坐标系下。在一实施例中,获取到的多源轨迹数据为gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据,gps轨迹数据表示为tg=(g1,g2,...,gi,...gn),手机信令轨迹数据表示为tc=(c1,c2,...,ci,...cn),手机app行为轨迹数据表示为ta=(a1,a2,...,ai,...an);gi、ci、ai分别表示三种类别的轨迹数据的第i个轨迹点,且gi、ci、ai均通过三元组(lati,lngi,ti)表示。在该实施例中,第一时间段可为24小时,则获取的第一时间段内的多源轨迹数据为获取到的24小时内的gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据。
[0047]
进一步的,由于不同源类别的轨迹数据采用的坐标系不完全相同,因而为了便于后续进行数据的分析,则将不同坐标系下的三种源类别的数据的经纬度转换至同一坐标系下。具体的,该实施例可采用wgs84坐标系,即将三种源类别的数据的经纬度均转换至wgs84坐标系下。可以理解的,该实施例中所列举的轨迹数据的源类别以及所采用的坐标系的类型仅是一种示例,在其他实施例中,也可根据实际应用场景进行改变。
[0048]
进一步的,将第一时间段划分为多个时间区间,在该实施例中各时间区间的区间长度均相等,则此时将24小时按照一定的时间间隔均匀划分为n
t
个时间区间;其中时间间隔可为每分钟、每小时;当时间间隔为每分钟时,则该实施例将24小时均匀划分为n
t
=1440个时间区间。
[0049]
其中,确定各所述时间区间内的各轨迹数据的轨迹点的token值,包括:将各所述轨迹数据的各轨迹点分别分配至各时间区间;确定各轨迹数据在各时间区间内出现次数最多的轨迹点;将各时间区间内出现次数最多的轨迹点对应的token值作为相应时间区间内的token值。而若时间区间内的轨迹点数量为0时,所述时间区间对应的token值为pad。
[0050]
示例性的,对于wgs84坐标系下的三种类别的轨迹数据,可利用google s2或geohash地理编码将经纬度坐标编码为字符串形式的token;一般的,可将geohash的精度设置为7到8,误差在19米到76米之间。对于每种轨迹,则将轨迹中的各轨迹点根据时间信息被分配至对应的时间区间内;若某个时间区间内被分配的某条轨迹数据的轨迹点的数量大于1时,则选取该条轨迹的被分配至该时间区间内的出现次数最多的轨迹点的token值作为相应时间区间内的token值;而若某个时间区间内被分配的某条轨迹数据的轨迹点的数量为0时,则为该时间区间赋予特殊token值:pad。
[0051]
基于该数据预处理步骤,实现了多源轨迹数据的时空对齐,且得到了各轨迹数据的完整的地理编码token集合s,而集合s的大小为时间区间数量ns。
[0052]
步骤s20:将各所述token值集合、各所述轨迹数据的源类别以及时间区间索引信息输入至轨迹表示模型,得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,将所述轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示与位置嵌入表示进行组合得到组合嵌入表示,基于各所述组合嵌入表示得到各所述轨迹数据的隐状态向量,将各所述轨迹数据的隐状态向量进行池化得到各所述轨迹数据的特征表示向量。
[0053]
在该步骤中,基于轨迹编码模块将原始的时空轨迹数据编码为固定长度的数值向量,以便于后续步骤的计算与分析;其中,token值集合为在步骤s10中确定的各轨迹数据的token值集合s。具体的,可采用transformer编码器实现各轨迹数据的编码;首先在transformer编码器的嵌入编码层,设置一个嵌入层神经网络,分别用于对轨迹数据的token值集合、源类别以及时间区间索引进行嵌入编码,得到e
t
∈rd、es∈rd、e
tpye
∈rd;e
t
表示轨迹嵌入表示,e
tpye
表示源类别嵌入表示,es表示时间区间索引嵌入表示,其中d代表的嵌入表示向量的维度,d的大小可设为256。进一步的,基于transformer编码器得到轨迹数据的位置嵌入表示e
pos
,则基于transformer编码器得到的轨迹数据的组合嵌入表示向量为e=e
t
+es+e
tpye
+e
pos
。可以理解的,当多源轨迹数据包括gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据时,则此时得到的不同源类别的轨迹数据的组合嵌入表示向量分别为eg表示gps轨迹数据对应的组合嵌入表示向量,ec表示手机信令轨迹数据对应的组合嵌入表示向量,ea表示手机app行为轨迹数据对应的组合嵌入表示向量,n
t
具体的为时间区间的数量,b为同批次轨迹数据的轨迹样本数量,在一实施例中,b的取值为256。
[0054]
在得到组合嵌入表示向量e之后,则进一步的基于组合嵌入表示向量e得到轨迹数据的隐状态向量h。类似的,gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据的隐状态向量h分别被表示为其中,transformer编码器的层数和头数都可设为2。进一步的,将各所述轨迹数据的隐状态向量进行池化得到各所述轨迹数据的特征表示向量z,gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据的特征表示向量分别被表示为zg∈r
b*d
、zc∈r
b*d
和za∈r
b*d
。示例性的,可将各所述轨迹数据的隐状态向量进行均值池化得到各所述轨迹数据的特征表示向量z。
[0055]
为了使本技术的轨迹表示模型获得较好的表示能力,则一实施例的多源轨迹数据表示方法还包括以下步骤:确定所述轨迹表示模型的编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数,基于所述编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数构建模型总损失函数,基于所述模型总损失函数对所述轨迹表示模型的模型参数进行迭代更新。
[0056]
在一实施例中,可将bert模型作为本技术的transformer编码器模型,此时编码器损失函数则具体的为bert损失函数l
bert
。另外,多源轨迹数据的特征表示向量zg、zc和za虽然属于不同的源类别,但其属于同一用户在同一时间段内产生的轨迹数据,因而他们在向量空间应该尽可能相似,因此对于该轨迹表示模型,还可以基于对比学习损失实现模型的优化。轨迹还原损失是指采用解码器对编码器输出的轨迹数据的隐状态向量h进行解码后得到的时空轨迹还原数据与输入至编码器中的原始轨迹数据之间的损失;轨迹生成损失是指采用解码器对源类别嵌入表示和编码器输出的轨迹数据的特征表示向量z的组合进行解码得到的指定的其他源类别的轨迹数据的损失。
[0057]
示例性的,模型总损失函数为:
[0058]
l=l
bert
+α*lr+β*lg+l
con

[0059]
其中,l为模型总损失,l
bert
为编码器损失,lr为轨迹还原损失,lg为轨迹生成损失,l
con
为对比学习损失,α和β均为超参数,具体的可设为1。
[0060]
示例性的,当多源轨迹数据包括gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据时,对比学习损失函数可以表示为:l
con
=infonce(hg,hc)+infonce(hg,ha)+infonce(ha,hc)。hg、hc和ha分别表示gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据对应的隐状态向量。可以理解的,在该实施例中,轨迹数据共有三种,而当轨迹数据仅具有两种,如多源轨迹数据仅包括gps轨迹数据和手机信令轨迹数据时,则对应的对比学习损失函数l
con
=infonce(hg,hc)。进一步的,infonce函数可以表示为l
infonce
=-log(exp(f(xi)
t
f(xj)/τ)/∑k[exp(f(xi)
t
f(xk)/τ)]);其中f(x)表示编码函数,xi、xj表示正样本对,xk表示负样本,τ为温度参数,用于控制分布的“尖锐度”,在该实施例中温度参数可取0.5。
[0061]
进一步的,确定所述轨迹表示模型的轨迹还原损失函数,具体可包括:将所述轨迹数据的隐状态向量输入至第一解码器中,得到所述隐状态向量对应的时空轨迹还原数据,基于所述时空轨迹还原数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹还原损失函数。
[0062]
在该实施例中,首先构建第一解码器,第一解码器的层数和头数与编码器的相同,即第一解码器的层数和头数也均设为2,此时基于编码器输出的隐状态向量利用第一解码器还原编码器输入的原始的轨迹数据。具体的,基于负对数似然损失函数度量第一解码器还原的时空轨迹还原数据和编码器输入的原始的轨迹数据之间的差异。进一步的,当多源轨迹数据包括gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据时,轨迹还原损失函数可表示为:
[0063]
lr=l
rec(g)
+l
rec(c)
+l
rec(a)

[0064][0065]
其中,l
rec(g)
、l
rec(c)
、l
rec(a)
分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据的轨迹还原损失,tokeni表示轨迹数据在第i个时间区间内的轨迹点的token值,p
1i
表示时空轨迹还原数据在第i个时间区间内轨迹点的概率分布,n
t
表示时间区间总数量。
[0066]
在其他实施例中,确定所述轨迹表示模型的轨迹生成损失函数,具体可包括:将所述轨迹数据的特征表示向量和待生成的其他源的源类别嵌入表示输入至第二解码器,生成与所述轨迹数据不同源的其他源轨迹数据,基于所述其他源轨迹数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹生成损失函数。
[0067]
在该实施例中,首先构建第二解码器,第二解码器的结构与第一解码器的结构相同,此时将轨迹数据的特征表示向量z和所要生成的其他源的源类别嵌入表示e
type
进行相加并输入至第二解码器中,第二解码器进而基于其输入生成指定类别的其他源轨迹数据。具体的,基于负对数似然损失函数度量第二解码器生成的其他源轨迹数据和真实轨迹数据之间的差异。示例性的,当多源轨迹数据包括gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据时,轨迹生成损失函数可表示为:
[0068]
lg=l
g(g)
+l
g(c)
+l
g(a)

[0069][0070]
其中,l
g(g)
、l
g(c)
和l
g(a)
分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据相互生成的轨迹生成损失,tokeni表示轨迹数据在第i个时间区间内的轨迹点的token值,p
2i
表示所生成的其他源轨迹数据在第i个时间区间内轨迹点的概率分布,n
t
表示时间区
间总数量,b为g、c或a。
[0071]
在其他一些实施例中,基于训练好的轨迹表示模型得到的多源轨迹数据的特征表示向量还可进一步的存储至向量数据库,从而便于进行多源轨迹数据的检索。并且当用户的某一源的轨迹缺失时,则利用本技术的多源轨迹数据表示方法还可进一步的实现轨迹数据的跨源的生成,从而输出用户的伴随轨迹,进而便于解决单一源轨迹数据不完整等问题。
[0072]
对应的,本发明还提供了一种多源轨迹数据表示系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。
[0073]
示例性的,图2为本发明一实施例的多源轨迹数据表示系统的架构示意图,参考图2,该多源轨迹数据表示系统可以包括数据预处理模块、轨迹编码模块、轨迹表示模块、对比学习模块、轨迹还原模块以及跨源轨迹数据生成模块。数据预处理模块的主要任务是对来自多种源类别的原始轨迹数据进行预处理,包括数据清洗、归一化等,目的是将不同源的不同时空粒度的轨迹数据进行时空对齐,满足后续分析的需求。轨迹编码模块的主要任务是对预处理过的轨迹数据进行编码,将每个原始轨迹点编码为固定长度的数值向量,从而将不同源类别的轨迹编码到同一向量空间。轨迹表示模块的主要任务是对编码后的轨迹数据进行池化,获取轨迹的特征表示向量。对比学习模块利用多源轨迹数据进行对比学习,提高轨迹表示模型对轨迹数据的时空特征的表达能力。轨迹还原模块的主要任务是基于轨迹数据的隐状态向量对原始轨迹进行还原,以便于训练轨迹表示模型,从而获得表达能力更好的特征表示向量。跨源轨迹数据生成模块的主要任务是根据获得的轨迹数据的特征表示向量和所要生成的轨迹数据的源类别嵌入表示,生成指定的源类别的轨迹数据,该模块用于生成用户在指定数据源空间的伴随轨迹的原始轨迹数据。
[0074]
另外,为了便于对生成的特征表示向量进行检索,则该多源轨迹数据表示系统还可包括轨迹检索模块,该模块利用向量数据库对多源轨迹数据实现高效检索。
[0075]
另外,该发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
[0076]
通过上述实施例可以发现,本技术的多源轨迹数据表示方法及装置,首先确定各时间区间内的各轨迹数据的轨迹点的token值,然而形成各轨迹数据对应的token值集合,进而基于轨迹表示模型得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,并根据轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示以及位置嵌入表示形成的组合嵌入表示得到最终的各轨迹数据的特征表示向量。该方法及装置解决了基于原始多源轨迹数据进行分析所面临的复杂性、不一致性等问题;并且该方法在对轨迹数据进行表示时,考虑了轨迹数据的源类别,因而该方法对于不同类别、大规模、高维、复杂、动态的轨迹数据均可以高效的进行表示,且还提高了轨迹数据表示的准确性。该方法及装置还可以根据输入的单一源轨迹数据生成其他源上的伴随轨迹数据,克服单一数据源稀疏性等问题,提高轨迹数据完整性和对用户移动的描述能力。
[0077]
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的
范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0078]
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
[0079]
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
[0080]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种多源轨迹数据表示方法,其特征在于,所述方法包括:获取第一时间段内的多源轨迹数据,将所述第一时间段划分为多个时间区间,确定各所述时间区间内的各轨迹数据的轨迹点的token值,得到各轨迹数据对应的token值集合;将各所述token值集合、各所述轨迹数据的源类别以及时间区间索引信息输入至轨迹表示模型,得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,将所述轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示与位置嵌入表示进行组合得到组合嵌入表示,基于各所述组合嵌入表示得到各所述轨迹数据的隐状态向量,将各所述轨迹数据的隐状态向量进行池化得到各所述轨迹数据的特征表示向量。2.根据权利要求1所述的多源轨迹数据表示方法,其特征在于,确定各所述时间区间内的各轨迹数据的轨迹点的token值,包括:将各所述轨迹数据的各轨迹点分别分配至各时间区间;确定各轨迹数据在各时间区间内出现次数最多的轨迹点;将各时间区间内出现次数最多的轨迹点对应的token值作为相应时间区间内的token值。3.根据权利要求2所述的多源轨迹数据表示方法,其特征在于,当所述时间区间内的轨迹点数量为0时,所述时间区间对应的token值为pad。4.根据权利要求1所述的多源轨迹数据表示方法,其特征在于,所述方法还包括:确定所述轨迹表示模型的编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数,基于所述编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数构建模型总损失函数,基于所述模型总损失函数对所述轨迹表示模型的模型参数进行迭代更新;和/或所述多源轨迹数据包括gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据。5.根据权利要求4所述的多源轨迹数据表示方法,其特征在于,所述模型总损失函数为:l=l
bert
+α*l
r
+β*l
g
+l
con
;其中,l为模型总损失,l
bert
为编码器损失,l
r
为轨迹还原损失,l
g
为轨迹生成损失,l
con
为对比学习损失,α和β均为超参数。6.根据权利要求5所述的多源轨迹数据表示方法,其特征在于,确定所述轨迹表示模型的轨迹还原损失函数,包括:将所述轨迹数据的隐状态向量输入至第一解码器中,得到所述隐状态向量对应的时空轨迹还原数据,基于所述时空轨迹还原数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹还原损失函数。7.根据权利要求6所述的多源轨迹数据表示方法,其特征在于,确定所述轨迹表示模型的轨迹生成损失函数,包括:将所述轨迹数据的特征表示向量和待生成的其他源的源类别嵌入表示输入至第二解码器,生成与所述轨迹数据不同源的其他源轨迹数据,基于所述其他源轨迹数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹生成损失函数。8.根据权利要求7所述的多源轨迹数据表示方法,其特征在于,所述轨迹还原损失函数为:
l
r
=l
rec(g)
+l
rec(c)
+l
rec(a)
;其中,l
rec(g)
、l
rec(c)
、l
rec(a)
分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据的轨迹还原损失,token
i
表示轨迹数据在第i个时间区间内的轨迹点的token值,p
1i
表示时空轨迹还原数据在第i个时间区间内轨迹点的概率分布,n
t
表示时间区间总数量;所述轨迹生成损失函数为:l
g
=l
g(g)
+l
g(c)
+l
g(a)
;其中,l
g(g)
、l
g(c)
和l
g(a)
分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据相互生成的轨迹生成损失,token
i
表示轨迹数据在第i个时间区间内的轨迹点的token值,p
2i
表示所生成的其他源轨迹数据在第i个时间区间内轨迹点的概率分布,n
t
表示时间区间总数量,b为g、c或a。9.一种多源轨迹数据表示系统,该系统包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如权利要求1至8中任意一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任意一项所述方法的步骤。

技术总结
本发明提供一种多源轨迹数据表示方法及装置,所述方法包括:获取第一时间段内的多源轨迹数据,将所述第一时间段划分为多个时间区间,确定各所述时间区间内的各轨迹数据的轨迹点的Token值,得到各轨迹数据对应的Token值集合;将各所述Token值集合、各所述轨迹数据的源类别以及时间区间索引信息输入至轨迹表示模型,得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,将所述轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示与位置嵌入表示进行组合得到组合嵌入表示,基于各组合嵌入表示得到各所述轨迹数据的隐状态向量,将各轨迹数据的隐状态向量进行池化得到各轨迹数据的特征表示向量。该多源轨迹数据表示方法可提高轨迹数据表示的准确性。可提高轨迹数据表示的准确性。可提高轨迹数据表示的准确性。


技术研发人员:项阳 闫天一 窦崇铭 司俊俊 羊晋 涂波
受保护的技术使用者:和智信(山东)大数据科技有限公司
技术研发日:2023.07.10
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐