一种自适应频率绿灯优化速度咨询模型学习系统及方法

1.本发明涉及自动驾驶的技术领域,具体为一种自适应频率绿灯优化速度咨询模型学习系统及方法。
背景技术:
2.近年来,对自动驾驶汽车速度建议的研究主要分为三种类型:基于规则的方法、基于优化的方法和基于学习的方法。其中,基于规则的方法使用数学公式和约束来训练策略,易于实现,但该方法需要专家知识,容易导致局部最优,且不适应动态交通。为了获得更好的性能,提出了基于优化的方法来解决上述缺陷。然而,基于优化的方法的缺点是计算时间大,并且没有考虑车辆的多种行为,如纵向速度控制、横向变道决策或超车等。为了满足更实时和动态的性能要求,提出了一种基于学习的方法来解决动态驾驶控制研究。
3.例如,采用deep q-network(dqn)方法控制车辆纵向速度,目的是减少因路口走走停停行为造成的延误和行驶时间。然而,在该研究中,需要一种基于规则的方法来确保在整个决策步骤中速度只改变一次。基于以上研究,根据咨询频次类型的不同,我们将速度咨询分为三种不同的模式,glosa系统为车辆提供单一的速度咨询,并依靠基于规则的方法来确定最佳的速度变化模式(包括加速、减速或保持),在进入速度引导区域后,车辆将其观测信息传输给glosa系统进行分析。系统评估状态信息,并确定车辆是否可以在绿灯期间保持当前速度通过十字路口。如果是,则不提供速度咨询配置文件。否则,该系统将为车辆提供最佳速度咨询配置文件。然而,这种方法不能很好适应交通流的动态性和复杂性。
技术实现要素:
4.基于此,有必要提供一种自适应频率绿灯优化速度咨询模型学习系统及方法。
5.一种自适应频率绿灯优化速度咨询模型学习系统,包括交通信息获取模块、强化学习模块、奖励函数模块,所述交通信息获取模块的数据输出端与所述强化学习模块的数据输入端连接,所述强化学习模块的数据输出端与所述奖励函数模块的数据输入端连接;所述强化学习模块包括混合actor网络和critic网络。
6.在其中一个实施例中,所述交通信息获取模块获取的信息包括交通灯相位信息、周围车辆的行驶状态信息以及车载传感器的速度和位置信息。
7.在其中一个实施例中,所述混合actor网络包括离散actor单元和连续actor单元,所述离散actor单元和连续actor单元共享同一个encode层。
8.在其中一个实施例中,所述连续actor单元用于提供最优的加速度咨询文件。
9.在其中一个实施例中,所述模型学习系统还包括缓冲池模块,所述缓冲池模块用于存储轨迹信息。
10.在其中一个实施例中,所述轨迹信息包括agent的初始观察状态信息、模型生成的速度咨询动作信息、从环境中获得的奖励值信息以及agent执行咨询动作后的后续观察状态信息。
11.一种自适应频率绿灯优化速度咨询模型学习方法,
12.交通信息获取模块获取当前车辆信息发送给强化学习模块;
13.强化学习模块根据车辆当前状态评估是否需要进行速度咨询;是则进入下一步骤;
14.强化学习模块将加速度咨询配置文件发送给车辆和奖励函数模块;
15.车辆按加速度咨询配置文件的速度行驶;
16.奖励函数模块对加速度咨询配置文件的准确性进行评估。
17.在其中一个实施例中,当车辆不需要进行速度咨询时,则车辆进入速度咨询间隙期,并且保持当前行驶状态继续行驶。
18.上述一种自适应频率绿灯优化速度咨询模型学习系统及方法的有益效果为:该系统及方法将速度咨询的频次转化为一系列自适应决策,并使用基于学习的方法从观察到的状态信息中学习相关特征,这使得车辆能够动态调整其驾驶状态,当交通场景发生变化时,车辆也可以及时调整行驶状态;本系统及方法可以根据动态交通流动态调整速度咨询频次,可以有效地处理参数化动作空间任务,可以很好的适应交通的动态性和复杂性,同时,奖励函数模块的设定,同时考虑了车辆的出行效率和燃油消耗,节约了出行成本。
附图说明
19.图1为本发明的一种自适应频率绿灯优化速度咨询模型学习系统的结构示意图。
具体实施方式
20.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
21.需要说明的是,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。相反,当元件被称作“直接”与另一元件连接时,不存在中间元件。
22.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
23.如图1所示,一种自适应频率绿灯优化速度咨询模型学习系统,包括交通信息获取模块100、强化学习模块200、奖励函数模块300,所述交通信息获取模块100的数据输出端与所述强化学习模块200的数据输入端连接,所述强化学习模块200的数据输出端与所述奖励函数模块300的数据输入端连接;所述强化学习模块200包括混合actor网络和critic网络。
24.在其中一个实施例中,所述交通信息获取模块100获取的信息包括交通灯相位信息、周围车辆的行驶状态信息以及车载传感器的速度和位置信息。
25.在其中一个实施例中,所述混合actor网络包括离散actor单元和连续actor单元,所述离散actor单元和连续actor单元共享同一个encode层。
26.在其中一个实施例中,所述连续actor单元用于提供最优的加速度咨询文件。
27.在其中一个实施例中,所述模型学习系统还包括缓冲池模块,所述缓冲池模块用于存储轨迹信息。
28.在其中一个实施例中,所述轨迹信息包括agent的初始观察状态信息、模型生成的速度咨询动作信息、从环境中获得的奖励值信息以及agent执行咨询动作后的后续观察状态信息。
29.一种自适应频率绿灯优化速度咨询模型学习方法,
30.交通信息获取模块100获取当前车辆信息发送给强化学习模块200;
31.强化学习模块200根据车辆当前状态评估是否需要进行速度咨询;是则进入下一步骤;
32.强化学习模块200将加速度咨询配置文件发送给车辆和奖励函数模块300;
33.车辆按加速度咨询配置文件的速度行驶;
34.奖励函数模块300对加速度咨询配置文件的准确性进行评估。
35.在其中一个实施例中,当车辆不需要进行速度咨询时,则车辆进入速度咨询间隙期,并且保持当前行驶状态继续行驶。
36.深度强化学习(drl)已经成功地应用于机器人、游戏和仿真环境等各个领域。强化学习(rl)可以描述为一个由五元组{s,a,p,γ,r}组成的马尔可夫决策过程(mdp),其中s为状态集,a为动作集,p为状态si到状态s
i+1
的转移可能性集,γ为折现因子,γ∈[0,1],r为奖励集。一般来说,策略π是从状态到动作概率分布的映射:π:s
→
p(a=a|s)。强化学习的目标是学习一个最优策略π,它允许智能体根据从环境中获得的奖励信号r,根据当前状态si选择最佳行动a。
[0037]
策略学习方法可以分为三类:基于价值的方法、基于策略的方法和两者兼有的混合方法。深度q-network(deep q-network,dqn)是一种在drl中广泛使用的基于值的方法,它利用深度神经网络对值函数进行建模,能够处理高维和非线性状态空间,同时表现出良好的泛化能力。近端策略优化(proximal policy optimization,ppo)是一种强化学习算法,它基于actor-critic框架同时学习策略函数和价值函数。与其他actor-critic方法相比,例如trpo,ppo利用一个剪切的代理目标来限制新旧策略之间的差异。该方法更简单、直观,在实际应用中表现出更高的稳定性。在我们的方法中,我们采用混合近端策略优化(h-ppo)方法,该方法旨在处理参数化的动作空间任务,是在ppo方法的基础上进行的拓展。
[0038]
h-ppo采用混合actor-critic架构,将ppo作为其离散策略和连续策略的策略优化方法。和分别通过最小化它们各自的剪切代理目标来更新。离散策略的目标如下:
[0039][0040]
连续策略的目标如下:
[0041][0042]
其中是优势函数,表示为:
[0043][0044]
∈是超参数,γ是折扣因子。最终,是的概率比,被定义为:
[0045][0046]
是的概率比,被定义为:
[0047][0048]
在申请中,我们提出了一种自适应频率绿灯优化速度咨询模型学习系统,该模型采用混合近端策略优化(h-ppo)方法来适应参数化的动作空间。交叉口环境将配备glosa系统的自动驾驶汽车作为agent,交通信息获取模块100从周围环境中获取观测信息,包括即将到达的交通灯相位信息、周围车辆的行驶状态信息以及车载传感器的速度和位置信息。强化学习模块200对观测信息进行处理,输出控制间隙和加速度咨询配置文件。然后,agent执行咨询动作以获得下一个状态,最后奖励函数模块300根据预先设计的奖励函数对动作进行评分。
[0049]
其中,缓冲池模块用于存储轨迹信息,包括agent的初始观察状态、模型生成的速度咨询动作、从环境中获得的奖励值以及agent执行咨询动作后的后续观察状态。缓冲池模块作为学习的数据缓冲器,当缓冲池模块达到容量上限,然后利用存储的轨迹信息训练策略和经过多批次训练后,清空缓冲池模块,直到再次到达存储上限进入下一个策略训练周期。
[0050]
为了训练智能体学习到最优策略,本文设计状态空间、动作空间和奖励函数如下所示:
[0051]
状态空间。状态空间被定义为代理在给定时间步内所有可能的状态集合。agent根据从道路网络环境中获取的实时状态信息,包括受控车辆、交通信号灯和十字路口的信息,来选择最优的动作。状态空间s
t
可表示为:
[0052]st
=[l
t
,v
t
,a
t
,m
t
,w
t
,prev,pred,p
t
]#(6)
[0053]
其中l
t
为cav与停车线的距离,v
t
和a
t
为被控车辆在时间步长t时的当前速度和加速度,p
t
为交通灯的当前相位,m
t
表示当前相位的剩余时间,w
t
为前灯变绿的等待时间。另外,prev和pred分别表示前车的车速和与前车的距离。在本文中,我们只考虑了纵向速度引导,因此我们也只考虑了前车的行驶状态。例如,序列[l
t
,v
t
,a
t
,m
t
,w
t
,prev,pred,p
t
]=[30,8,2.5,2,22,11,8,0]表示cav与停车线的距离为30m,cav的当前速度为8m/s,加速度为2.5m/s2。前车车速为11m/s,cav与前车距离为8m,即将到达的交通灯相位为绿灯,当前相位剩余时间为2s,即将到达的交通灯变为绿灯相位的时间为22s。参数化的动作空间。本文设计了由两个子动作空间组成的参数化动作空间来完成自适应频率绿灯优化速度咨询任务。第一个子动作空间为离散速度控制间隙动作空间,表示为a
sc
:
[0054]asc
={0,1}#(7
[0055]
如果速度控制间隙动作设置为1,af-glosa模型将进入下一个动作空间进行加速度建议。否则,被控车辆进入速度控制间隙期,保持当前行驶状态。第二个子动作空间为连续加速控制动作空间,记为a
ac
:
[0056]aac
={a|a∈[-3,3]}#(8
[0057]
被控车辆的最大加速度和最大减速度均设为3m/s2。af-glosa模型能够生成介于最大加速度和大减速度范围内的最佳加速度咨询文件。
[0058]
奖励函数模块300。奖励函数模块300是模型学习系统的关键组成部分,它为agent提供必要的反馈信号来评估其行为并指导其决策以实现预期目标。它定义了任务的目标,并显著影响agent的行为和学习速度。在强化学习中,设计合适的奖励函数是一项具有挑战性的重要任务。本文的优化目标是减少cavs的停车次数和燃油消耗。因此,奖励函数r设计如下:
[0059]
r=α*r1+β*r2+ω*r3#(9
[0060]
其中,r1表示被控车辆在一个决策时间步内的燃油消耗,r2根据汽车的停车次数设置,以奖励或惩罚agent,r2表示为:
[0061][0062]
其中,权重系数α,β和ω用于平衡不同的奖励函数项。r3是一个奖励函数项,目的是鼓励agent选择一个合理的加速度。
[0063]
算法1给出了奖励项r3的计算过程。我们将加速度建议分为两种类型:合理的加速度和不合理的加速度。当车辆已经以最高速度行驶时,建议加速的加速度咨询被认为是不合理的,以及导致超出预设上限和下限的不合理速度的加速指导也是不合理的。在算法1中,当被控车辆处于车速引导区域时,我们根据建议加速度计算目标速度v
aim
。如果加速度建议合理(第3-5行),r3将被赋予一个正值作为奖励;否则,将被赋予负值作为惩罚(第6-7行)。相反,如果车辆处于控制间隙期(第8-11行),则r3将获得正值奖励。然而,如果当前的速度被认为是不合理的(第10-11行),表明在这个决策步骤中需要一个加速度建议,r3将被惩罚为负值。
[0064]
模型的强化学习模块200由混合actor网络和critic网络组成。混合actor网络由离散actor单元和连续actor单元组成,两者共享同一个encode层。离散actor单元决定车辆是否应该进入速度控制间隙期,目的是在整个决策步骤中给出最优的咨询频次,而连续actor单元提供最优的加速度咨询文件。首先将观测值输入到encode层,然后是全连接层,最后从softmax分布中随机采样,输出控制间隙决策。连续actor单元网络以控制间隙决策和编码后的状态共同作为输入,与离散actor单元不同,连续actor单元采用正态分布采样。为了限制正态分布的采样范围,我们应用tanh激活函数来限制正态分布的平均值在最大加速度和最大减速度之间。
[0065]
仿真分析和结果
[0066]
1、场景描述
[0067]
实验场景是一个三车道、带红绿灯的城市十字路口。红色车辆代表由模型控制的联网自动驾驶车辆(cav),黄色车辆代表由sumo模拟器控制的人类驾驶车辆(hdv)。当自动驾驶汽车进入速度引导区域(绿色区域)时,它可以接收到前方交通灯和前方车辆的信息。
根据这些实时信息,cav可以通过调整速度,从而能够不停车通过十字路口。
[0068]
为了模拟行车环境的多样性,本文设置了五种不同类型的hdv,它们具有不同的加减速能力。通过设置不同的车辆参数,可以更全面地模拟hdv在不同交通条件下的性能。车辆长度固定为5米,最小间距设置为2米,以保持稳定的预设车头距离从而避免碰撞。车辆的最高速度设定为11米/秒(40公里/小时)。为了模拟hdv的行为,我们采用了sumo中的智能驾驶员模型(intelligent driver model,idm)。最后,概率参数表示生成不同类型仿真hdv的比例。
[0069]
在仿真场景中,信号灯计时采用传统方式,绿灯相位持续时间tg设置为20秒,红灯相位持续时间tr也设置为20秒,因此信号灯c的周期时间为40秒。为了简化和减少训练的复杂性,我们的实验方案中已经排除了黄灯相位。
[0070]
2、仿真设置
[0071]
sumo(simulation of urban mobility,sumo)是一个广泛使用的可以对城市交通和车辆微观行为进行建模和仿真的开源交通模拟器。sumo中的traci接口允许使用各种编程语言检索和修改仿真值。在本技术中,我们在sumo环境中构建一个三车道信号交叉口场景。我们在配备amd ryzen 7 4800h(radeon graphics 2.90ghz)和nvidia geforce gtx 1650gpu的系统上使用sumo版本1.15和python版本3.7进行了模拟。
[0072]
3、仿真实验和结果
[0073]
为了评估模型的性能,我们将其与传统方法和基于学习的方法进行了比较,对比方法如下:
[0074]
·
benchmark:不使用任何glosa算法的测试驾驶。
[0075]
·
s_glosa:sumo中使用的传统glosa算法。
[0076]
·
l_glosa:使用ppo方法训练的基于学习的glosa算法,该算法不加入自适应频次。
[0077]
·
af-glosa:本文提出的基于学习的自适应频次glosa方法。
[0078]
为了比较不同算法的实验性能,本文定义了以下四个评价指标:
[0079]
表1.不同方法的实验效果对比
[0080][0081][0082]
·
wti:等待时间表示车辆在其旅程中等待的总时间。当车辆因交通拥挤或交通信号控制而停在某一地点时,wti参数以秒为单位增加车辆停车等待时间。因此,wti可以表示车辆在行驶过程中受交通拥堵和交通信号控制影响的程度。
[0083]
·
wco:停车次数表示车辆在其旅程中停止和等待的次数。当车辆因交通拥挤或交通信号控制而停在某一地点时,wco参数值加1。
[0084]
·
co2:sumo中的co2排放模型[30]基于“copert iv”模型,该模型是一种广泛应用于道路运输的排放模型,可用于评估不同交通情景对环境的影响,旨在评估减排策略的有效性,单位为毫克。
[0085]
·
fuel:车辆消耗的燃料量,单位为毫克。
[0086]
为了确保模拟的鲁棒性和多样性,我们将交通流密度设置为三个级别:低(300辆/小时)、中(1200辆/小时)和高(2700辆/小时)。为了避免过拟合,我们还随机选取了交通信号初始阶段和车辆出发时间。
[0087]
最后,我们通过改变出发时间范围来测试af-glosa模型的可扩展性,实验结果是通过对100多个随机测试进行平均得到的,实验结果见表1。为了保证实验的公平性,我们对每种对比方法都设置了相同的随机种子。
[0088]
对于表1中300辆/小时的情况,我们将不使用任何速度指导的benchmark方法作为例子,对cav行驶整条路线的结果进行分析。从表中可以看出,车辆等待时间为7.58s,wco为0.8表示100次试验中汽车共停车80次。在整个行程中,总共排放了254441毫克的二氧化碳,总油耗为81157毫克。在这种情况下,我们比较了其他三种方法的性能。其中,imp.行表示每种方法相对于benchmark的改进,粗体和下划线分别表示最佳方法和次优方法。实验结果表明,传统方法能够在有限的范围内减少车辆的停车次数、油耗和排放,并且具有良好的稳定性。然而,该方法的有效性随着交通流量的增加而降低。另一方面,基于学习的方法在多个指标上优于传统方法,但其性能不够稳定。此外,由于缺乏对车辆咨询频率的考虑,基于学习的方法会导致油耗和污染物排放的增加。相反,本文提出的自适应频率绿灯优化速度咨询模型学习系统在各种交通流中表现出显著的改进和良好的稳定性和可扩展性。
[0089]
4、奖励函数设计对比实验
[0090]
设计奖励函数的关键是平衡油耗和停车次数之间的权重系数,分别用α和β表示。本文将α设为-0.1,β设为0.6,ω设为10。另外,r3是用于约束策略输出边值的奖励项。以连续actor输出为例,连续actor网络倾向于输出加速度最大边缘值和减速度最大边缘值。我们还分别对r3项的添加和删除进行了比较。熵的高低是网络输出动作稳定性的一个重要指标,熵越小表示性能越好。结果表明,添加奖励项r3可以减小熵,r3项也可以加速奖励函数值的收敛。
[0091]
5、不同仿真步设计对比实验
[0092]
控制步长表示速度咨询系统引导车辆达到建议速度所需要预留的时间间隔。由于cav需要一定的时间才能加速或减速到建议的速度,因此一个合适的控制步长至关重要。
[0093]
在本技术中,我们将控制步长分为三个值,即step=1,2,3。我们观察到,当控制步长等于1时,奖励函数最高,但与其他控制步长相比,它会导致燃料消耗和二氧化碳排放显著增加。为了评估不同控制步长对模型性能的影响,我们进行了实验结果分析,从实验结果可知,当控制步长设置为3时,不同评价指标的综合表现最好。
[0094]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0095]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
技术特征:
1.一种自适应频率绿灯优化速度咨询模型学习系统,其特征在于,包括交通信息获取模块、强化学习模块、奖励函数模块,所述交通信息获取模块的数据输出端与所述强化学习模块的数据输入端连接,所述强化学习模块的数据输出端与所述奖励函数模块的数据输入端连接;所述强化学习模块包括混合actor网络和critic网络。2.根据权利要求1所述的一种自适应频率绿灯优化速度咨询模型学习系统,其特征在于,所述交通信息获取模块获取的信息包括交通灯相位信息、周围车辆的行驶状态信息以及车载传感器的速度和位置信息。3.根据权利要求1所述的一种自适应频率绿灯优化速度咨询模型学习系统,其特征在于,所述混合actor网络包括离散actor单元和连续actor单元,所述离散actor单元和连续actor单元共享同一个encode层。4.根据权利要求3所述的一种自适应频率绿灯优化速度咨询模型学习系统,其特征在于,所述连续actor单元用于提供最优的加速度咨询文件。5.根据权利要求1所述的一种自适应频率绿灯优化速度咨询模型学习系统,其特征在于,所述模型学习系统还包括缓冲池模块,所述缓冲池模块用于存储轨迹信息。6.根据权利要求5所述的一种自适应频率绿灯优化速度咨询模型学习系统,其特征在于,所述轨迹信息包括agent的初始观察状态信息、模型生成的速度咨询动作信息、从环境中获得的奖励值信息以及agent执行咨询动作后的后续观察状态信息。7.一种自适应频率绿灯优化速度咨询模型学习方法,其特征在于,交通信息获取模块获取当前车辆信息发送给强化学习模块;强化学习模块根据车辆当前状态评估是否需要进行速度咨询;是则进入下一步骤;强化学习模块将加速度咨询配置文件发送给车辆和奖励函数模块;车辆按加速度咨询配置文件的速度行驶;奖励函数模块对加速度咨询配置文件的准确性进行评估。8.根据权利要求7所述的自适应频率绿灯优化速度咨询模型学习方法,其特征在于,当车辆不需要进行速度咨询时,则车辆进入速度咨询间隙期,并且保持当前行驶状态继续行驶。
技术总结
本发明公开了一种自适应频率绿灯优化速度咨询模型学习系统及方法,包括交通信息获取模块、强化学习模块、奖励函数模块,所述交通信息获取模块的数据输出端与所述强化学习模块的数据输入端连接,所述强化学习模块的数据输出端与所述奖励函数模块的数据输入端连接;所述强化学习模块包括混合Actor网络和Critic网络;该系统及方法将速度咨询的频次转化为一系列自适应决策,并使用基于学习的方法从观察到的状态信息中学习相关特征,这使得车辆能够动态调整其驾驶状态,当交通场景发生变化时,车辆也可以及时调整行驶状态;本系统及方法可以根据动态交通流动态调整速度咨询频次,可以很好的适应交通的动态性和复杂性。好的适应交通的动态性和复杂性。好的适应交通的动态性和复杂性。
技术研发人员:许明 左东宇 张晶
受保护的技术使用者:辽宁工程技术大学
技术研发日:2023.06.19
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/