一种基于人机协同增强的自动驾驶控制决策方法及系统
未命名
10-21
阅读:66
评论:0
1.本发明涉及人工智能技术领域,特别是涉及一种基于人机协同增强的自动驾驶控制决策方法及系统。
背景技术:
2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.自动驾驶技术在降低交通事故发生概率、提高道路驾驶安全性、缓解交通拥堵等方面具有巨大潜能;而真实道路环境复杂,环境信息多样,且道路中的其他机体呈现较高的不确定性,这对自动驾驶的控制决策造成极大挑战。
4.为提高自动驾驶控制决策算法的鲁棒性、自适应能力以及处理更复杂问题的决策能力,更好地应对复杂多变的道路环境,近年来学者多采用深度强化学习的方式训练智能车辆的行为决策,以代替传统基于规则或基于效率的方法。基于深度强化学习方法训练的自动驾驶决策算法解决传统方法面临的复杂的规则设计和耗时的参数调节等难题,具有较好表现。
5.然而,基于深度强化学习方法训练智能车辆的方法同样有局限性,如强化学习训练过程中所需的奖励函数需要精心设计,否则可能会面临训练奖励稀疏的问题;另外,基于深度强化学习训练出的智能车辆较难表现出高智能化、高复杂度的行为策略,如提前变道、及时超车、等待让行等。而人作为高等智能动物,在这些方面变现优异,采用人机协同范式将人类智能引入智能体学习过程中成为解决复杂自动驾驶决策难题的重要研究方向。
6.现有采用人机协作的方法主要有行为克隆、逆强化学习、基于人类反馈的强化学习等方式。行为克隆采用模仿学习的方式进行训练,其在训练之前采用仿真系统和传感器采集真实人类驾驶员驾驶数据,采集数据作为数据集进行监督训练,使智能车辆学习人类驾驶行为;但是行为克隆不仅需要大量的现实数据,并且训练的模型泛化能力较差,较难处理专家数据中没有出现的情况。
7.逆强化学习方法同样需要提前收集人类驾驶员驾驶数据,不过区别于行为克隆直接将采集到的数据作为专家数据集进行训练,逆强化学习通常借助专家驾驶员的行为数据进行学习,并推理出专家驾驶员行为的潜在奖励函数,利用该奖励函数进一步强化学习。由于复杂交通场景中周围参与者的不确定性,且相同情况下不同的专家驾驶员做出的决策可能完全不同,推理出的奖励函数指导性过弱而导致策略不适应。
8.基于人类反馈的强化学习采用人在回路的强化学习训练范式,人类专家直接参与到强化学习的训练过程中,根据训练过程中智能车辆的行为决策表现给予反馈信号,反馈信号进一步调整强化学习网络参数,反馈信号主要有基于评估的反馈信号和基于偏好的反馈信号两种,但是反馈信号往往过于稀疏且传达信息不足,导致所起效果有限。
技术实现要素:
9.为了解决上述问题,本发明提出了一种基于人机协同增强的自动驾驶控制决策方法及系统,采用人机协同增强训练框架,使专家驾驶员在强化学习训练回路前和训练回路中共同发挥作用,并使用驾驶员驾驶演示数据、车辆自行驶数据以及驾驶员监督纠正数据共同参与训练,提升训练的速度与精度。
10.为了实现上述目的,本发明采用如下技术方案:
11.第一方面,本发明提供一种基于人机协同增强的自动驾驶控制决策方法,包括:
12.获取混合数据;所述混合数据包括驾驶员驾驶演示数据、车辆自行驶数据以及在车辆自行驶时,监督驾驶员接管控制的监督纠正动作;
13.基于监督纠正动作,预测在当前监督纠正动作下的驾驶模拟数据,并对当前监督纠正动作进行评分,以确定以当前监督纠正动作接管控制后的驾驶数据与车辆自行驶数据间的差异在训练控制决策模型时所占的权重;
14.基于混合数据对控制决策模型进行训练,并在有监督驾驶员接管控制时引入对应的权重,从而根据训练后的控制决策模型得到自动驾驶的控制策略。
15.作为可选择的实施方式,驾驶员驾驶演示数据和车辆自行驶数据均包括状态和动作;其中,状态包括每个决策时间步的图像数据、雷达监测数据、车辆速度和车辆轮胎方向,动作及监督纠正动作均包括方向盘转向和刹车力度。
16.作为可选择的实施方式,对控制决策模型进行训练过程中,使用actor-critic强化学习范式进行训练,包括值函数优化目标和策略函数π(a
t
|s
t
;θ)优化目标;
17.其中,值函数优化目标表示为:
[0018][0019][0020]
其中,为actor网络模型参数;为训练数据中车辆的最终执行动作;α为有监督驾驶员接管控制时引入的权重;i(s
t
)为二元函数,表示在状态s
t
下监督驾驶员是否接管控制,若不接管则为0,若接管则为1;a
n,t
和a
h,t
分别表示在状态s
t
下车辆和监督驾驶员的动作;r(s
t
,a
t
)为奖励函数;a
′
为预测的下一时刻的动作,s
t+1
为t+1时刻的状态。
[0021]
作为可选择的实施方式,所述奖励函数设计为车辆到达终点、车辆与障碍物发生碰撞以及有监督驾驶员干预的情况下赋奖励值。
[0022]
作为可选择的实施方式,策略函数π(a
t
|s
t
;θ)优化目标表示为最大化值函数:
[0023]
max
θ
e[q(s
t
,a
t
)-βlogπ(a
t
|s
t
;θ)]
[0024]
其中,θ为critic网络模型参数;β为超参数;a
t
为训练数据中车辆的动作。
[0025]
作为可选择的实施方式,在当前监督纠正动作下采用策略生成器预测驾驶模拟数据,并采用判别器对当前监督纠正动作进行评分。
[0026]
作为可选择的实施方式,基于混合数据对控制决策模型进行训练时,对混合数据中的三类数据按比例抽样,以使三类数据共同对控制决策模型训练起作用。
[0027]
第二方面,本发明提供一种基于人机协同增强的自动驾驶控制决策系统,包括:
[0028]
获取模块,被配置为获取混合数据;所述混合数据包括驾驶员驾驶演示数据、车辆
自行驶数据以及在车辆自行驶时,监督驾驶员接管控制的监督纠正动作;
[0029]
判别模块,被配置为基于监督纠正动作,预测在当前监督纠正动作下的驾驶模拟数据,并对当前监督纠正动作进行评分,以确定以当前监督纠正动作接管控制后的驾驶数据与车辆自行驶数据间的差异在训练控制决策模型时所占的权重;
[0030]
决策模块,被配置为基于混合数据对控制决策模型进行训练,并在有监督驾驶员接管控制时引入对应的权重,从而根据训练后的控制决策模型得到自动驾驶的控制策略。
[0031]
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
[0032]
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
[0033]
与现有技术相比,本发明的有益效果为:
[0034]
(1)本发明采用人机协同增强训练框架,使专家驾驶员在强化学习训练回路前和训练回路中共同发挥作用,解决传统行为克隆、逆强化学习泛化能力较差和策略不稳定不适应等问题,并结合强化学习本身将人类智能融入强化学习的模型训练中,有效提升自动驾驶控制决策算法网络模型的表现性能。
[0035]
(2)本发明将智能车辆探索环境所得经验、监督驾驶员的在线演示动作、在强化学习训练回路开始之前得到的驾驶员驾驶演示数据均保存在数据缓冲区中,以在强化学习回路中形成一个包含车辆自行驶数据、驾驶员监督纠正数据和驾驶员驾驶演示数据组成的丰富数据缓冲区,并在网络模型参数更新阶段采用离线学习的强化学习训练方式,对数据进行按比例随机抽样,共同参与训练,共同对梯度起作用,在提升网络模型训练速度的同时,更好地将人类智能融入强化学习训练模型中,提升自动驾驶控制决策算法的表现,有效解决自动驾驶控制决策算法训练过程中奖励稀疏和训练缓慢的问题。
[0036]
(3)在监督驾驶员在线监督智能车辆的过程中,由于可能会存在监督驾驶员所提供的监督纠正动作并不是在当前场景下的最优决策,或者在不同时刻面对相同场景所提供的动作决策可能是完全不同的,所以该种情况存在的非稳定性会给模型参数更新收敛过程带来不利影响。因此,本发明提供基于判别模型的动态权重学习方式,采用生成对抗模仿学习方式训练判别器,以此作为对驾驶员监督纠正数据打分的依据,并依此动态调整驾驶员监督纠正数据参与计算梯度的权重,有效解决在线数据非最优和在线动作决策不稳定的问题。
[0037]
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0038]
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0039]
图1为本发明实施例1提供的基于人机协同增强的自动驾驶控制决策方法流程框图。
具体实施方式
[0040]
下面结合附图与实施例对本发明做进一步说明。
[0041]
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
[0042]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0043]
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0044]
实施例1
[0045]
本实施例提供了一种基于人机协同增强的自动驾驶控制决策方法,如图1所示,包括:
[0046]
获取混合数据;所述混合数据包括驾驶员驾驶演示数据、车辆自行驶数据以及在车辆自行驶时,监督驾驶员接管控制的监督纠正动作;
[0047]
基于监督纠正动作,预测在当前监督纠正动作下的驾驶模拟数据,并对当前监督纠正动作进行评分,以确定以当前监督纠正动作接管控制后的驾驶数据与车辆自行驶数据间的差异在训练控制决策模型时所占的权重;
[0048]
基于混合数据对控制决策模型进行训练,并在有监督驾驶员接管控制时引入对应的权重,从而根据训练后的控制决策模型得到自动驾驶的控制策略。
[0049]
本实施例面向交通道路环境,环境中分布着大量由既定算法控制的车辆,实例任务为训练一个网络模型可以控制智能车辆安全高效地从起点行驶至终点,其中安全高效定义为智能车辆在不与道路中其他车辆及道路中障碍物相撞的前提下尽量用时最短。
[0050]
在本实施例中,开始强化学习训练之前,先由人类专家驾驶员控制车辆在道路中行驶,并记录驾驶员驾驶演示数据,包括每个决策时间步的由摄像头拍摄的图像数据、雷达监测数据、当前车辆速度、车辆轮胎方向和驾驶演示动作,其中驾驶演示动作为两个维度的连续变量,分别代表方向盘转向和刹车力度。
[0051]
对采集到的驾驶员驾驶演示数据进行筛选过滤,去除驾驶员驾驶演示动作决策较差的数据,包括已经发生碰撞的场景、操作不当虽未造成碰撞但车辆面临危险处境、未及时超车更换车道等,以及同种场景下驾驶员驾驶演示动作偏差较大的数据,确保动作决策的稳定且高效。
[0052]
在本实施例中,在强化学习训练阶段,还获取车辆自行驶数据以及在车辆自行驶时监督驾驶员接管控制的驾驶员监督纠正动作;
[0053]
其中,车辆自行驶数据为智能车辆在仿真环境中与环境交互并探索的数据,同样包括由摄像头拍摄的图像数据、雷达监测数据、当前车辆速度、车辆轮胎方向、方向盘转向和刹车力度;
[0054]
驾驶员监督纠正动作为:当智能车辆表现的动作不符合预期时,监督驾驶员可在
线打断智能车辆的探索并给出相应正确的驾驶动作,包括方向盘转向和刹车力度。
[0055]
在监督驾驶员在线监督智能车辆的过程中,由于是在线实时提供演示,所以可能存在监督驾驶员所提供的监督纠正动作并不是在当前场景下的最优决策;另外,驾驶员在不同时刻面对相同场景所提供的动作决策可能是完全不同的,此时存在的非稳定性很可能给模型参数更新收敛过程带来不利影响,最终影响决策表现效果。因此,本实施例提供基于判别模型的动态权重学习方式,以此来解决在线数据非最优和在线动作决策不稳定的问题。
[0056]
具体地:
[0057]
采用生成对抗模仿学习(gail)的方式,利用驾驶员驾驶演示数据,学习策略生成器g和判别器d;其训练目标是得到使maxv(g,d)最小的生成器g
*
:
[0058]g*
=argminmaxv(g,d)
[0059][0060]
其中,p
data
和pg分别代表驾驶员驾驶演示数据和策略生成器g生成的驾驶模拟数据;x为训练样本数据。
[0061]
区别于现有方法使用策略生成器作为最终控制决策,本实施例使用判别器d作为打分器,在判别器d中,驾驶员驾驶演示数据p
data
的样本标签为1,策略生成器生成的驾驶模拟数据的样本标签为0,以此对监督驾驶员的驾驶员监督纠正数据进行打分,判别器d(x)分值越高,代表在当前场景下,该动作决策越接近驾驶员驾驶演示数据;又因为驾驶员驾驶演示数据是经过筛选过滤并去除驾驶员动作决策较差的数据以及同种场景下驾驶员动作偏差较大数据的,因此分值越高表示在该场景下该动作决策越好。
[0062]
该判别器作为打分器在后续强化学习训练阶段起作用,在后续计算梯度时,根据判别器d的分值,动态调整有监督驾驶员接管控制时的相关数据参与梯度计算的权重,能较好解决在线数据非最优和在线动作决策不稳定的问题。
[0063]
在本实施例中,在强化学习训练阶段,智能车辆随机探索环境并积累经验,在智能车辆自由探索环境的同时,会有一名监督驾驶员实时监督智能车辆,当智能车辆表现出的动作偏离监督驾驶员预期时,其可以直接打断智能车辆的探索行为并接替车辆的控制权,在线提供动作演示后释放智能车辆的控制权,智能车辆继续自由探索环境。
[0064]
学习过程中的数据p
data+
表示为{(s
t
,a
n,t
,a
h,t
,i(s
t
)),
…
},其中,a
n,t
和a
h,t
分别表示在状态s
t
下智能车辆和监督驾驶员的动作;i(s
t
)为一个二元函数,表示在状态s
t
下监督驾驶员是否接管智能车辆的控制权,如果t时刻监督驾驶员没有接管智能车辆的控制权,则i(s
t
)为0,a
h,t
为空;状态s
t
包括当前摄像头拍摄的图像数据、雷达监测数据、当前车辆速度和车辆轮胎方向,动作为方向盘转向和刹车力度。
[0065]
另外,强化学习训练回路前采集的驾驶员驾驶演示数据p
data
被混入数据缓冲区中参与训练,并且该部分数据同样以上述数据存储形式表示。不同的是,该部分数据对任意状态的s
t
,i(s
t
)全部为1,a
n,t
为空。
[0066]
智能车辆在训练过程中所需的奖励函数定义为:
[0067][0068]
模型参数更新阶段,本实施例采用离线学习方式随机抽取混合数据缓冲区的样本数据计算梯度,在该阶段中,驾驶员驾驶演示数据、车辆自行驶数据以及驾驶员监督纠正数据共同参与梯度计算。
[0069]
本实施例使用actor-critic强化学习范式进行训练,actor输出动作使得获得的累计期望奖励最大,critic网络对actor动作进行打分,分别用和π(a
t
|s
t
;θ)表示为值函数和策略函数,其中和θ分别代表其网络模型参数。
[0070]
则值函数优化目标函数表示为:
[0071][0072][0073]
其中,为抽样数据中智能汽车的最终执行动作,因为会有监督驾驶员干预的情况,所以此处代表最终执行动作;当抽样数据来自驾驶员驾驶演示数据p
data
时,其动作a
n,t
服从策略函数分布,即a
n,t
~π(.|s
t
;θ);a
′
为基于策略函数预测的下一时刻的动作。
[0074]
该目标函数共包含和两部分,前项为混合数据p
data+
和p
data
下的时间差分误差,其受奖励函数约束;后项主要是人类监督信号起作用,其学习目标为缩小监督驾驶员干预时的监督纠正动作与智能汽车动作对用q值的差距,促进智能汽车学习人类策略;α为后项所占目标函数的权重,由强化学习训练回路之前训练得到的判别器d计算得出,消除在线演示数据非最优的影响。
[0075]
策略函数优化目标为最大化值函数,表示为:
[0076]
max
θ
e[q(s
t
,a
t
)-βlogπ(a
t
|s
t
;θ)]
[0077]at
~π(.|s
t
;θ)
[0078]
其中,β为超参数。
[0079]
计算出梯度后,利用梯度下降算法更新网络模型参数。在经过长时间的训练后,智能车辆获得的奖励逐步趋于稳定,算法逐渐收敛,智能车辆能够较好完成自动驾驶控制决策任务,训练任务完成。本实施例训练算法达到收敛所需的训练时间与训练步数远远小于强化学习的方法且算法表现更好。
[0080]
在训练过程中智能车辆探索环境所得经验与监督驾驶员的在线演示动作分别被保存在不同的数据缓冲区供后续网络模型参数更新使用;另外,在强化学习训练回路开始之前收集得到的专家数据同样被加入训练中的数据缓冲区;这样强化学习回路中形成一个包含车辆自行驶数据、驾驶员监督纠正数据和驾驶员驾驶演示数据组成的丰富数据缓冲区,并在网络模型参数更新阶段采用离线学习的方式,对数据进行按比例随机抽样,共同对
梯度起作用,在提升网络模型训练速度的同时更好地将人类智能融入强化学习训练模型中,提升自动驾驶控制决策算法的表现。
[0081]
实施例2
[0082]
本实施例提供一种基于人机协同增强的自动驾驶控制决策系统,包括:
[0083]
获取模块,被配置为获取混合数据;所述混合数据包括驾驶员驾驶演示数据、车辆自行驶数据以及在车辆自行驶时,监督驾驶员接管控制的监督纠正动作;
[0084]
判别模块,被配置为基于监督纠正动作,预测在当前监督纠正动作下的驾驶模拟数据,并对当前监督纠正动作进行评分,以确定以当前监督纠正动作接管控制后的驾驶数据与车辆自行驶数据间的差异在训练控制决策模型时所占的权重;
[0085]
决策模块,被配置为基于混合数据对控制决策模型进行训练,并在有监督驾驶员接管控制时引入对应的权重,从而根据训练后的控制决策模型得到自动驾驶的控制策略。
[0086]
此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
[0087]
在更多实施例中,还提供:
[0088]
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
[0089]
应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0090]
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
[0091]
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
[0092]
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0093]
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0094]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
技术特征:
1.一种基于人机协同增强的自动驾驶控制决策方法,其特征在于,包括:获取混合数据;所述混合数据包括驾驶员驾驶演示数据、车辆自行驶数据以及在车辆自行驶时,监督驾驶员接管控制的监督纠正动作;基于监督纠正动作,预测在当前监督纠正动作下的驾驶模拟数据,并对当前监督纠正动作进行评分,以确定以当前监督纠正动作接管控制后的驾驶数据与车辆自行驶数据间的差异在训练控制决策模型时所占的权重;基于混合数据对控制决策模型进行训练,并在有监督驾驶员接管控制时引入对应的权重,从而根据训练后的控制决策模型得到自动驾驶的控制策略。2.如权利要求1所述的一种基于人机协同增强的自动驾驶控制决策方法,其特征在于,驾驶员驾驶演示数据和车辆自行驶数据均包括状态和动作;其中,状态包括每个决策时间步的图像数据、雷达监测数据、车辆速度和车辆轮胎方向,动作及监督纠正动作均包括方向盘转向和刹车力度。3.如权利要求1所述的一种基于人机协同增强的自动驾驶控制决策方法,其特征在于,对控制决策模型进行训练过程中,使用actor-critic强化学习范式进行训练,包括值函数优化目标和策略函数π(a
t
|s
t
;θ)优化目标;其中,值函数优化目标表示为:优化目标表示为:其中,为actor网络模型参数;为训练数据中车辆的最终执行动作;α为有监督驾驶员接管控制时引入的权重;i(s
t
)为二元函数,表示在状态s
t
下监督驾驶员是否接管控制,若不接管则为0,若接管则为1;a
n,t
和a
h,t
分别表示在状态s
t
下车辆和监督驾驶员的动作;r(s
t
,a
t
)为奖励函数;a
′
为预测的下一时刻的动作,s
t+1
为t+1时刻的状态。4.如权利要求3所述的一种基于人机协同增强的自动驾驶控制决策方法,其特征在于,所述奖励函数设计为车辆到达终点、车辆与障碍物发生碰撞以及有监督驾驶员干预的情况下赋奖励值。5.如权利要求3所述的一种基于人机协同增强的自动驾驶控制决策方法,其特征在于,策略函数π(a
t
|s
t
;θ)优化目标表示为最大化值函数:max
θ
e[q(s
t
,a
t
)-βlogπ(a
t
|s
t
;θ)]其中,θ为critic网络模型参数;β为超参数;a
t
为训练数据中车辆的动作。6.如权利要求1所述的一种基于人机协同增强的自动驾驶控制决策方法,其特征在于,在当前监督纠正动作下采用策略生成器预测驾驶模拟数据,并采用判别器对当前监督纠正动作进行评分。7.如权利要求1所述的一种基于人机协同增强的自动驾驶控制决策方法,其特征在于,基于混合数据对控制决策模型进行训练时,对混合数据中的三类数据按比例抽样,以使三类数据共同对控制决策模型训练起作用。8.一种基于人机协同增强的自动驾驶控制决策系统,其特征在于,包括:
获取模块,被配置为获取混合数据;所述混合数据包括驾驶员驾驶演示数据、车辆自行驶数据以及在车辆自行驶时,监督驾驶员接管控制的监督纠正动作;判别模块,被配置为基于监督纠正动作,预测在当前监督纠正动作下的驾驶模拟数据,并对当前监督纠正动作进行评分,以确定以当前监督纠正动作接管控制后的驾驶数据与车辆自行驶数据间的差异在训练控制决策模型时所占的权重;决策模块,被配置为基于混合数据对控制决策模型进行训练,并在有监督驾驶员接管控制时引入对应的权重,从而根据训练后的控制决策模型得到自动驾驶的控制策略。9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
技术总结
本发明公开一种基于人机协同增强的自动驾驶控制决策方法及系统,包括:获取混合数据;所述混合数据包括驾驶员驾驶演示数据、车辆自行驶数据以及在车辆自行驶时,监督驾驶员接管控制的监督纠正动作;基于监督纠正动作,预测在当前监督纠正动作下的驾驶模拟数据,并对当前监督纠正动作进行评分,以确定以当前监督纠正动作接管控制后的驾驶数据与车辆自行驶数据间的差异在训练控制决策模型时所占的权重;基于混合数据对控制决策模型进行训练,并在有监督驾驶员接管控制时引入对应的权重,从而根据训练后的控制决策模型得到自动驾驶的控制策略。策略。策略。
技术研发人员:程吉禹 丁俊锋 陈佳铭 张伟 宋然 李晓磊
受保护的技术使用者:山东大学
技术研发日:2023.08.07
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种咖啡渣生物质复合材料的制备方法和应用 下一篇:一种红薯智能种植设备