基于策略约束通信的强化学习多车协同系统及方法与流程
未命名
10-25
阅读:73
评论:0
1.本发明涉及多自动驾驶车辆强化学习,自动驾驶,多车协同等技术领域,更具体地说,涉及一种基于策略约束通信的强化学习多车协同系统及方法。
背景技术:
2.人工智能技术的发展促进着自动驾驶领域的不断进步,但在大量的自动驾驶车辆、人类驾驶车辆、行人等多种交通参与主体下的密集混合交通场景下更容易出现路况拥堵,协同困难,安全性难以保证等问题。
3.随着自动驾驶技术的不断进步,国内外近来聚焦于如何利用多自动驾驶车辆之间的协作,以改善交通路况,提高交通效率。来自多个车辆的传感器数据可以为自动驾驶车辆提供多视角信息,帮助车辆进行超视距感知,恶劣环境感知以及降低车载传感器数量成本,所以多车协同技术可以扩充自动驾驶车辆的感知,为自动驾驶技术提供更丰富的信息支持和数据来源,从而促进车辆进行更加稳健和安全的车辆行为决策。在多车协同提供的更丰富数据的条件下,多自动驾驶车辆之间也可以实现更加复杂的车辆协同,进一步基于车辆协同提高交通运行效率,缓解路况拥堵等现象。
4.但由于自动驾驶任务的长距离的特点,并且车辆只具备有限的通信范围,所以车辆之间会经历动态组网从而只能进行受限通信,所以多车技术的关键在于如何在此动态有限通信的设置下进行多个车辆自动驾驶车辆间有效信息传递,促进其进行分组分工合作以最大化车辆间的协同水平从而提高交通效率。
5.cn115993793a公开了一种基于车路协同的智能汽车控制的方法,具体为,所在区域的车辆基于车载传感器获取车辆运行状态信息与车辆周围环境信息,通过v2x技术发送给路测控制单元。各路测控制单元利用模糊控制算法将识别出来的路面信息保存在路面信息库里,并路面信息与所在区域的路段路面信息库数据,结合所在区域的车辆运行状态信息与车辆周围环境信息为所在区域的车辆规划汽车行驶路径和控制执行指令,最后将车辆规划汽车行驶路径和控制执行指令发送至所对应的车辆。所在区域的各车辆按照所对应的车辆规划汽车行驶路径和控制执行指令控制车辆运行。
6.该技术使用中心化的控制方式对驾驶车辆发送指令,忽略了不同车辆具备不同的目标和驾驶策略偏好。本技术通过建立独立的驾驶策略网络,根据车辆的本地策略和观测信息,控制通信区域内自动驾驶车辆进行自适应通信,从而促进自动驾驶车辆进行自发分组协同。
7.现有技术将自动驾驶车辆建模为自动驾驶车辆,连续通信网络(continuous communication net,commnet)[1]算法为一进行自动驾驶车辆间自适应通信以实现自动驾驶车辆协同的算法,其将自动驾驶车辆从所有其他可通信自动驾驶车辆处获取的信息的平均作为通信消息,然后自动驾驶车辆根据通信消息和本地信息利用一个全局共享的网络生成通信后的本地信息向量,最后自动驾驶车辆根据此新的信息向量进行行为决策。其算法训练流程可归纳为:
[0008]
表1算法处理流程伪代码
[0009][0010]
[0011][0012]
commnet通信过程如图1所示,在一组状态输入下需要进行多步的集中式的平均消息传递。其中f表示共享通信模块,ti表示第i个时间步,si表示车辆本地观测到的状态信息,ai表示车辆的个体动作。
[0013]
现有技术的缺点如下:平均化的通信方式忽略了不同车辆需要的信息的差异性,训练开销大,无法根据车辆的策略倾向显式地促进自动驾驶车辆进行分组协同,导致交通效率和车道利用率低。
技术实现要素:
[0014]
为了解决以上问题,本提案提出了一种基于多车个体策略约束下自适应通信的强化学习协同决策方法,分别通过车辆状态信息的相关性与个体策略的一致性控制通信过程,实现自适应通信,并促进车辆自发地分组协同。
[0015]
为了实现上述目的,本发明采用了如下技术方案:一种基于策略约束通信的强化学习多车协同系统,包括:通讯模块和通讯控制模块;
[0016]
所述通讯模块安装于自动驾驶车辆上,用于获取本地的观测o={o1,o2,
…on
};并获取其他可通信的自动驾驶车辆处的观测编码e
ij
;
[0017]
所述通讯控制模块安装于自动驾驶车辆上,包括基于图注意力网络的权重生成器,所述通讯控制模块用于对观测进行特征提取生成观测编码e={e1,e2,
…en
};然后根据各自动驾驶车辆实时通信范围l={l1,l2,
…
ln}建立通信拓扑,并计算通信权重w
ij
,获取通信消息m={m1,m2,
…mn
};
[0018]
各自动驾驶车辆的通讯控制模块根据自身观测编码和通信消息进行行为决策获取奖励r,并仅基于本地观测编码利用个体动作估计网络g(
·
)(如图5所示)生成本地个体动作价值估计q
′
={q1,q2,
…qn
},其中q
′
=g(ei);然后将本地个体动作价值估计分布化生成本地策略,依据本地策略的相似性计算策略相似性权重j∈li;
[0019]
再根据奖励r计算时序差分损失,基于相似性权重计算约束,反向更新模型参数;最后完成训练,将本地策略与权重生成器应用到具体场景。
[0020]
进一步的,每个自动驾驶车辆均被视为一个通信节点,若两个自动驾驶车辆之间位于彼此的通信范围内,则两者间存在一条通信边,由于环境中自动驾驶车辆的动态性,所述通信拓扑为时变拓扑。
[0021]
进一步的,对于任意一自动驾驶车辆i,所述通讯控制模块在给定时间步t下,对自身从周围交通环境获取的部分观测oi,利用结构为单层线性嵌入网络的编码网络f(
·
),进行特征提取生成观测编码ei,其根据自身实时的通信范围获取其中自动驾驶车辆的观测编码集e={e1,e2,
…
,en}。
[0022]
进一步的,所述通信控制模块在自动驾驶车辆获取的观测集合的基础上,利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性,利用基于图注意力网络的权重生成器计算通信系数c
ij
:
[0023][0024]
由于通信范围内的自动驾驶车辆的数目是动态变化的,所以为了可拓展性,对于通信系数使用leakyrelu非线形激活函数进行激活并进行归一化处理生成通信权重:
[0025][0026]
进一步的,所述通信控制模块在获得的通信权重w
ij
的基础上,将各个自动驾驶车辆的观测编码作为输入,得到以各个自动驾驶车辆的中心化视角获得通信消息;对于车辆i,其通信消息mi为:
[0027][0028]
进一步的,所述通信控制模块为了能够进一步实现自动驾驶车辆间的分组协同,引入基于本地策略约束的通信控制,由于不同的自动驾驶车辆具备不同的策略倾向以及可能不同的行驶目标,具备相似倾向和目标的车辆间的分组协同可以有效地提升交通效率;为提取车辆的个体策略倾向,对于任意一个自动驾驶车辆i,令i仅依赖于本地的观测信息oi生成个体的动作驾驶价值估计qi,并将该动作价值估计分布化生成本地的个体动作策略π,该动作策略表征了自动驾驶车辆基于不同目标的个体行为策略倾向:
[0029][0030]
其中p(.)表示将动作价值估计进行分布化,h(.,.)表示计算两个分布间的海森堡距离。
[0031]
进一步的,所述通信控制模块为使得具备相似策略倾向的车辆进行分组协同,通过衡量各个自动驾驶车辆有限通信范围内的个体行为策略的相似性来控制通信过程,使用了海森堡距离来计算两个分布之间的相似性,并归一化得到策略相似性权重:
[0032][0033]
表示分布间的相似性权重,根据该策略相似性权重可对第一部分的通信控制进行策略正则约束:
[0034][0035]
表示策略约束损失,该约束可以显式地促进具备相似策略倾向的自动驾驶车辆进行分组合作。
[0036]
本发明还公开了一种基于策略约束通信的强化学习多车协同方法,包括以下步骤:
[0037]
step 1:所有自动驾驶车辆获取本地的观测o={o1,o2,
…on
};
[0038]
step 2:对观测进行特征提取生成观测编码e={e1,e2,
…en
};
[0039]
step 3:根据各车实时通信范围l={l1,l2,
…
ln}建立通信拓扑;
[0040]
step 4:各车获取其他可通信的车辆处的观测编码e
ij
,计算通信权重w
ij
;
[0041]
step 5:获取通信消息m={m1,m2,
…mn
};
[0042]
step 6:各车根据自身观测编码和通信消息进行行为决策获取奖励r,并仅基于本地观测编码利用个体动作估计网络g(
·
)(如图5所示)生成本地个体动作价值估计q
′
={q1,q2,
…qn
},其中q
′
=g(ei);
[0043]
step 7:将本地个体动作价值估计分布化生成本地策略,依据本地策略的相似性计算策略相似性权重j∈li;
[0044]
step 8:根据奖励r计算时序差分损失,基于相似性权重计算约束,反向更新模型参数;
[0045]
step 9:完成训练,将本地策略与权重生成器应用到具体场景。
[0046]
进一步的,每个自动驾驶车辆均被视为一个通信节点,若两个自动驾驶车辆之间位于彼此的通信范围内,则两者间存在一条通信边,由于环境中自动驾驶车辆的动态性,所述通信拓扑为时变拓扑。
[0047]
进一步的,在step 2中,具体为:在给定时间步t下,对于任意一自动驾驶车辆i,首先所有自动驾驶车辆对自身从周围交通环境获取的部分观测oi,利用结构为单层线性嵌入网络的编码网络f(
·
),进行特征提取生成观测编码ei,其根据自身实时的通信范围获取其中自动驾驶车辆的观测编码集e={e1,e2,
…
,en}。
[0048]
进一步的,在step 4中,具体为:
[0049]
在自动驾驶车辆获取的观测集合的基础上,利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性,利用基于图注意力网络的权重生成器(如图3所示)计算通信系数c
ij
:
[0050][0051]
由于通信范围内的自动驾驶车辆的数目是动态变化的,所以为了可拓展性,对于通信系数使用leakyrelu非线形激活函数进行激活并进行归一化处理生成通信权重:
[0052][0053]
进一步的,在step 5中,具体为:
[0054]
在获得的通信权重w
ij
的基础上,将各个自动驾驶车辆的观测编码作为输入,得到以各个自动驾驶车辆的中心化视角获得通信消息;对于车辆i,其通信消息mi为:
[0055][0056]
进一步的,在step 6中,具体为:
[0057]
为了能够进一步实现自动驾驶车辆间的分组协同,引入基于本地策略约束的通信控制,由于不同的自动驾驶车辆具备不同的策略倾向以及可能不同的行驶目标,具备相似倾向和目标的车辆间的分组协同可以有效地提升交通效率;为提取车辆的个体策略倾向,对于任意一个自动驾驶车辆i,令i仅依赖于本地的观测信息oi生成个体的动作驾驶价值估计qi,并将该动作价值估计分布化生成本地的个体动作策略π,该动作策略表征了自动驾驶车辆基于不同目标的个体行为策略倾向:
[0058][0059]
其中p(.)表示将动作价值估计进行分布化,h(.,.)表示计算两个分布间的海森堡距离。
[0060]
进一步的,在step 6中,具体为:
[0061]
为使得具备相似策略倾向的车辆进行分组协同,通过衡量各个自动驾驶车辆有限通信范围内的个体行为策略的相似性来控制通信过程,使用了海森堡距离来计算两个分布之间的相似性,并归一化得到策略相似性权重:
[0062][0063]
表示分布间的相似性权重,根据该策略相似性权重可对第一部分的通信控制进行策略正则约束:
[0064][0065]
表示策略约束损失,该约束可以显式地促进具备相似策略倾向的自动驾驶车辆进行分组合作。
[0066]
本发明的有益效果是:
[0067]
1.本发明提出的自动驾驶车辆利用车辆本地状态的生成通信权重的方法,基于状态信息的相关性生成权重值进行通信控制,可以实现有限通信范围内的车辆自适应通信,促进车辆自发协作。
[0068]
2.本发明提出的基于本地策略约束的通信控制方法,能够基于自动驾驶个体策略倾向对通信进行有效约束,显式促进智能体(自动驾驶车辆)进行分组协同从而有效提高交通效率。
附图说明
[0069]
图1为现有技术commnet通信过程示意图;
[0070]
图2为本发明建立动态通信拓扑图的示意图;
[0071]
图3为权重生成器的示意图;
[0072]
图4为策略约束的示意图;
[0073]
图5为基于本地观测编码利用个体动作估计网络的示意图;
[0074]
图6为十字交叉路口的交通场景的示意图。
具体实施方式
[0075]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0076]
一种基于策略约束通信的强化学习多车协同系统,包括:通讯模块和通讯控制模块;
[0077]
所述通讯模块安装于自动驾驶车辆上,包括基于图注意力网络的权重生成器,所述通讯控制模块用于获取本地的观测o={o1,o2,
…on
};并获取其他可通信的自动驾驶车辆处的观测编码e
ij
;
[0078]
所述通讯控制模块安装于自动驾驶车辆上,用于对观测进行特征提取生成观测编码e={e1,e2,
…en
};然后根据各自动驾驶车辆实时通信范围l={l1,l2,
…
ln}建立通信拓扑,并计算通信权重w
ij
,获取通信消息m={m1,m2,
…mn
};
[0079]
各自动驾驶车辆的通讯控制模块根据自身观测编码和通信消息进行行为决策获取奖励r,奖励的定义利用已有human-in-the-loop deep reinforcement learning with application to autonomous driving[2]和deep reinforcement learning for traffic light control in vehicular networks[3]中的方案,综合考虑自动驾驶车辆自身驾驶策略和交通通信效率两方面的因素,并仅基于本地观测编码利用个体动作估计网络g(
·
)生成本地个体动作价值估计q
′
={q1,q2,
…qn
},其中qi=g(ei);然后将本地个体动作价值估计分布化生成本地策略,依据本地策略的相似性计算策略相似性权重j∈li;
[0080]
再根据奖励r计算时序差分损失,基于相似性权重计算约束,反向更新模型参数;最后完成训练,将本地策略与权重生成器应用到具体场景中,最终实现更优的多车协同方案,优化自动驾驶策略。其中个体的动作价值估计以及策略网络利用qmix:monotonic value function factorisation for deep multi-agent reinforcement learning[4]中的网络结构,通信权重网络结构使用graph attention network[5]中的图注意力网络结构。
[0081]
在实际应用中,如图2所示,为一个十字路口具有多辆自动驾驶车辆的场景,每个自动驾驶车辆均被视为一个通信节点,若两个自动驾驶车辆之间位于彼此的通信范围内,则两者间存在一条通信边,由于环境中自动驾驶车辆的动态性,所述通信拓扑为时变拓扑。
[0082]
对于任意一自动驾驶车辆i,所述通讯控制模块在给定时间步t下,利用集成于自车的编码网络f(
·
)对自身从周围交通环境获取的部分观测oi进行特征提取生成观测编码ei=f(oi),该编码网络由单层线性嵌入网络构成,其根据自身实时的通信范围获取其中自动驾驶车辆的观测编码集e={e1,e2,
…
,en}。
[0083]
然后所述通信控制模块在自动驾驶车辆获取的观测集合的基础上,利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性,利用基于图注意力网络的权重生成器(如图3所示)计算通信系数c
ij
:
[0084][0085]
由于通信范围内的自动驾驶车辆的数目是动态变化的,所以为了可拓展性,对于
通信系数使用leakyrelu非线形激活函数进行激活并进行归一化处理生成通信权重:
[0086][0087]
所述通信控制模块在获得的通信权重w
ij
的基础上,将各个自动驾驶车辆的观测编码作为输入,得到以各个自动驾驶车辆的中心化视角获得通信消息;对于车辆i,其通信消息mi为:
[0088]
。
[0089][0090]
进一步的,所述通信控制模块为了能够进一步实现自动驾驶车辆间的分组协同,引入基于本地策略约束的通信控制,由于不同的自动驾驶车辆具备不同的策略倾向以及可能不同的行驶目标,具备相似倾向和目标的车辆间的分组协同可以有效地提升交通效率;为提取车辆的个体策略倾向,对于任意一个自动驾驶车辆i,令i仅依赖于本地的观测信息oi生成个体的动作驾驶价值估计qi,如图5所示,并将该动作价值估计分布化生成本地的个体动作策略π,该动作策略表征了自动驾驶车辆基于不同目标的个体行为策略倾向:
[0091][0092]
其中p(.)表示将动作价值估计进行分布化,h(.,.)表示计算两个分布间的海森堡距离。
[0093]
所述通信控制模块为使得具备相似策略倾向的车辆进行分组协同,通过衡量各个自动驾驶车辆有限通信范围内的个体行为策略的相似性来控制通信过程,使用了海森堡距离来计算两个分布之间的相似性,并归一化得到策略相似性权重:
[0094][0095]
表示分布间的相似性权重,根据该策略相似性权重可对第一部分的通信控制进行策略正则约束:
[0096][0097]
表示策略约束损失,该约束可以显式地促进具备相似策略倾向的自动驾驶车辆进行分组合作。
[0098]
在实际应用中,基于策略约束通信的强化学习多车协同系统设有用于存储数据的存储器或存储单元,用于实时动态的更新并存储通信拓扑等数据信息。
[0099]
本发明还公开了一种基于策略约束通信的强化学习多车协同方法,包括以下步骤:
[0100]
step 1:所有自动驾驶车辆获取本地的观测o={o1,o2,
…on
};
[0101]
step 2:对观测进行特征提取生成观测编码e={e1,e2,
…en
},其中ei=f(oi);
[0102]
step 3:根据各车实时通信范围l={l1,l2,
…
ln}建立通信拓扑;
[0103]
step 4:各车获取其他可通信的车辆处的观测编码e
ij
,计算通信权重w
ij
;
[0104]
step 5:获取通信消息m={m1,m2,
…mn
};
[0105]
step 6:各车根据自身观测编码和通信消息进行行为决策获取奖励r,并仅基于本地观测编码利用个体动作估计网络g(
·
)(如图5所示)生成本地个体动作价值估计q
′
={q1,q2,
…qn
},其中q
′
=g(ei);
[0106]
step 7:将本地个体动作价值估计分布化生成本地策略,依据本地策略的相似性计算策略相似性权重j∈li;
[0107]
step 8:根据奖励r计算时序差分损失,基于相似性权重计算约束,反向更新模型参数;
[0108]
step 9:完成训练,将本地策略与权重生成器应用到具体场景。
[0109]
在实际应用中,每个自动驾驶车辆均被视为一个通信节点,若两个自动驾驶车辆之间位于彼此的通信范围内,则两者间存在一条通信边,由于环境中自动驾驶车辆的动态性,所述通信拓扑为时变拓扑。
[0110]
在step 2中,具体为:在给定时间步t下,对于任意一自动驾驶车辆i,首先所有自动驾驶车辆对自身从周围交通环境获取的部分观测oi,利用结构为单层线性嵌入网络的编码网络f(
·
),进行特征提取生成观测编码ei,其根据自身实时的通信范围获取其中自动驾驶车辆的观测编码集e={e1,e2,
…
,en}。
[0111]
在step 4中,具体为:
[0112]
在自动驾驶车辆获取的观测集合的基础上,对观测编码进行特征映射:wei,并将映射结果进行对应拼接生成联合向量:映射结果进行对应拼接生成联合向量:再利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性,利用基于图注意力网络的权重生成器(如图3所示)计算通信系数c
ij
:
[0113][0114]
由于通信范围内的自动驾驶车辆的数目是动态变化的,所以为了可拓展性,对于通信系数使用leakyrelu非线形激活函数进行激活并进行归一化处理生成通信权重:
[0115][0116]
在step 5中,具体为:
[0117]
在获得的通信权重w
ij
的基础上,将各个自动驾驶车辆的观测编码作为输入,得到以各个自动驾驶车辆的中心化视角获得通信消息;对于车辆i,其通信消息mi为:
[0118]
[0119]
在step 6中,具体为:
[0120]
为了能够进一步实现自动驾驶车辆间的分组协同,引入基于本地策略约束的通信控制,由于不同的自动驾驶车辆具备不同的策略倾向以及可能不同的行驶目标,具备相似倾向和目标的车辆间的分组协同可以有效地提升交通效率;为提取车辆的个体策略倾向,对于任意一个自动驾驶车辆i,令i仅依赖于本地的观测信息oi生成个体的动作驾驶价值估计qi,如图5所示,并将该动作价值估计分布化生成本地的个体动作策略π,该动作策略表征了自动驾驶车辆基于不同目标的个体行为策略倾向:
[0121][0122]
其中p(.)表示将动作价值估计进行分布化,h(.,.)表示计算两个分布间的海森堡距离。
[0123]
进一步的,在step 6中,具体为:
[0124]
为使得具备相似策略倾向的车辆进行分组协同,通过衡量各个自动驾驶车辆有限通信范围内的个体行为策略的相似性来控制通信过程,使用了海森堡距离来计算两个分布之间的相似性,并归一化得到策略相似性权重:
[0125][0126]
表示分布间的相似性权重,根据该策略相似性权重可对第一部分的通信控制进行策略正则约束:
[0127][0128]
表示策略约束损失,该约束可以显式地促进具备相似策略倾向的自动驾驶车辆进行分组合作。
[0129]
以交通效率重要性较高的、含有十字交叉路口的交通场景为例,如图6所示,多个自动驾驶车辆(以10个为例,图6中分别以1-10编号),每个自动驾驶车辆都具备各自独立的行驶目的地(如图中虚线箭头的指示方向),每个自动驾驶车辆依据对从环境获得自身速度、观测到的其他车辆及其他交通实体的状态信息,利用集成在自动驾驶车辆自身上的基于策略约束通信的强化学习多车协同系统进行特征提取,得到本地的观测编码,该编码蕴含了自动驾驶车辆自身观测到的速度、方向等所有状态信息中的高级语义特征。各车根据实时有限的通信范围,例如半径25米的圆形通信范围,建立自身的通信拓扑,该通信拓扑可实时动态更新并存储在自车存储单元中,各个车辆与通信范围内的其他车辆获取其各自原始的观测编码,这些观测编码蕴含了多视角的交通信息,并利用自身观测编码与获取到多个他车观测编码分别进行拼接组成联合向量(如式(1)等号右侧所示),利用图注意力网络中的线性网络自适应地提取自身观测与各个可通信车辆的观测的相关性(如图3所示),并通过softmax函数生成对应的通信权重,利用该权重分别对各车的观测编码进行加权平均,实现对相关性较大的车辆信息进行重点通信。在此基础上,所有车辆依据基于本地信息利用个体动作估计网络(如图5所示)生成本地动作价值估计,并将该价值估计玻尔兹曼分布
化或softmax分布化生成本地策略,利用本地策略反应了车辆基于不同行驶目的形成的策略倾向的性质,利用海森堡距离或其他距离度量方式对通信权重进行正则约束,实现促进具备相似策略倾向的车辆之间协作的作用,使得具有相似行驶目的地的车辆预先进行车道调整,可以间接提升同一路段内车道的专用性,如图中车道内的车辆变道调整为例,根据车辆目的地的不同自适应地进行车道选择,避免因为频繁换道带来的车道利用效率降低,减少拥堵,间接提升交通运行效率。多个网络(编码网络、个体价值估计网络、权重生成器)的参数、网络结构信息、中间运算结果(例如观测编码、本地价值估计值等)、通信消息等均存储于自车存储单元中。
[0130]
本发明的有益效果是:
[0131]
1.本发明提出的自动驾驶车辆利用车辆本地状态的生成通信权重的方法,基于状态信息的相关性生成权重值进行通信控制,可以实现有限通信范围内的车辆自适应通信,促进车辆自发协作。
[0132]
2.本发明提出的基于本地策略约束的通信控制方法,能够基于自动驾驶个体策略倾向对通信进行有效约束,显式促进智能体(自动驾驶车辆)进行分组协同从而有效提高交通效率。
[0133]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
[0134]
参考文献
[0135]
[1]sukhbaatar s,fergus r,others.learning multiagent communication with backpropagation[j].advances in neural information processing systems.2016,29.
[0136]
[2]wu,jingda,et al."human-in-the-loop deep reinforcement learning with applicationto autonomous driving."arxiv preprint arxiv:2104.07246(2021).
[0137]
[3]liang,xiaoyuan,et al."deep reinforcement learning for traffic light control in vehicular networks."arxiv preprint arxiv:1803.11115(2018).
[0138]
[4]rashid,tabish,et al."monotonic value function factorisation for deep multi-agent reinforcement learning."the journal of machine learning research 21.1(2020):7234-7284.
[0139]
[5]petar,et al."graph attention networks."arxiv preprint arxiv:1710.10903(2017)。
技术特征:
1.一种基于策略约束通信的强化学习多车协同系统,其特征在于,包括:通讯模块和通讯控制模块;所述通讯模块安装于自动驾驶车辆上,用于获取本地的观测o={o1,o2,...o
n
};并获取其他可通信的自动驾驶车辆处的观测编码e
ij
;所述通讯控制模块安装于自动驾驶车辆上,包括基于图注意力网络的权重生成器,所述通讯控制模块用于对观测进行特征提取生成观测编码e={e1,e2,...e
n
};然后根据各自动驾驶车辆实时通信范围l={l1,l2,...l
n
}建立通信拓扑,并计算通信权重w
ij
,获取通信消息m={m1,m2,...m
n
};各自动驾驶车辆的通讯控制模块根据自身观测编码和通信消息进行行为决策获取奖励r,并仅基于本地观测编码利用个体动作估计网络g(
·
)生成本地个体动作价值估计q
′
={q1,q2,...q
n
},其中q
′
=g(e
i
);然后将本地个体动作价值估计分布化生成本地策略,依据本地策略的相似性计算策略相似性权重再根据奖励r计算时序差分损失,基于相似性权重计算约束,反向更新模型参数;最后完成训练,将本地策略与权重生成器应用到具体场景。2.根据权利要求1所述的基于策略约束通信的强化学习多车协同系统,其特征在于,每个自动驾驶车辆均被视为一个通信节点,若两个自动驾驶车辆之间位于彼此的通信范围内,则两者间存在一条通信边,由于环境中自动驾驶车辆的动态性,所述通信拓扑为时变拓扑。3.根据权利要求1所述的基于策略约束通信的强化学习多车协同系统,其特征在于,对于任意一自动驾驶车辆i,所述通讯控制模块在给定时间步t下,对于自身从周围交通环境获取的部分观测o
i
,利用结构为单层线性嵌入网络的编码网络f(
·
),进行特征提取生成观测编码e
i
=f(o
i
),其根据自身实时的通信范围获取其中自动驾驶车辆的观测编码集e={e1,e2,...,e
n
}。4.根据权利要求1所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块在自动驾驶车辆获取的观测集合的基础上,利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性,利用基于图注意力网络的权重生成器(如图3所示)计算通信系数c
ij
:由于通信范围内的自动驾驶车辆的数目是动态变化的,所以为了可拓展性,对于通信系数使用leakyrelu非线形激活函数进行激活并进行归一化处理生成通信权重:5.根据权利要求4所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块在获得的通信权重w
ij
的基础上,将各个自动驾驶车辆的观测编码作为输入,得到以各个自动驾驶车辆的中心化视角获得通信消息;对于车辆i,其通信消息m
i
为:
6.根据权利要求5所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块为了能够进一步实现自动驾驶车辆间的分组协同,引入基于本地策略约束的通信控制,由于不同的自动驾驶车辆具备不同的策略倾向以及可能不同的行驶目标,具备相似倾向和目标的车辆间的分组协同可以有效地提升交通效率;为提取车辆的个体策略倾向,对于任意一个自动驾驶车辆i,令i仅依赖于本地的观测信息o
i
生成个体的动作驾驶价值估计q
i
,并将该动作价值估计分布化生成本地的个体动作策略π,该动作策略表征了自动驾驶车辆基于不同目标的个体行为策略倾向:其中p(.)表示将动作价值估计进行分布化,h(.,.)表示计算两个分布间的海森堡距离。7.根据权利要求6所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块为使得具备相似策略倾向的车辆进行分组协同,通过衡量各个自动驾驶车辆有限通信范围内的个体行为策略的相似性来控制通信过程,使用了海森堡距离来计算两个分布之间的相似性,并归一化得到策略相似性权重:计算两个分布之间的相似性,并归一化得到策略相似性权重:表示分布间的相似性权重,根据该策略相似性权重可对第一部分的通信控制进行策略正则约束:策略正则约束:表示策略约束损失,该约束可以显式地促进具备相似策略倾向的自动驾驶车辆进行分组合作。8.一种基于策略约束通信的强化学习多车协同方法,其特征在于,包括以下步骤:step 1:所有自动驾驶车辆获取本地的观测o={o1,o2,...o
n
};step 2:对观测进行特征提取生成观测编码e={e1,e2,...e
n
};step 3:根据各车实时通信范围l={l1,l2,...l
n
}建立通信拓扑;step 4:各车获取其他可通信的车辆处的观测编码e
ij
,计算通信权重w
ij
;step 5:获取通信消息m={m1,m2,...m
n
};step 6:各车根据自身观测编码和通信消息进行行为决策获取奖励r,并仅基于本地观测编码利用个体动作估计网络g(
·
)生成本地个体动作价值估计q
′
={q1,q2,...q
n
},其中q
i
=g(e
i
);step 7:将本地个体动作价值估计分布化生成本地策略,依据本地策略的相似性计算策略相似性权重
step 8:根据奖励r计算时序差分损失,基于相似性权重计算约束,反向更新模型参数;step 9:完成训练,将本地策略与权重生成器应用到具体场景。9.根据权利要求8所述的基于策略约束通信的强化学习多车协同方法,其特征在于,每个自动驾驶车辆均被视为一个通信节点,若两个自动驾驶车辆之间位于彼此的通信范围内,则两者间存在一条通信边,由于环境中自动驾驶车辆的动态性,所述通信拓扑为时变拓扑。10.根据权利要求8所述的基于策略约束通信的强化学习多车协同方法,其特征在于,在step 2中,具体为:在给定时间步t下,对于任意一自动驾驶车辆i,首先所有自动驾驶车辆对自身从周围交通环境获取的部分观测o
i
,利用结构为单层线性嵌入网络的编码网络f(
·
),进行特征提取生成观测编码e
i
,其根据自身实时的通信范围获取其中自动驾驶车辆的观测编码集e={e1,e2,...,e
n
}。11.根据权利要求10所述的基于策略约束通信的强化学习多车协同方法,其特征在于,在step 4中,具体为:在自动驾驶车辆获取的观测集合的基础上,利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性,利用基于图注意力网络的权重生成器计算通信系数c
ij
:由于通信范围内的自动驾驶车辆的数目是动态变化的,所以为了可拓展性,对于通信系数使用leakyrelu非线形激活函数进行激活并进行归一化处理生成通信权重:12.根据权利要求11所述的基于策略约束通信的强化学习多车协同方法,其特征在于,在step 5中,具体为:在获得的通信权重w
ij
的基础上,将各个自动驾驶车辆的观测编码作为输入,得到以各个自动驾驶车辆的中心化视角获得通信消息;对于车辆i,其通信消息m
i
为:13.根据权利要求12所述的基于策略约束通信的强化学习多车协同方法,其特征在于,在step 6中,具体为:为了能够进一步实现自动驾驶车辆间的分组协同,引入基于本地策略约束的通信控制,由于不同的自动驾驶车辆具备不同的策略倾向以及可能不同的行驶目标,具备相似倾向和目标的车辆间的分组协同可以有效地提升交通效率;为提取车辆的个体策略倾向,对于任意一个自动驾驶车辆i,令i仅依赖于本地的观测信息o
i
生成个体的动作驾驶价值估计q
i
,并将该动作价值估计分布化生成本地的个体动作策略π,该动作策略表征了自动驾驶车辆基于不同目标的个体行为策略倾向:
其中p(.)表示将动作价值估计进行分布化,h(.,.)表示计算两个分布间的海森堡距离。14.根据权利要求13所述的基于策略约束通信的强化学习多车协同方法,其特征在于,在step 6中,具体为:为使得具备相似策略倾向的车辆进行分组协同,通过衡量各个自动驾驶车辆有限通信范围内的个体行为策略的相似性来控制通信过程,使用了海森堡距离来计算两个分布之间的相似性,并归一化得到策略相似性权重:的相似性,并归一化得到策略相似性权重:表示分布间的相似性权重,根据该策略相似性权重可对第一部分的通信控制进行策略正则约束:策略正则约束:表示策略约束损失,该约束可以显式地促进具备相似策略倾向的自动驾驶车辆进行分组合作。
技术总结
本发明公开了基于策略约束通信的强化学习多车协同系统及方法,包括:通讯模块和通讯控制模块;通讯模块获取本地的观测及其他可通信的车辆的观测编码;通讯控制模块建立通信拓扑,计算通信权重,获取通信消息;并生成本地个体动作价值估计;然后估计分布化生成本地策略,计算策略相似性权重;基于相似性权重计算约束,反向更新模型参数;最后将本地策略与权重生成器应用到具体场景。本发明提出的利用车辆本地状态生成通信权重的方法,基于状态信息的相关性生成权重值进行通信控制,可实现有限通信范围内的车辆自适应通信,促进车辆自发协作。同时基于自动驾驶个体策略倾向对通信进行有效约束,显式促进智能体进行分组协同从而有效提高交通效率。效提高交通效率。效提高交通效率。
技术研发人员:何弢 严骏驰 廖文龙 李奇峰
受保护的技术使用者:上海酷移机器人有限公司
技术研发日:2023.08.29
技术公布日:2023/10/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种头戴装置及其照明灯的制作方法 下一篇:一种板坯预热方法、装置及电子设备与流程