一种基于图注意力强化学习的无人机集群协同对抗方法

未命名 10-08 阅读:89 评论:0


1.本发明涉及一种基于图注意力强化学习的无人机集群协同对抗方法,属于航空航天与人工智能的交叉领域。


背景技术:

2.多智能体系统是指在同一个环境中存在多个智能体,多个智能体之间可以进行通讯。多智能体系统往往需要各智能体依赖通讯共同完成某个任务。多智能体系统在解决复杂的实际问题中得到了非常广泛的应用,包括多车辆无人自动驾驶、多机器人分布式控制以及无人机集群协同对抗等领域。其中,无人机集群协同对抗任务是指在同一个环境中存在两组无人机集群,集群内部多架无人机之间相互感知并且相互协调,共同对抗另一组无人机集群。
3.多智能体强化学习主要研究多智能体系统如何通过获取的环境的观测信息,以某种策略采取动作、与环境进行交互试错,最终能够在环境中协同完成任务。在无人机集群协同对抗任务中,每一架无人机是一个智能体。应用多智能体强化学习,完成无人机集群协同对抗任务是当前的一个交叉研究热点。
4.在无人机集群协同对抗任务中,传统的commnet多智能体强化学习算法尝试共享策略的隐藏状态,ps-trpo多智能体强化学习算法尝试共享策略的参数,但这种共享并不是智能体之间信息共享的有效方式,因此不能很好地指导多智能体之间进行合理协作。一些使用值传播的多智能体强化学习算法将强化学习中的值函数与策略函数的更新进行联系,但这些方法很难适应多智能体之间的动态变化。
5.图结构在共享相互信息、适应动态变化方面具有巨大的潜力:将每个智能体作为图的一个节点,根据智能体之间的距离动态进行边的连接,由此构建出的图可以利用图神经网络的消息传播和消息聚合机制,使得每个智能体能够从更远的智能体收集信息,而信息的直接交流只发生在附近的智能体之间。
6.一些现有技术尝试应用基于图卷积的多智能体强化学习算法完成无人机集群协同对抗任务。该技术应用图结构对无人机集群进行建模,在图上的消息传播过程中,将邻居节点的消息看成等同重要,并以相同的权重进行消息聚合。然而在无人机集群协同对抗任务中,各无人机的信息及其重要程度往往与无人机之间的距离远近、无人机当前的状态、无人机在模拟仿真环境中已经获得的奖励、与模拟仿真环境交互已经进行的时长等各种因素有关。现有技术不能实现各无人机之间信息的合理传播,影响了无人机集群协同对抗的作战能力。
7.因此,本发明设计了基于图注意力强化学习的无人机集群协同对抗方法,通过图结构对无人机集群中各无人机之间的信息共享方式进行有效建模,通过注意力机制对无人机集群中各无人机的信息及其重要程度进行合理调整,最终在无人机集群协同对抗任务的模拟仿真实验中取得良好的性能表现。


技术实现要素:

8.本发明技术解决问题:克服现有技术的不足,提供一种基于图注意力强化学习的无人机集群协同对抗方法,通过图结构对无人机集群中各无人机之间的信息共享方式进行有效建模,通过注意力机制对无人机集群中各无人机的信息及其重要程度进行合理调整,最终在无人机集群协同对抗任务的模拟仿真环境中取得良好的结果。
9.本发明技术解决方案:本发明一种基于图注意力强化学习的无人机集群协同对抗方法,包括如下步骤:
10.步骤1:在无人机集群协同对抗的模拟仿真环境中不断重复协同对抗模拟实验,收集保存每一轮实验中每一个时间戳的数据,数据包括:无人机集群中各无人机的观测数据、采取的行动以及获得的回报;
11.步骤2:通过设计的观测数据处理模块,对步骤1中收集得到无人机集群中各无人机的观测数据进行特征提取,得到各无人机的特征向量;根据观测数据中各无人机在环境中的坐标位置,将各无人机作为节点构建图结构,各无人机的特征向量作为图结构上的节点特征,与图结构一起作为训练数据;
12.步骤3:设计图注意力多智能体强化学习算法,利用步骤2中的训练数据对图注意力网络进行训练,学习无人机集群中各无人机在每一个时间戳应采取的行动,学习目标是每一轮实验结束后无人机集群获得更多的回报,最终得到训练完备的图注意力网络;
13.步骤4:与另一组无人机集群在无人机集群协同对抗的模拟仿真环境中进行实验,应用步骤3中训练完备的图注意力网络,该图注意力网络输出无人机集群中各无人机在每一个时间戳应当采取的行动,随后无人机集群执行该行动,最终完成协同对抗任务。
14.为了进一步优化上述技术方案,本发明所采取的技术措施还包括:
15.进一步地,所述步骤3中,设计图注意力多智能体强化学习算法具体实现如下:
16.(1)采用全连接层与图注意力卷积层各一层搭建图神经网络,该图神经网络每个节点的输入维度与观测数据处理模块输出的数据维度一致,每个节点的输出维度与该节点代表的无人机可执行的行动数保持一致;
17.(2)将图神经网络复制一份,两个图神经网络的初始化权重保持一致,两个图神经网络分别逼近多智能体强化学习中的行动策略和评估策略,称之为当前网络和目标网络;
18.(3)将观测数据处理模块输出的数据输入当前网络,采用∈贪心算法选取行动并执行,收集模拟仿真环境反馈给无人机集群的回报,不断重复直至模拟仿真环境中该轮实验结束,将收集到的数据作为一条经验存入经验回放池即一个队列;
19.(4)从经验回放池中抽取经验,分别输入当前网络和目标网络,计算两个网络输出的td偏差,该偏差进行反向传播对当前网络进行训练,此过程中目标网络的参数不可训练;
20.(5)按照步骤(3)至(4)不断训练当前网络,并每过一定的周期,将当前网络中的参数拷贝至目标网络中更新其参数,直至td偏差减小至设定阈值终止训练。
21.进一步地,所述步骤2中,设计的观测数据处理模块具体为:
22.(1)输入模拟仿真环境中每架无人机的原始观测数据,观测数据处理模块从中提取得到无人机的自身状态数据与环境观测数据;
23.(2)从自身状态数据中提取得到该架无人机在模拟仿真环境中的位置坐标。以各无人机作为节点,根据坐标选择无人机集群中最近的四架无人机作为相邻无人机并建立边
的连接,构建拓扑图;
24.(3)环境观测数据与剩下的自身状态数据构成无人机的特征张量,分别采用一个卷积层与一个线性层进行特征提取,得到环境观测特征向量和自身状态特征向量;
25.(4)将环境观测特征向量和自身状态特征向量进行拼接,得到无人机的特征向量,各无人机的特征向量作为拓扑图的图上节点的特征,与拓扑图共同组成训练数据,观测数据处理模块将训练数据输出给图神经网络。
26.第二方面,本发明提供一种电子装置(计算机、服务器、智能手机等),其特征在于,包括处理器和存储器;
27.存储器,用于存放计算机程序;
28.处理器,用于执行存储器上所存放的计算机程序,执行时实现所述的一种基于图注意力强化学习的无人机集群协同对抗方法。
29.第三方面,本发明提供一种计算机可读存储介质(如rom/ram、磁盘、光盘),其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的一种基于图注意力强化学习的无人机集群协同对抗方法。
30.本发明与现有技术相比的优点或所做出的贡献在于:
31.(1)本发明设计了观测数据处理模块,该模块负责将无人机集群协同对抗的模拟仿真环境中各无人机的观测数据转换训练网络所需的数据。由于引入了可训练的卷积层和线性层,使得图神经网络的输入数据得到增强,图神经网络可以学习到更加抽象的数据特征,从而使得无人机有效利用观测数据,进行协同对抗。
32.(2)本发明提出了基于图注意力强化学习的无人机集群协同对抗方法,通过图结构对无人机集群中各无人机之间的信息共享方式进行有效建模,通过注意力机制对无人机集群中各无人机的信息及其重要程度进行合理调整,最终在无人机集群协同对抗任务的模拟仿真环境中取得良好的实验结果。
附图说明
33.图1为本发明的基于图注意力强化学习的无人机集群协同对抗方法说明图;
34.图2为本发明中处理观测数据的观测数据处理模块内部结构图;
35.图3为本发明中采取的图注意力网络结构图;
36.图4为本发明中在无人机集群协同对抗的模拟仿真环境中实验结果图。
具体实施方式
37.下面结合附图及实施例对本发明进行详细说明。
38.如图1所示,本发明的基于图注意力强化学习的无人机集群协同对抗方法,包括如下四个步骤:
39.步骤1:在无人机集群协同对抗的模拟仿真环境中不断重复协同对抗模拟实验,收集保存每一轮实验中每一个时间戳的数据在图1的经验回放池中,包括:无人机集群中各无人机的观测数据、采取的行动以及获得的回报。
40.该环境中存在红蓝两组无人机集群,每架无人机设置10点生命值,每次被攻击受到2点生命值的伤害。每架无人机获取的观测数据为一个13
×
13
×
41的张量,其中有13
×
13
×
7的环境观测数据,以及13
×
13
×
34的自身状态数据。自身状态数据的第一和第二维度为冗余维度,即实际有效数据被重复13
×
13次,本发明只采用长度为34的数据作为自身状态数据。无人机集群协同对抗的模拟仿真环境对各无人机的行动配置了具体的回报:若无人机采取对另一组无人机集群中的无人机的攻击行动,则获得模拟仿真环境给予的5点的回报;由于耗费了弹药,该架无人机也同时获得-0.01点的回报来表示带来的损失。若击败另一组无人机集群中的无人机,则获得环境给予的5点回报;若自身被击败,则获得环境给予的-2点回报。
41.步骤2:通过设计的观测数据处理模块对无人机集群中各无人机的观测数据进行处理。对于每一轮的无人机集群协同对抗模拟仿真实验,在第t个实验时间戳,无人机集群获取的原始观测数据记为其中是第i架无人机的原始观测数据,n是该集群中无人机的个数。
42.如图2所示,观测数据处理模块从观测数据中得到无人机的自身状态数据,记为以及环境观测数据,记为
43.为第t个实验时间戳无人机集群的自身状态数据;
44.为第t个实验时间戳无人机集群的环境观测数据;
45.其中,代表集群中第i架无人机的自身状态数据,代表集群中第i架无人机的环境观测数据,n是该集群中无人机的个数。
46.自身状态数据包含该架无人机的id、生命值和在模拟仿真实验环境中的位置坐标等信息;环境观测数据包含模拟仿真实验环境中是否存在障碍物、是否存在另一组无人机集群中的无人机、以及另一组无人机集群中的无人机的生命值等信息。
47.从自身状态数据中提取得到该架无人机在模拟仿真环境中的位置坐标。以各无人机作为节点,根据坐标选择无人机集群中最近的四架无人机作为相邻无人机并建立边的连接,构建一张拓扑图,记为环境观测数据与剩下的自身状态数据构成无人机的特征张量,分别采用一个卷积层与一个线性层进行特征提取,得到环境观测特征向量和自身状态特征向量,二者进行拼接操作,得到无人机集群的特征向量,记为其中代表集群中第i架无人机的特征向量,它代表了从无人机的原始观测数据中提取得到的抽象的高级特征,方便后续的图神经网络进行学习。各无人机的特征向量作为图上节点的特征,与图结构共同组成训练数据。
48.步骤3:如图3所示,设计图注意力多智能体强化学习算法,采用图注意力网络从训练数据中学习无人机集群中各无人机在每一个时间戳应采取的行动,学习目标是每一轮实验结束后无人机集群可以获得更多的回报。
49.图3中,即在第t个实验时间戳,第i架无人机的观测数据,该数据被送入观测数据处理模块,图3中的符号略去t以简化;
50.即在第t个实验时间戳,第i架无人机的特征向量由观测数据处理模块输出,图3中的符号略去t以简化;
51.即在第t个实验时间戳,图上的第i个节点,代表第i架无人机,经过图神经网络处理后的输出特征,是第i架无人机可执行的行动的概率分布;
52.即在第t个实验时间戳,第i架无人机依据以ε-贪心策略选取的行动,即以
1-ε的概率选择中概率最大的行动,以ε的概率随机选择其它行动,图3中的符号略去t以简化,记无人机集群选取的行动为
53.具体实现方式如下:
54.①
将图3所示的图注意力网络复制一份,网络的初始化权重保持一致,两个图注意力网络分别逼近多智能体强化学习中的行动策略与评估策略,分别记为当前网络q
local
和目标网络q
target

55.②
将观测数据处理模块输出的特征输入当前网络,当前网络q
local
的输出为每架无人机选取各个行动的得分,每架无人机均采用∈贪心策略选取行动并执行,无人机集群选取的行动为随后,模拟仿真环境反馈给无人机集群的总回报为其中是智能体i在第t个实验时间戳获取的回报,n是该集群中无人机的个数。此时模拟仿真环境进入下一个时间戳t+1。
56.③
通过重复步骤

至步骤

,本发明设计的图注意力多智能体强化学习算法反复将作为一条经验存入经验回放池,其中和分别为时间戳t+1时无人机集群获取的原始观测以及构建的拓扑图。在此期间,图注意力网络没有进行训练。
57.④
然后,若无人机集群协同对抗模拟仿真环境中已收集保存足够的经验,便可以开始训练图注意力网络:
58.a、从经验回放池抽取过往数据共1024条;
59.b、计算其中θ为当前网络q
local
中的参数,为无人机集群选择的行动中各行动组成的向量;
60.c、计算:
[0061][0062]
其中,γ是折扣系数,本发明中取值为0.99,θ

为目标网络q
target
中的参数;
[0063]
d、计算td偏差:
[0064][0065]
e、将td偏差当作损失函数进行梯度的反向传播,优化当前网络中的参数θ。
[0066]
重复上述步骤a至e训练图注意力网络,训练目标是使得当前网络的输出尽量接近目标网络的输出,减小td偏差。训练过程中目标网络的参数θ

不更新。每经过一定的周期,将当前网络中的参数θ拷贝至目标网络中更新θ

。本发明中采取的周期为每轮实验结束后拷贝更新目标网络参数θ

一次。
[0067]
图注意力网络的计算按照下述流程:
[0068]
记t时刻图g
t
=(v
t
,e
t
),其中v
t
是图g
t
上所有节点的集合,e
t
是图g
t
上所有边的集合。
[0069]
对于每一个(i,j)∈e
t
,令e
ij
表示节点i和节点j之间的相关得分:
[0070][0071]
其中,分别是节点i和节点j的数据,rc指的是c维的实向量空间,c=233,
称为节点上的特征向量。
[0072]
使用特征之间的内积作为相似性度量。为了自适应学习节点之间更好的表示,先对节点特征进行线性变换,然后在变换后的特征向量之间取内积来计算相关得分:
[0073][0074]
其中,wq和wk是线性变换矩阵,矩阵中的元素为待训练的参数。
[0075]
使用softmax函数将正则化:
[0076][0077]
其中,衡量了t时刻无人机j向无人机i传递的信息的重要性,使得无人机i可以根据这些重要性,综合考虑周围相邻无人机的状态,采取更加利于协同对抗另一组无人机的行动。
[0078]
计算节点i的聚合表示:
[0079][0080]
其中,wv是线性变换矩阵,是注意力权重。
[0081]
最后将聚合的特征与节点特征融合,得到一个基于目标信息的更强大的特征表示:
[0082][0083]
其中,||表示向量的拼接操作(concat)。
[0084]
对于任意节点i∈v
t
计算最终一次图卷积操作。输出的节点的特征向量的长度为智能体可以采取的动作的个数,每个值代表t时刻该状态下采取的动作的值函数的值。
[0085]
步骤4:与另一组无人机集群在无人机集群协同对抗的模拟仿真环境中进行实验,应用步骤3中训练得到的图注意力网络,即无人机集群中各无人机在每一个时间戳根据网络的输出采取行动,最终完成无人机集群协同对抗任务,并与其他基于多智能体的强化学习的无人机集群协同对抗方法在模拟仿真环境中进行性能的比较测试。实验得出,在无人机集群模拟仿真环境中,本发明的图注意力多智能体强化学习算法,比基于图卷积的多智能体强化学习算法gcn和共享策略隐藏状态的多智能体强化学习算法commnet获得的平均回报多,说明了本发明提出的基于图注意力强化学习的无人机集群协同对抗方法的有效性。
[0086]
图4的横坐标表示在模拟仿真实验环境中进行的实验轮数episode,纵坐标表示该某一轮实验中我方无人机集群取得的平均回报mean reward(总回报除以集群中无人机的数量)。图4表明在初始的实验轮数中(50轮以前),图神经网络没有进行训练,数据只是单纯地存入经验回放池中;随后图注意力多智能体强化学习算法开始训练图注意力网络,平均回报有了明显攀升;在网络训练充分后,平均回报逐渐趋于稳定。
[0087]
实验表明,本发明提出的基于图注意力强化学习的无人机集群协同对抗方法在模拟仿真实验环境中指导无人机集群取得了最好的稳定的平均回报,这说明本发明提出的观
测数据处理模块、配合图注意力多智能体强化学习算法可以有效促进无人机集群协同对抗。
[0088]
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
[0089]
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如rom/ram、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
[0090]
需要强调的是:以上仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

技术特征:
1.一种基于图注意力强化学习的无人机集群协同对抗方法,其特征在于,包括如下步骤:步骤1:在无人机集群协同对抗的模拟仿真环境中不断重复协同对抗模拟实验,收集保存每一轮实验中每一个时间戳的数据,数据包括:无人机集群中各无人机的观测数据、采取的行动以及获得的回报;步骤2:通过设计的观测数据处理模块,对步骤1中收集得到无人机集群中各无人机的观测数据进行特征提取,得到各无人机的特征向量;根据观测数据中各无人机在环境中的坐标位置,将各无人机作为节点构建图结构,各无人机的特征向量作为图结构上的节点特征,与图结构一起作为训练数据;步骤3:设计图注意力多智能体强化学习算法,利用步骤2中的训练数据对图注意力网络进行训练,学习无人机集群中各无人机在每一个时间戳应采取的行动,学习目标是每一轮实验结束后无人机集群获得更多的回报,最终得到训练完备的图注意力网络;步骤4:与另一组无人机集群在无人机集群协同对抗的模拟仿真环境中进行实验,应用步骤3中训练完备的图注意力网络,该图注意力网络输出无人机集群中各无人机在每一个时间戳应当采取的行动,随后无人机集群执行该行动,最终完成协同对抗任务。2.根据权利要求1所述的基于图注意力强化学习的无人机集群协同对抗方法,其特征在于:所述步骤3中,设计图注意力多智能体强化学习算法具体实现如下:(1)采用全连接层与图注意力卷积层各一层搭建图神经网络,该图神经网络每个节点的输入维度与观测数据处理模块输出的数据维度一致,每个节点的输出维度与该节点代表的无人机可执行的行动数保持一致;(2)将图神经网络复制一份,两个图神经网络的初始化权重保持一致,两个图神经网络分别逼近多智能体强化学习中的行动策略和评估策略,称之为当前网络和目标网络;(3)将观测数据处理模块输出的数据输入当前网络,采用∈贪心算法选取行动并执行,收集模拟仿真环境反馈给无人机集群的回报,不断重复直至模拟仿真环境中该轮实验结束,将收集到的数据作为一条经验存入经验回放池即一个队列;(4)从经验回放池中抽取经验,分别输入当前网络和目标网络,计算两个网络输出的td偏差,该偏差进行反向传播对当前网络进行训练,此过程中目标网络的参数不可训练;(5)按照步骤(3)至(4)不断训练当前网络,并每过一定的周期,将当前网络中的参数拷贝至目标网络中更新其参数,直至td偏差减小至设定阈值终止训练。3.根据权利要求1所述的基于图注意力强化学习的无人机集群协同对抗方法,其特征在于:所述步骤2中,设计的观测数据处理模块具体为:(1)输入模拟仿真环境中每架无人机的原始观测数据,观测数据处理模块从中提取得到无人机的自身状态数据与环境观测数据;(2)从自身状态数据中提取得到该架无人机在模拟仿真环境中的位置坐标,以各无人机作为节点,根据坐标选择无人机集群中最近的四架无人机作为相邻无人机并建立边的连接,构建拓扑图;(3)环境观测数据与剩下的自身状态数据构成无人机的特征张量,分别采用一个卷积层与一个线性层进行特征提取,得到环境观测特征向量和自身状态特征向量;(4)将环境观测特征向量和自身状态特征向量进行拼接,得到无人机的特征向量,各无
人机的特征向量作为拓扑图的图上节点的特征,与拓扑图共同组成训练数据,观测数据处理模块将训练数据输出给图神经网络。4.一种电子装置,其特征在于,包括处理器和存储器;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的计算机程序,执行时实现权利要求1-3中任意之一所述的方法。5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-3中任意之一所述的方法。

技术总结
本发明涉及一种基于图注意力强化学习的无人机集群协同对抗方法,增强了各无人机之间的协同作战能力,在无人机集群协同对抗的模拟仿真环境中取得实验成功:(1)设计了处理无人机集群的观测数据处理模块,得到图注意力网络的训练数据;(2)采用图注意力网络学习无人机集群中个体在协同对抗任务中应采取的行动;(3)在仿真环境中与另一组无人机集群进行协同对抗实验,并与其他基于强化学习的无人机集群协同对抗方法进行性能的比较测试。协同对抗方法进行性能的比较测试。协同对抗方法进行性能的比较测试。


技术研发人员:张弘 沈天琦 杨一帆 袁丁 万家旭
受保护的技术使用者:北京航空航天大学
技术研发日:2023.07.05
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐