一种基于状态熵与动作熵的无人机路径规划方法

未命名 09-22 阅读:112 评论:0


1.本发明涉及无人机路径规划领域,具体地涉及一种基于状态熵与动作熵的无人机路径规划方法。


背景技术:

2.由于无人机具备操作灵活、成本低廉等优势,在运输业、农业、环境监测、军事等领域应用广泛。无论在何种应用场景中,自主路径规划都是无人机完成任务的前提与关键。自主路径规划是指无人机根据约束条件,在起点与目标点之间规划一条最优路径,而复杂环境中的路径规划一直是个颇具挑战性的课题。
3.深度强化学习是一种常见的无人机开发框架,但在稀疏奖励的环境中,无人机仍很难充分地探索状态空间和状态动作空间。虽然研究者提出了一些探索算法来解决稀疏奖励难题,如rnd算法、ngu算法。但这些算法不是专门为无人机平台开发的,应用于无人路径规划时会出现训练过程不平稳、资源消耗大、忽视对状态动作空间的理解等问题。这不仅会降低路径规划的成功率,还限制了习框架的广泛应用和部署。


技术实现要素:

4.本发明的目的在于克服现有技术存在的缺点,提出设计一种基于状态熵与动作熵的无人机路径规划方法,以解决稀疏环境中的无人机路径规划难题,具有易于实现、计算高效等优点,能以较高的成功率完成路径规划,更适合应用于无人机平台。
5.本发明解决其技术问题所采取的技术方案是:
6.一种基于状态熵与动作熵的无人机路径规划方法,包括以下步骤:
7.步骤1、观测外部环境,并将相关信息输入无人机控制系统;
8.步骤2、进行状态熵估计;
9.步骤3、进行动作熵估计;
10.步骤4、使用seae算法将状态熵和动作熵整合为内在奖励;
11.步骤5、使用ppo算法计算外在奖励,计算公式为re=rs+r
p
,其中rs为奖励项,r
p
为惩罚项;
12.步骤6、计算总奖励,并朝着最大化总奖励的方向进行迭代;
13.步骤7、由ppo-seae算法生成参考路径;
14.步骤8、无人机追踪参考路径,实现无人机路径规划。
15.进一步的,步骤2中,根据以下公式进行状态熵估计:
[0016][0017]
其中,y
t
是状态s
t
的编码向量,是y
t
的k近邻,α是的指数的参数,取值范围为α∈(0,1)∪(1,+∞)。
[0018]
进一步的,步骤3中,根据以下公式进行动作熵估计:
[0019][0020]
其中,a
t
表示智能体在t时间步时采取的动作,π(a|s
t
)表示在状态s
t
时执行动作a的概率。
[0021]
进一步的,步骤4中,所述seae内在奖励计算公式为:
[0022][0023]
其中,y
t
是状态s
t
的编码向量,是y
t
的k近邻,α是参数,取值范围为α∈(0,1)∪(1,+∞),τ是一个非负的权重因子,π(a|s
t
)表示在状态s
t
时执行动作a的概率。
[0024]
进一步的,所述seae包括状态熵估计器和动作熵估计器,所述状态熵估计器的核心思想是在一个固定的随机初始化的编码器的表示空间中进行k近邻状态熵估计。
[0025]
进一步的,步骤6中,无人机在时间步t时的总奖励为:
[0026][0027]
其中,超参数β
t
>0,决定了在时间步为t时探索(exploration)和利用(exploitation)之间的平衡。
[0028]
进一步的,无人机在训练开始时更关注内部奖励,外部奖励逐渐可用的时候,会减少内部奖励的权重,因此,本发明对β
t
使用了指数衰减策略,β
t
计算方式为:
[0029]
β
t
=β0(1-ρ)
t

[0030]
其中,ρ是衰减率,β0是内在奖励的初始权重。
[0031]
进一步的,基于ppo-seae算法的时序差分更新方程为:
[0032]et
=β
tri
+(1-β
t
)re+γ
·
v(s
t+1
)-v(s
t
),
[0033]
其中,β
t
时间步为t时内部奖励的权重,ri表示内部奖励,re表示外部奖励,γ是折扣因子,v(s
t
)是状态为s
t
时的值函数,v(s
t+1
)是状态为s
t+1
时的值函数。
[0034]
进一步的,所述ppo-seae算法的更新方程描述为:
[0035][0036]
其中,β
t
为时间步为t时内部奖励的权重,ri表示内部奖励,re表示外部奖励,γ是折扣因子,v(s
t
)是状态为s
t
时的值函数,v(s
t+1
)是状态为s
t+1
时的值函数,π
θ
(a
t
|s
t
)表示状态为s
t
时采取动作a
t
的概率。
[0037]
本发明的技术效果:
[0038]
与现有技术相比,本发明的一种基于状态熵与动作熵的无人机路径规划方法,根据状态熵与动作熵产生稳定的内在奖励,有效缓解了外在奖励不足的问题,具有易于实现、计算高效等优点;能有效鼓励无人机对状态空间和状态动作空间的探索,使处在各种状态中的无人机准确选择最优动作,提高路径规划的成功率,使策略得到有意义的反馈和高效的更新。本发明能以较高的成功率完成路径规划,更适合应用于无人机平台。
附图说明
[0039]
图1为本发明ppo-seae算法结构图;
[0040]
图2为本发明房间a示意图;
[0041]
图3为本发明房间b示意图;
[0042]
图4为本发明房间c示意图;
[0043]
图5为本发明房间a中获得的奖励图;
[0044]
图6为本发明房间b中获得的奖励图;
[0045]
图7为本发明房间c中获得的奖励图。
具体实施方式
[0046]
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合说明书附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0047]
实施例1:
[0048]
如图1所示,本实施例涉及的一种基于状态熵与动作熵的无人机路径规划方法,包括以下步骤:
[0049]
步骤1、观测外部环境,并将相关信息输入无人机控制系统;
[0050]
步骤2、根据以下公式进行状态熵估计:
[0051][0052]
其中,y
t
是状态s
t
的编码向量,是y
t
的k近邻,α是的指数的参数,取值范围为α∈(0,1)∪(1,+∞);
[0053]
步骤3、根据以下公式进行动作熵估计:
[0054][0055]
其中,a
t
表示智能体在t时间步时采取的动作,π(a|s
t
)表示在状态s
t
时执行动作a的概率;
[0056]
步骤4、使用seae算法将状态熵和动作熵整合为内在奖励;所述seae内在奖励计算公式为:
[0057][0058]
其中,y
t
是状态s
t
的编码向量,是y
t
的k近邻,α是参数,取值范围为α∈(0,1)∪(1,+∞),τ是一个非负的权重因子,π(a|s
t
)表示在状态s
t
时执行动作a的概率;
[0059]
步骤5、使用ppo算法计算外在奖励;
[0060]
计算公式为re=rs+r
p
,其中rs为奖励项,r
p
为惩罚项;
[0061]
步骤6、计算总奖励,并朝着最大化总奖励的方向进行迭代;无人机在时间步t时的总奖励为:
[0062][0063]
其中,超参数β
t
>0,决定了在时间步为t时探索(exploration)和利用(exploitation)之间的平衡;
[0064]
步骤7、由ppo-seae算法生成参考路径;
[0065]
步骤8、无人机追踪参考路径,实现无人机路径规划。
[0066]
所述seae包括状态熵估计器和动作熵估计器,所述状态熵估计器的核心思想是在一个固定的随机初始化的编码器的表示空间中进行k近邻状态熵估计。
[0067]
无人机在训练开始时更关注内部奖励,外部奖励逐渐可用的时候,会减少内部奖励的权重,因此,本发明对β
t
使用了指数衰减策略,β
t
计算方式为:
[0068]
β
t
=β0(1-ρ)
t

[0069]
其中,ρ是衰减率,β0是内在奖励的初始权重。
[0070]
基于ppo-seae算法的时序差分更新方程为:
[0071]et
=β
tri
+(1-β
t
)re+γ
·
v(s
t+1
)-v(s
t
),
[0072]
其中,β
t
时间步为t时内部奖励的权重,ri表示内部奖励,re表示外部奖励,γ是折扣因子,v(s
t
)是状态为s
t
时的值函数,v(s
t+1
)是状态为s
t+1
时的值函数。
[0073]
所述ppo-seae算法的更新方程描述为:
[0074][0075]
其中,β
t
为时间步为t时内部奖励的权重,ri表示内部奖励,re表示外部奖励,γ是折扣因子,v(s
t
)是状态为s
t
时的值函数,v(s
t+1
)是状态为s
t+1
时的值函数,π
θ
(a
t
|s
t
)表示状态为s
t
时采取动作a
t
的概率,e表示数学期望,θ表示神经网络参数。
[0076]
仿真实验:
[0077]
1、仿真环境:
[0078]
为了更贴近现实,本实施例选用了airsim仿真(airsim是一款基于unreal engine的无人机开发平台)。为了测试seae算法在不同场景下的表现,本实施例设计了a、b、c三个房间(分别对应图2、图3、图4),每个房间的大小都是36m
×
36m
×
28m,无人机的起点(白色的点表示起点)的位置也相同,每个房间的唯一出口都在房间最顶部,出口的大小也相同,不同之处在于三个房间内的障碍物的数量是依次增加的,障碍物最少的是房间a,最多的是房间c。本发明希望无人机躲避障碍物的同时,找到一条离开房间的最优路径。
[0079]
2、问题建模:
[0080]
无人机根据从环境中接收到的状态信息来选择动作。因此,设计一个适当的状态空间表示是很重要的。在本发明方法中,状态空间定义为:
[0081]
su=[x,y,z,v
x
,vy,vz,]
t

[0082]
其中,(x,y,z)是无人机的位置坐标,v
x
、y
x
、z
x
分别是无人机沿x轴、y轴、z轴的线速度。
[0083]
动作空间定义为:
[0084]
a=[v
x
,vy,vz]
t

[0085]
其中,v
x
表示无人机在x轴方向上的线速度,表示无人机前进或后退,在本实施例中,为了使无人机保持前进,所有的实验中都使v
x
=0.4m/s;vy表示无人机在y轴方向上的线速度,表示无人机左移或右移,vz表示无人机在z轴方向上的线速度,表示无人机上升或下降,vy,vz∈[-0.6,0.6]m/s。x轴正方向为无人机第一视角的方向,z轴垂直于无人机所在的平面,而y=x
×
z。
[0086]
设置奖励函数是深度强化学习中极为重要的一环,它深刻影响了算法的性能和无人机的行为,不仅用它评估在当前状态下采取动作的质量,还用它来引导无人机执行设定的任务。
[0087]
在本发明中,为了模拟一个稀疏奖励的复杂环境,尽可能地简化了奖励函数,它的由两部分组成:
[0088]
(1)成功奖励rs:无人机离开房间后会得到+100分的奖励。
[0089]
(2)碰撞惩罚r
p
:无人机与障碍物或墙体发生碰撞时,得到-100分奖励。
[0090]
因此,无人机在当前时刻收到的外在奖励可以表示为:
[0091]
re=rs+r
p

[0092]
3、实验:
[0093]
本发明在仿真中与ppo算法进行了对比,每个实验都运行20万个时间步,除了算法各自的超参数外,其余的设置完全相同。
[0094]
算法的参数如表1所示。
[0095]
ppo-seae与ppo算法的对比如表2所示,实验结果如图5、图6和图7所示。
[0096]
表1算法超参数
[0097][0098]
表2ppo-seae与ppo算法的对比
[0099]
[0100]
从实验结果图中可以看出,使用ppo的无人机在三个房间中都获得的奖励都比较少,意味着无人机规划的路径不是最优的或者任务的成功率比较低。随着房间中的障碍物的增加,使用ppo的uav获得的奖励出现了明显的下跌,尤其是在障碍物最多的房间c中,无人机几乎无法正常训练,这是因为状态空间和状态动作空间比较大,而且奖励函数非常稀疏,策略无法得到及时的反馈与更新,也就是说外在奖励算法ppo无法指导无人机对环境进行充分的探索,导致无人机路径规划的结果不理想。
[0101]
在结合探索算法seae之后,ppo算法的表现有了明显的提升,特别是在房间c中,无人机完全可以正常地寻找最优路径,表明探索算法可以有效弥补任务奖励不足的缺陷。在三个房间中都获得了最高的、最稳定的奖励,表明ppo-seae对每个房间的理解更为充分,规划了更优的路径。
[0102]
本发明根据状态熵和动作熵计算内在奖励,弥补了环境中外在奖励的稀缺性,从而使无人机进行更有效的探索。本发明在airsim仿真环境中进行了测试,测试结果表明,本发明的seae算法表现优于基准算法,能以较高的成功率完成路径规划,更适合应用于无人机平台。
[0103]
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明权利要求书且任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应落入本发明的专利保护范围。

技术特征:
1.一种基于状态熵与动作熵的无人机路径规划方法,其特征在于:包括以下步骤:步骤1、观测外部环境,并将相关信息输入无人机控制系统;步骤2、进行状态熵估计;步骤3、进行动作熵估计;步骤4、使用seae算法将状态熵和动作熵整合为内在奖励;步骤5、使用ppo算法计算外在奖励,计算公式为r
e
=r
s
+r
p
,其中r
s
为奖励项,r
p
为惩罚项;步骤6、计算总奖励,并朝着最大化总奖励的方向进行迭代;步骤7、由ppo-seae算法生成参考路径;步骤8、无人机追踪参考路径,实现无人机路径规划。2.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤2中,根据以下公式进行状态熵估计:其中,y
t
是状态s
t
的编码向量,是y
t
的k近邻,α是的指数的参数,取值范围为α∈(0,1)∪(1,+∞)。3.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤3中,根据以下公式进行动作熵估计:其中,a
t
表示智能体在t时间步时采取的动作,π(a|s
t
)表示在状态s
t
时执行动作a的概率。4.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤4中,所述seae内在奖励计算公式为:其中,y
t
是状态s
t
的编码向量,是y
t
的k近邻,α是参数,取值范围为α∈(0,1)∪(1,+∞),τ是一个非负的权重因子,π(a|s
t
)表示在状态s
t
时执行动作a的概率。5.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:所述seae包括状态熵估计器和动作熵估计器。6.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤6中,无人机在时间步t时的总奖励为:其中,超参数β
t
>0。7.根据权利要求6所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:对β
t
使用了指数衰减策略,β
t
计算方式为:
β
t
=β0(1-ρ)
t
,其中,ρ是衰减率,β0是内在奖励的初始权重。8.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:基于ppo-seae算法的时序差分更新方程为:e
t
=β
t
r
i
+(1-β
t
)r
e

·
v(s
t+1
)-v(s
t
),其中,β
t
时间步为t时内部奖励的权重,r
i
表示内部奖励,r
e
表示外部奖励,γ是折扣因子,v(s
t
)是状态为s
t
时的值函数,v(s
t+1
)是状态为s
t+1
时的值函数。9.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:所述ppo-seae算法的更新方程描述为:其中,β
t
为时间步为t时内部奖励的权重,r
i
表示内部奖励,r
e
表示外部奖励,γ是折扣因子,v(s
t
)是状态为s
t
时的值函数,v(s
t+1
)是状态为s
t+1
时的值函数,π
θ
(a
t
|s
t
)表示状态为s
t
时采取动作a
t
的概率。

技术总结
本发明涉及无人机路径规划领域,具体地涉及一种基于状态熵与动作熵的无人机路径规划方法,包括以下步骤:观测外部环境,并将相关信息输入无人机控制系统;进行状态熵估计和动作熵估计;使用SEAE算法将状态熵和动作熵整合为内在奖励;使用PPO算法计算外在奖励;计算总奖励,并朝着最大化总奖励的方向进行迭代;由PPO-SEAE算法生成参考路径;无人机追踪参考路径,实现无人机路径规划。本发明解决了稀疏环境中的无人机路径规划难题,具有易于实现、计算高效等优点,能以较高的成功率完成路径规划,更适合应用于无人机平台。更适合应用于无人机平台。更适合应用于无人机平台。


技术研发人员:吕慧 陈亚东 李世波 韩安东 刘丹丹 赵馥毓
受保护的技术使用者:齐鲁工业大学(山东省科学院)
技术研发日:2023.05.22
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐