一种基于强化学习的无人机高空球载投放控制方法
未命名
08-03
阅读:137
评论:0

1.本发明属于无人机控制领域,尤其是涉及一种基于强化学习的无人机高空球载投放控制方法。
背景技术:
2.平流层是指离地表15~50km的高空,其主要特征为:风速稳定,无复杂气象变化;空气稀薄,空气动力效应低;处于电离层之下,信息传输通畅。平流层飞行器主要包括太阳能无人机、高空长航时滑翔机等,它们在成本上远低于更高飞行高度的临近空间飞行器、卫星与航天器,且平流层飞行器在实施区域监视、通信中继等方面具有极大的优势。为提升气动效率,平流层飞行器一般设计为大展弦比的机翼,这种布局将导致飞行器的爬升性能、抗风性能大大减弱,飞行器从地面起飞并爬升到任务高度(平流层)的难度极大,耗时与耗能均不可估量。近年来,提出了一种采用高空气球把平流层飞行器吊挂升空至平流层高度,投放后无人机滑翔起飞的方案,这是一种极具优势的平流层飞行器起飞方式,能大大降低起飞成本、提高起飞成功率。
3.在高空球载投放无人机的试验方面,2012年,瑞典在32km的高空采用高空气球投放了一架飞翼式滑翔机,用于验证飞机的滑翔性能;2015年,德国dlr使用零压气球投放了一架滑翔机,用于验证其高空环境的飞行性能;2018年,美国使用探空气球在18km的高空,投放了一架滑翔机hidron,用于测量气体参数,验证高空气体模型;中科院在2018年,采用零压气球搭载了一型高超声速飞行器的缩比验证机,并进行了投放试验,用于验证飞行器在高空低温、低压环境下的飞行性能。
4.无人机从高空气球上投放时,一般采用头朝下的姿态,无人机与气球分离后,首先进入自由落体运动,随后通过控制无人机的舵面,逐渐过渡到一段无动力的拉平阶段,只有当速度降低到一定的范围,无人机的姿态达到平稳时,无人机才可开启动力,并实现自主稳定飞行。无人机从投放初始到开启动力之前这一阶段的姿态控制至关重要,若姿态拉平失败,无人机将进入尾旋或者自由落体运动,高度快速损伤,无人机将难以在指定高度执行任务,甚至会造成空中解体;而该阶段由于缺乏动力,仅能依靠舵面的控制进行姿态稳定。上述因素使得控制的难度大大提升。高效的控制算法,能使无人机迅速拉平,在最小的高度损失下,快速进入平稳阶段。
5.传统的无人机的姿态控制一般采用pid算法,但控制律调参对无人机模型及技术人员的经验依赖性较强,且无人机球载投放的过程中,高度变化较大,环境也随之变化,调参控制的难度也大大增大。
技术实现要素:
6.本发明提供了一种基于强化学习的无人机高空球载投放控制方法,可以在无人机与高空气球分离后,实现无人机无动力姿态控制,使无人机迅速进入姿态平稳;与传统的调参控制相比,姿态控制方法效率更高,省去了繁杂的调参环节,并且具有更强的环境适应
性。
7.一种基于强化学习的无人机高空球载投放控制方法,控制流程如下:
8.无人机投放后通过机载传感器获取无人机的速度,当速度增大到阈值,开启舵面控制,控制策略为:通过控制俯仰角姿态,对无人机逐步进行拉平,横滚姿态只进行稳定性控制;通过姿态的控制,直至无人机的俯仰角减少至稳定范围,从而完成高空球载投放过程的姿态平稳控制;
9.其中,所述的控制策略基于强化学习中的dqn算法,dqn算法中,智能体为无人机,环境为无人机的六自由度刚体动力学模型;动力学模型中无人机所受的气动力与操纵舵效采用计算流体力学方法根据具体的飞行环境进行求解;
10.所述dqn算法的框架包含环境模块与dqn算法模块,环境模块与dqn算法模块通过状态(state)与动作(action)进行数据的交互;其中,动力学模型的状态(state)变量包含5个,分别为位移x、高度h、俯仰角θ、合速度v与竖直方向速度vh;动作(action)为俯仰角的改变量,dqn算法的奖励函数为时间与航程相关的函数;dqn算法模块求解当前状态下的值网络,并通过与目标值网络的对比,获得dqn的误差函数值,把所获得的最优控制动作策略反馈给环境,通过不断的学习,最终获得一种目标函数最优的控制策略。
11.优选地,所述的无人机为长展弦比、长航时无人机,无人机通过副翼进行滚转操纵,通过全动平尾进行俯仰方向的操纵,通过方向舵进行航向操纵。
12.优选地,开启舵面控制时的速度阈值为7m/s~10m/s。
13.优选地,无人机的俯仰角减少至稳定范围指的是俯仰角范围控制在-10
°
~20
°
以内。
14.优选地,所述的动力学模型采用matlab的simulink进行搭建,dqn算法模块在开源软件python中搭建。
15.优选地,每个动作action有5种俯仰角改变量,分别为+2
°
、+1
°
、0、-1
°
、-2
°
。
16.优选地,所述的dqn算法的奖励函数为:t+|x|
×
0.005,其中,t为无人机飞行的时间,|x|为航程。
17.本发明中,动力学模型包含无人机的质心运动方程组与刚体绕质心的转动方程组;无人机的质心运动方程组如下:
[0018][0019]
其中,f
x
、fy、fz分别为体坐标系下三个坐标轴方向的受力,m为无人机的质量,v
x
、vy、vz为三个方向的线速度,ω
x
、ωy和ωz为三个方向的角速度;
[0020]
刚体绕质心转动方程组如下:
[0021][0022]
其中,m
x
、my和mz是刚体三个方向的力矩,i
xx
、i
yy
、i
zz
为无人机绕机体坐标轴的主惯性矩,i
xy
为飞机绕机体坐标轴的惯性积,一般取0。
[0023]
与现有技术相比,本发明具有以下有益效果:
[0024]
1、本发明采用dqn算法进行姿态控制可使无人机在高度方向的下降速率更小,并且可以获得更远的航程,更有利于无人机拉平阶段的稳定性。相较于调参法,dqn算法在提升效率与改善姿态平稳方面取得明显的效果。采用dqn算法的控制策略对模型与环境的依赖性变弱,当飞行环境改变或者无人机模型改变后,可通过智能学习对环境和模型进行自适应,而不需要重新进行繁琐的调参与优化工作。因此,本发明的控制方法具有更强的环境适应性与鲁棒性。
[0025]
2、本发明所提出的控制方法,不仅可应用于高空太阳能无人机、高空长航时滑翔机等的球载投放的稳定性控制,还可应用于无人机无动力滑翔时的稳姿控制。无人机在无动力飞行时,仅能依靠舵面进行姿态稳定,采用基于dqn算法的姿态控制方法,能使无人机迅速拉平,并且在最小的高度损失下,快速进入平稳阶段。
附图说明
[0026]
图1为本发明实施例中无人机高空球载投放过程的示意图;
[0027]
图2为本发明实施例中无人机的整体结构示意图;
[0028]
图3为本发明中dqn算法的框架和流程图;
[0029]
图4为本发明中无人机姿态控制仿真算法框架;
[0030]
图5为本发明实施例中cfd计算网格示意图;
[0031]
图6为采用cfd计算的气动力与舵效;
[0032]
图7为投放过程无人机姿态控制仿真结果。
具体实施方式
[0033]
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
[0034]
如图1所示,无人机通过高空气球从地面升空至平流层高度后,将进行高空投放起飞,从球-机分离至动力开启前的过程主要分为三个阶段:第一阶段是竖直下落阶段,该阶段无人机的速度从零开始逐渐增大,随着速度的增大,无人机获得一定的气动效率;进入第二阶段的姿态改平,该阶段通过操纵舵面实现无人机的姿态的拉平与稳定控制;随后进入滑翔阶段,该阶段无人机的气动效率较高,无人机具备了较大的升阻比与操纵舵效,在滑翔阶段,无人机的姿态进一步调整,直至满足平稳飞行的要求。
[0035]
本实施例中,无人机的结构如图2所示,为一款长展弦比(展弦比为24)、长航时的无人机,无人机的主要组成部分包括:机身1、机翼2、副翼3、全动平尾4、方向舵5、垂直安定面6。无人机主要通过副翼3进行滚转操纵,通过全动平尾4进行俯仰方向的操纵,通过方向舵5进行航向操纵。全动平尾4可以提高无人机在高空投放阶段的操纵效率。
[0036]
针对无人机姿态控制所涉及的状态参数多(姿态参数、位置参数、运动参数等)、维度高的问题,本发明利用强化学习中的深度学习方法(dqn)对无人机高空球载投放过程的姿态进行控制,dqn算法结合了卷积神经网络和传统强化学习中的q学习算法,dqn算法使用深度神经网络(dnn)近似表示q表格,有效地解决了q学习算法的维度灾难问题。
[0037]
本发明中,dqn算法的框架与流程如图3所示,主要包含环境模块、当前值网络模块与目标值网络模块。首先需要根据高空球载投放无人机的具体场景,设计dqn算法的状态(state)、动作(action)与奖励函数(reward);建立记忆单元;求解当前状态下的值网络,并通过与目标值网络的对比,获得dqn的误差函数值,把所获得的最优控制动作策略反馈给环境,通过不断的学习,最终获得一种目标函数最优的控制策略。
[0038]
针对高空球载投放无人机姿态控制问题,算法的搭建与设置如图4所示。整个算法系统的智能体为无人机,环境为无人机的动力学模型,动力学模型采用matlab的simulink进行搭建。为加快计算效率,dqn算法模块将在开源软件python中搭建。环境模块与dqn算法模块将通过状态量(state)与动作(action)进行数据的交互。无人机动力学模型的状态(state)变量包含5个,分别为位移x、高度h、俯仰角θ、合速度v与竖直方向速度vh。行为动作(action)为俯仰角的改变量δθ,每个动作空间有5种动作,分别为俯仰角+2
°
、+1
°
、0、-1
°
、-2
°
。dqn算法的奖励函数(reward)设置为:时间t+距离|x|
×
0.005。
[0039]
算法的环境模块——无人机的动力学模型的搭建。动力学模型主要包含了两个方程组:质心运动方程组与刚体绕质心的转动方程组。
[0040]
在体轴系下,根据牛顿第二定律,飞机的质心运动方程组如下:
[0041][0042]fx
、fy、fz分别为体坐标系下三个坐标轴方向的受力,作用于质心的力一般由三部分组成:气动力,发动机推力和重力,无人机在高空球载投放阶段,发动力的推力为0,因此只有气动力与重力。飞机的质量m乘以不同高度的重力加速度常数,可计算得到无人机的重力。v
x
、vy、vz为三个方向的线速度,ω
x
、ωy和ωz为三个方向的角速度。
[0043]
在体轴系下,刚体绕质心转动方程组如下:
[0044][0045]mx
、my和mz是刚体三个方向的力矩,i
xx
、i
yy
、i
zz
为无人机绕机体坐标轴的主惯性矩,。i
xy
为飞机绕机体坐标轴的惯性积,一般取0。
[0046]
以上六个方程组成了体轴系下的刚体运动六自由度方程,分别描述飞机质心沿着三轴方向的移动规律与飞机绕轴的转动规律,方程的左边为惯性项,右边为受力/力矩项,通过上述六自由度方程的求解,可以得到无人机运动与受力的关系。
[0047]
六自由度方程中,无人机的受力除了重力,还有气动力与力矩,气动力的计算采用计算流体力学(cfd)方法进行求解。如图5所示为无人机cfd计算所采用的网格。通过cfd的计算可以得到图6中(a)和(b)所示的升力、阻力、力矩等气动力与气动力矩随迎角的变化规律。在无人机高空投放阶段,升降舵的操纵舵效是重要的气动参数,操纵舵效的计算同样可采用cfd方法进行计算,如图6中(c)和(d)所示为不同升降舵偏角下,无人机的升力系数与俯仰力矩系数。
[0048]
利用所搭建的基于深度学习方法(dqn)对无人机高空球载投放过程的姿态进行控制仿真,如图7所示,展示了无人机从30km高空开始投放至26km高度时的仿真结果,图中深色线条为采用dqn算法的仿真结果,浅色线条为采用普通的调参法经过多轮调参后得到的最优结果,图7中(a)所示为无人机的航程随时间的变化,(b)所示为无人机的高度随时间的变化曲线。结合图7的(a)和(b)可以得出以下结论,下降同样的高度,采用dqn算法在高度方向的下降速率更小,并且可以到达更远的航程,更有利于无人机拉平阶段的稳定性。调参法在前期消耗了大量的调试时间与精力,可见dqn算法在提升效率与改善姿态平稳方面取得明显的效果。
[0049]
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于强化学习的无人机高空球载投放控制方法,其特征在于,控制流程如下:无人机投放后通过机载传感器获取无人机的速度,当速度增大到阈值,开启舵面控制,控制策略为:通过控制俯仰角姿态,对无人机逐步进行拉平,横滚姿态只进行稳定性控制;通过姿态的控制,直至无人机的俯仰角减少至稳定范围,从而完成高空球载投放过程的姿态平稳控制;其中,所述的控制策略基于强化学习中的dqn算法,dqn算法中,智能体为无人机,环境为无人机的六自由度刚体动力学模型;动力学模型中无人机所受的气动力与操纵舵效采用计算流体力学方法根据具体的飞行环境进行求解;所述dqn算法的框架包含环境模块与dqn算法模块,环境模块与dqn算法模块通过状态与动作进行数据的交互;其中,动力学模型的状态变量包含5个,分别为位移x、高度h、俯仰角θ、合速度v与竖直方向速度v
h
;动作为俯仰角的改变量,dqn算法的奖励函数为时间与航程相关的函数;dqn算法模块求解当前状态下的值网络,并通过与目标值网络的对比,获得dqn的误差函数值,把所获得的最优控制动作策略反馈给环境,通过不断的学习,最终获得一种目标函数最优的控制策略。2.根据权利要求1所述的基于强化学习的无人机高空球载投放控制方法,其特征在于,所述的无人机为长展弦比、长航时无人机,无人机通过副翼进行滚转操纵,通过全动平尾进行俯仰方向的操纵,通过方向舵进行航向操纵。3.根据权利要求1所述的基于强化学习的无人机高空球载投放控制方法,其特征在于,开启舵面控制时的速度阈值为7m/s~10m/s。4.根据权利要求1所述的基于强化学习的无人机高空球载投放控制方法,其特征在于,无人机的俯仰角减少至稳定范围指的是俯仰角范围控制在-10
°
~20
°
以内。5.根据权利要求1所述的基于强化学习的无人机高空球载投放控制方法,其特征在于,所述的动力学模型采用matlab的simulink进行搭建,dqn算法模块在开源软件python中搭建。6.根据权利要求1所述的基于强化学习的无人机高空球载投放控制方法,其特征在于,每个动作action有5种俯仰角改变量,分别为+2
°
、+1
°
、0、-1
°
、-2
°
。7.根据权利要求1所述的基于强化学习的无人机高空球载投放控制方法,其特征在于,所述的dqn算法的奖励函数为:t+|x|
×
0.005,其中,t为无人机飞行的时间,|x|为航程。8.根据权利要求1所述的基于强化学习的无人机高空球载投放控制方法,其特征在于,所述的动力学模型包含无人机的质心运动方程组与刚体绕质心的转动方程组;无人机的质心运动方程组如下:其中,f
x
、f
y
、f
z
分别为体坐标系下三个坐标轴方向的受力,m为无人机的质量,v
x
、v
y
、v
z
为三个方向的线速度,ω
x
、ω
y
和ω
z
为三个方向的角速度;
刚体绕质心转动方程组如下:其中,m
x
、m
y
和m
z
是刚体三个方向的力矩,i
xx
、i
yy
、i
zz
为无人机绕机体坐标轴的主惯性矩,i
xy
为飞机绕机体坐标轴的惯性积,一般取0。
技术总结
本发明公开了一种基于强化学习的无人机高空球载投放控制方法,控制过程如下:无人机投放后通过机载传感器获取无人机的速度,当速度增大到阈值,开启舵面控制,控制策略为:通过控制俯仰角姿态,对无人机逐步进行拉平,横滚姿态只进行稳定性控制;通过姿态的控制,直至无人机的俯仰角减少至稳定范围,从而完成高空球载投放过程的姿态平稳控制;其中,控制策略基于强化学习中的DQN算法,DQN算法中,智能体为无人机,环境为无人机的六自由度刚体动力学模型;DQN算法的框架包含环境模块与DQN算法模块,环境模块与DQN算法模块通过状态与动作进行数据的交互。本发明的控制方法效率更高,省去了繁杂的调参环节,并且具有更强的环境适应性。性。性。
技术研发人员:曾丽芳 黎军 赵嘉墀 王天琪 张媛媛
受保护的技术使用者:浙江大学
技术研发日:2023.03.09
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/