一种基于深度强化学习的变体飞行器鲁棒控制方法

未命名 08-13 阅读：85 评论：0

1.本发明涉及变体飞行器的技术领域，特别是涉及一种基于深度强化学习的变体飞行器鲁棒控制方法。

背景技术：

2.随着飞行技术的发展，变体飞行器因其重要的军事价值受到越来越多的关注。变体飞行器的概念在二战期间由德国科学家首次提出，美国贝尔x-5是第一款可变后掠翼飞行器。后来f-111、f-14等飞行器都采用了这种技术，可变后掠角可以提升飞行器的气动特性。近年来，折叠翼、伸缩翼和可变机鼻等变形方式也被应用于飞行器上。这些可变装置能有效提升飞行器的气动特性，做出传统飞行器难以实现的快速滚转抬升动作，扩大飞行器的飞行包络并提升飞行器的最大飞行速度。
3.变体飞行器与传统的飞行器相比，具有诸多优势：首先，变体飞行器通过主动变形改善气动特性，降低飞行能耗；其次，变体飞行器可通过主动变形辅助操纵，增强控制能力；最后，变体飞行器能够通过改变构型适应多种飞行环境与飞行任务，扩大应用范围。上述优势使得变体飞行器有望成为未来高性能飞行器实现突破性发展的基础，在军事和民用上均具有极高的发展潜力和使用价值。
4.然而，变体飞行器难以大量应用于现实中，其中三个主要原因：
[0005]ⅰ.成本昂贵：变体飞行器需要变形，对于硬件的要求高，可变模块需要和机体稳定的连接，不能应用易损材料。
[0006]ⅱ.重量更大：变体飞行器要实现变形，就要应用稳固的材料，而这些材料往往重量较大。而且和传统飞行器相比，变体飞行器变形需要电机等系统的运转，这些模块会增重。
[0007]ⅲ.系统复杂：庞大的系统难以用控制算法做出规划。
[0008]
针对上述第三点，变体飞行器的研究目前主要为变形设计和变形控制。目前，基于q-learning的变体飞行器切换控制已经被提出；基于增强学习的变体飞行器自适应变体策略与飞行控制方法已经被提出。
[0009]
但是，现有技术中存在如下问题：
[0010]
1.该切换控制方法在飞行器的高度跟踪误差较小时，切换到内部的强化学习控制器。用q-learning方法不能完整地表征飞行器的飞行状态。
[0011]
2.该方法的研究对象是一种可变翼型的变体飞行器。用飞行器的俯冲、巡航和爬升作为三种状态，飞行器的后掠角角度作为动作，用q-learning的方法探索飞行器变形的最优策略。但是，这种控制方法下的变形飞行器在每种情况下只能采取一种构型，与设计变体飞行器时提出的扩大飞行包络不相符，适用范围有限。
[0012]
可变形能力在给飞行器带来性能提升的同时，也给其建模与控制提出了全新的要求和挑战：变体飞行器需要在复杂战场环境中具备自主变形能力；变形过程使得飞行器系统呈现出多模态、强非线性和强耦合的特点；飞行器在变形飞行过程中极易受到各种内外
部扰动的影响，飞行稳定性难以得到保证。传统的针对固定外形飞行器的控制系统设计方法已很难满足变体飞行器的需求。

技术实现要素：

[0013]
本发明的目的在于解决变体飞行器的建模和变形控制问题，提供一种基于深度强化学习的变体飞行器鲁棒控制方法。
[0014]
为实现上述目的，本发明采用以下技术方案：
[0015]
一种基于深度强化学习的变体飞行器鲁棒控制方法，包括如下步骤：
[0016]
s1、建立变体飞行器的cad模型，然后仿真得到飞行器气动数据，根据得到的数据，对飞行器的运动学和动力学方程进行求解，完成变体飞行器运动的物理模型搭建；
[0017]
s2、使用dqn(deep q-learning)算法进行变体飞行器变形和运动控制的深度强化学习，训练值函数网络；
[0018]
s3、根据训练好的值函数网络构建智能体，通过所述智能体对变体飞行器的控制作出合理决策。
[0019]
在本发明的一些实施例中，步骤s1中，通过catia软件建立所述变体飞行器的cad模型，然后fluent软件仿真得到所述飞行器气动数据。
[0020]
在本发明的一些实施例中，步骤s1中，建模时，忽略所述变体飞行器的副翼和引擎，视为平衡受力、保持飞行器速度方向的模型，而所述变体飞行器的机翼和尾翼上有可变形部分，所述机翼上的可变部分进行变形时大小相等，方向相反，所述尾翼上的可变部分进行变形时大小相等，方向相同；其中，由机翼的变形、水平尾翼的变形以及速度的改变三者来组合成不同的动作。
[0021]
在本发明的一些实施例中，所述变体飞行器的机翼可变形的角度为[-18
°
,-13.5
°
,-9
°
,-4.5
°
,0
°
,4.5
°
,9
°
,13.5
°
,18
°
]，所述变体飞行器的尾翼可变形的角度为[0
°
,3
°
,6
°
,9
°
,12
°
,15
°
]。不同的变形角度组合共30种。
[0022]
在本发明的一些实施例中，步骤s1中，假设飞行器的速度方向始终与x轴方向相同，即航迹坐标系与机体坐标系方向相同，根据不同变形角度组合，用fluent模块测出多种速度时飞行器在xyz三个轴向上的受力、三个轴向对于质心的和力矩数据；
[0023]
飞行器转动惯量j的估算为：
[0024][0025]
其中w为飞行器质量，la为飞行器总长，为机体坐标系y轴方向上无量纲回转半径；
[0026]
飞行器力矩m、角加速度α和角速度ω为：
[0027]
m＝j
×aꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0028][0029][0030]
其中t为时间；
[0031]
原坐标系绕x，y轴转过角的转换矩阵分别为：
[0032][0033][0034]
其中，
[0035][0036]
飞行器飞行时，等效为先使机翼形变使飞行器绕x轴旋转，再变形尾翼，实现飞行器的变向；旋转后的坐标为:[xq,yq,zq]，旋转前的坐标为:[x
p
,y
p
,z
p
]；若飞行器先绕x轴旋转ξ弧度，再绕y轴旋转η弧度，有：
[0037][0038]
航迹坐标系下的x轴方向在地面坐标系上的投影[x',y',z']为：
[0039][0040]
航迹偏角χ和倾角γ为：
[0041][0042][0043]
飞行器的速度v在地面坐标系oxgygzg的三个速度分量为：
[0044][0045][0046][0047]
对所述三个速度分量分别求积分，确定飞行器的位置，根据得到的数据，搭建出所述变体飞行器运动的物理模型。
[0048]
在本发明的一些实施例中，步骤s2中，在进行变体飞行器的轨迹跟踪训练时，使用
编码器的方法缩小所述值函数网络的动作空间，使训练时深度学习网络收敛的速度加快。
[0049]
在本发明的一些实施例中，步骤s2中，所述深度强化学习包括：以获得一个周期内的目标轨迹为任务，飞行器的状态为14维，包括飞行器飞行的目标与当前位置的比值、飞行器的偏角、飞行器的倾角、飞行器的角速度、飞行器机翼位姿、飞行器尾翼位姿、飞行器当前的坐标，飞行器下一秒目标坐标；飞行器在飞行的一个周期内执行特定的三种动作，其中二种动作由飞行任务经过编码器从机翼的变形、水平尾翼的变形以及速度的改变三者组合形成的26种不同动作中选出，再和飞行器不变形的动作组成三种动作；优选地，选择机翼变形和尾翼变形相反的动作；由此，对搭建好的飞行器物理模型进行操作来获得路径数据。
[0050]
在本发明的一些实施例中，设置任务的周期为30s，动作的步长为1s，通过不同的飞行任务，用所述编码器缩小动作空间。
[0051]
在本发明的一些实施例中，所述深度强化学习包括：用取得的路径放入状态(state)里的相应位置，进行强化学习训练；在每一次探索(episode)中，首先重置环境，使飞行器出现在路径的初始位置，然后根据值函数网络选择出值最大的动作；有(1-greedy)概率随机选取动作，在达到预定的探索次数前，greedy以小于1的值线性增加，之后取1；如果采取完动作的状态没有使飞行器的加速度过大，与环境交互，将状态-动作-奖励-下一状态的数组存入寄存器；否则，随机从剩下的动作选取一个，与环境交互后存入；当存入寄存器超过预定量的内容时，以设定的更新频率、学习率和奖励折扣训练值函数网络；直至完成预定的探索次数。
[0052]
在本发明的一些实施例中，根据生成的路线和动作的关系完成一个编码器，通过所述编码器，能够确定飞行器是通过何种动作的组合飞出给定的轨迹。
[0053]
本发明具有如下有益效果：
[0054]
本发明克服变体飞行器难以通过空气动力学参数分析建模的缺点，实现在没有飞行器气动数据的情况下，设计了一种框架来分析和控制变体飞行器的运动，通过该框架，可以进行变体飞行器的变形设计、分析和控制，适应飞行器变形过程带来系统多模态、强非线性和强耦合的特点，可在复杂的控制下选出最优的控制策略，保证飞行稳定性。
[0055]
通过深度强化学习的方法控制飞行器，可以将需要考虑的因素输入到深度学习网络中，并给定奖励值，比用传统优化方法设计过多等式或不等式更简便。
[0056]
本发明实施例中，在控制飞行器进行轨迹跟踪时，用编码器的方法缩小了值函数网络，使训练时深度学习网络收敛的速度加快，实现了比较理想的轨迹跟踪效果。使用编码器减小动作空间，有助于加速训练收敛的同时，能规避飞行器做出可能导致飞行器失速的反常的动作。在任务设计的合理的情况下，飞行器能合理做出变形。
附图说明
[0057]
图1是本发明实施例中变体飞行器建模的示意图；
[0058]
图2a至图2c分别是变体飞行器机翼不同变形情况的示意图；
[0059]
图2d至图2f分别是变体飞行器尾翼不同变形情况的示意图；
[0060]
图3是本发明实施例中变体飞行器坐标系的示意图；
[0061]
图4是fluent仿真飞行器的升力迭代过程折线图；
[0062]
图5是本发明实施例中强化学习流程的示意图；
[0063]
图6a是实施例1中任务1的强化学习的收敛过程曲线；
[0064]
图6b是实施例1中任务1的目标轨迹和训练后智能体控制飞行器轨迹的示意图；
[0065]
图7a是实施例1中任务2的强化学习的收敛过程曲线；
[0066]
图7b是实施例1中任务2的目标轨迹和训练后智能体控制飞行器轨迹的示意图；
[0067]
图8a是实施例1中任务3前30s的强化学习的收敛过程曲线；
[0068]
图8b是实施例1中任务3前30s的目标轨迹和训练后智能体控制飞行器轨迹的示意图；
[0069]
图8c是实施例1中任务3后30s的强化学习的收敛过程曲线；
[0070]
图8d是实施例1中任务3后30s的目标轨迹和训练后智能体控制飞行器轨迹的示意图；
[0071]
图9是本发明实施例中基于深度强化学习的变体飞行器鲁棒控制方法的步骤流程图；
[0072]
图10是本发明实施例中基于深度强化学习的变体飞行器鲁棒控制方法的整体框图。
具体实施方式
[0073]
下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
[0074]
需要说明的是，本实施例中的左、右、上、下、顶、底等方位用语，仅是互为相对概念，或是以产品的正常使用状态为参考的，而不应该认为是具有限制性的。
[0075]
本发明实施例解决了变体飞行器的变形控制问题。在研究变体飞行器的控制中，由于飞行器的升力系数和阻力系数会随着飞行器的变形而改变，很难通过空气动力学参数分析飞行器的性能，需要建模然后分析它。本发明实施例通过深度强化学习的控制方法，进行变体飞行器的变形设计、分析和控制，为变体飞行器复杂的控制问题选出最优的控制策略。
[0076]
变体飞行器的建模采取catia软件建立飞行器cad模型，然后fluent软件仿真得到飞行器气动数据的方式。根据得到的数据，对飞行器的运动学和动力学方程进行求解，建立出飞行器的模型。
[0077]
飞行器的控制采用dqn(deep q-learning)算法，这是一种经典的强化学习算法。强化学习(reinforcement learning)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一。在强化学习框架中，智能体(agent)在环境中探索，并基于状态(state)和行为(action)得到奖励(reward)。智能体(agent)的学习任务是找到一个策略，该策略能选择在长期内使奖励最高的行为(action)。这个学习任务不仅需要选择使当前状态(state)获得最高奖励(reward)的行为(action)，还需要长远考虑，选择那些使智能体(agent)在全局中获得最大奖励(reward)的行为(action)。如今在强化学习领域，算法主要分为三种：基于值函数的强化学习(value based)，基于策略的强化学习(policy based)和行动-评价者(actor-critic)框架。三种强化学习框架最具代表性的算法分别为dqn，trpo(trust region policy optimization，信赖域策略优化)和ddpg(deep deterministic policy gradient，深度确定性策略梯度)。值函数是对预期的、累积的、折扣的、未来的奖励
的预测，衡量每个状态或状态-动作对的好坏程度。深度强化学习即深度学习与强化学习的结合，通过神经网络更好的表征策略或者值函数。现在深度强化学习广泛应用于故障诊断、无人驾驶等领域，是比较完备的算法。但其缺点是收敛困难和运算量大，应用于工业界需要进行优化。
[0078]
本发明下述实施例针对变体飞行器分析复杂的问题，提出了基于catia-fluent并用python进行数据分析的完整框架，如图10所示。基于具体的cad模型和该模型对应的仿真数据，该控制更加真实。
[0079]
本发明下述实施例还针对变体飞行器变形控制困难的问题，设计步长为1s的深度强化学习控制方法，在控制过程中，设计任务为30s为一周期，通过飞行任务不同，用编码器缩小动作空间。使深度网络收敛速度加快。
[0080]
本发明下述实施例提出一种基于深度强化学习的变体飞行器鲁棒控制方法，如图9所示，包括如下步骤：s1、建立变体飞行器的cad模型，然后仿真得到飞行器气动数据，根据得到的数据，对飞行器的运动学和动力学方程进行求解，完成变体飞行器运动的物理模型搭建；s2、使用dqn(deep q-learning)算法进行变体飞行器变形和运动控制的深度强化学习，训练值函数网络；s3、根据训练好的值函数网络构建智能体，通过所述智能体对变体飞行器的控制作出合理决策。
[0081]
在具体的实施例中，步骤s1中，假设飞行器的速度方向始终与x轴方向相同，即航迹坐标系与机体坐标系方向相同，根据不同变形角度组合，用fluent模块测出多种速度时飞行器在xyz三个轴向上的受力、三个轴向对于质心的和力矩数据。
[0082]
在具体的实施例中，步骤s2中，在进行变体飞行器的轨迹跟踪训练时，使用编码器的方法缩小所述值函数网络的动作空间，使训练时深度学习网络收敛的速度加快。
[0083]
在具体的实施例中，步骤s2中，所述深度强化学习包括：以获得一个周期内的目标轨迹为任务，飞行器的状态为14维，包括飞行器飞行的目标与当前位置的比值、飞行器的偏角、飞行器的倾角、飞行器的角速度、飞行器机翼位姿、飞行器尾翼位姿、飞行器当前的坐标，飞行器下一秒目标坐标；飞行器在飞行的一个周期内执行特定的三种动作，其中二种动作由飞行任务经过编码器从机翼的变形、水平尾翼的变形以及速度的改变三者组合形成的26种不同动作中选出，再和飞行器不变形的动作组成三种动作；优选地，选择机翼变形和尾翼变形相反的动作；由此，对搭建好的飞行器物理模型进行操作来获得路径数据。
[0084]
在具体的实施例中，所述深度强化学习包括：用取得的路径放入状态(state)里的相应位置，进行强化学习训练；在每一次探索(episode)中，首先重置环境，使飞行器出现在路径的初始位置，然后根据值函数网络选择出值最大的动作；有(1-greedy)概率随机选取动作，在达到预定的探索次数前，greedy以小于1的值线性增加，之后取1；如果采取完动作的状态没有使飞行器的加速度过大，与环境交互，将状态-动作-奖励-下一状态的数组存入寄存器；否则，随机从剩下的动作选取一个，与环境交互后存入；当存入寄存器超过预定量的内容时，以设定的更新频率、学习率和奖励折扣训练值函数网络；直至完成预定的探索次数。
[0085]
以下介绍本发明实施例的方法：
[0086]
1.建模与仿真
[0087]
本发明实施例设计并建立了一种变体飞行器，在此飞行器中，忽略副翼和引擎，将
它们视为平衡受力、保持飞行器速度方向的模块。cad模型如图1所示。
[0088]
图1中机翼和尾翼上有点阵的部分为可变形部分，机翼上的可变部分进行变形时大小相等，方向相反。尾翼上的可变形部分进行变形时大小相等，方向相同。机翼的变形情况如图2a、图2b和图2c所示，尾翼的变形情况如图2d、图2e和图2f所示。由机翼的变形、水平尾翼的变形以及速度的改变三者来组合成不同的动作。
[0089]
其中，规定左侧机翼可变形的角度为[-18
°
,-13.5
°
,-9
°
,-4.5
°
,0
°
,4.5
°
,9
°
,13.5
°
,18
°
]，尾翼可变形的角度为[0
°
,3
°
,6
°
,9
°
,12
°
,15
°
]。不同变形角度组合共30种(由于飞行器完全对称，机翼形变互为相反数的情况在飞行器的y方向的数据取相反数即可)。
[0090]
ansys是大型通用有限元分析(fea)软件，用其中包含的fluent模块进行有限元分析是进行流体力学的常用方法。在本发明实施例中，假设飞行器的速度始终与x轴方向相同。即航迹坐标系与机体坐标系方向相同，引擎可以抵消掉升力、重力和阻力在飞行器上的分量，只考虑飞行器的力矩。为了本发明实施例实验的数据方便计算，航迹坐标系和常见情况不同，x轴方向不变，y轴、z轴取反方向，坐标系如图3所示。
[0091]
取30个stp文件输入ansys，用fluent模块测出速度在[170,180,190,200,210,220,230,240,250]m/s中飞行器在三个轴向上的受力、三个轴向对于质心的和力矩数据。飞行器机翼为0
°
，尾翼为9
°
，速度为190m/s的情况下，fluent仿真飞行器的升力迭代过程如图4所示，其中，横坐标表示迭代次数，纵坐标表示升力(lift/n)。
[0092]
采用飞行器转动惯量j的估算方法：
[0093][0094]
其中w为飞行器质量，la为飞行器总长，为机体坐标系y轴方向上无量纲回转半径，优选的，取0.3。
[0095]
转动惯量j和力矩m、角加速度α、角速度ω与时间t的公式如下：
[0096][0097]
原坐标系绕x，y轴转过角的转换矩阵分别为：
[0098][0099][0100]
其中，
[0101][0102]
飞行器飞行时，本发明实施例将这个过程等效为先使机翼形变使飞行器绕x轴旋
转，再变形尾翼，实现飞行器的变向。在这个过程中，设：旋转后的坐标为[xq,yq,zq]，旋转前的坐标为[x
p
,y
p
,z
p
]。若飞行器先绕x轴旋转ξ弧度，再绕y轴旋转η弧度，有：
[0103][0104]
航迹坐标系下的x轴方向在地面坐标系上的投影[x',y',z']为：
[0105][0106]
航迹偏角χ和倾角γ的求解为：
[0107][0108][0109]
根据航迹偏角和倾角，可以求得飞行器的速度v在地面坐标系oxgygzg的三个速度分量：
[0110][0111][0112][0113]
对三个速度分量分别求积分即可求得飞行器的位置，根据得到的数据，搭建出飞行器运动的物理模型。
[0114]
2、强化控制
[0115]
从t＝0开始，假设飞行器飞行30s为一个周期，在一个周期内执行特定的三种动作。task即一个周期内的目标轨迹。
[0116]
在一个周期内，状态为14维，由飞行器飞行的目标与现在位置的比值(2维)，飞行器的偏角，飞行器的倾角，飞行器的角速度(2维)，飞行器机翼位姿，飞行器尾翼位姿，飞行器现在的坐标(3维)，飞行器下一秒目标坐标(3维)组成。动作为3维，由飞行任务经过编码器从26种动作(见附录)选择2种，再和动作0(飞行器不变形)组成。奖励为负的行动后坐标和目标轨迹在该时刻坐标的距离/100。值函数网络为14*240*160*3的全连接网络，激活函数为relu。当智能体选择的动作可能使飞机出现加速度过大或者失速的情况时，动作选择器会对这些动作进行规避。强化学习的整体图示如图5。
[0117]
以下为实施例1
[0118]
首先，对搭建好的飞机物理模型进行操作来获得路径数据。选择两种附录中左侧
非0动作，与0动作组成一个三维的动作组合。在该组合中，每秒采取一个动作，持续30秒，在物理模型上即可算出飞机三十秒的的路线，本实施例试验时选取的路径起点为(0,0,0)。对路径加入一些噪声做训练用，本实施例只进行了简单的取整做噪声。这里需注意，选择上述动作时，选择机翼变形和尾翼变形相反的动作可以使飞机的飞行比较规范，否则容易出现与实际不符的情况。
[0119]
然后，用取得的路径放入状态(state)里的相应位置，开始强化学习训练。在每一次探索(episode)中，首先重置环境，使飞机出现在初始位置(和上述获取的路径的起点相同)，然后根据值函数网络选择出值最大的动作。有(1-greedy)概率随机选取动作，greedy在12000个探索(episodes)之前从0.8到0.98线性增加，之后取1。设置greedy的目的是让agent探索值函数小的动作，避免局部最优。然后，如果采取完动作的状态没有使飞行器的加速度过大，与环境交互，将状态-动作-奖励-下一状态的数组存入buffer寄存器；否则，随机从剩下的动作选取一个，与环境交互后存入buffer。当buffer存入超过2000条内容时，开始训练值函数网络，更新频率为100，学习率为0.006，奖励折扣为0.9。完成15000个探索(episodes)时，停止训练，根据值函数网络，智能体即可作出合理决策。
[0120]
最后，根据生成的路线和动作的关系，完成一个编码器，之后给定路线时可以确定飞行器是通过何种动作的组合飞出该轨迹的。
[0121]
实验结果
[0122]
实验设计为三条不同轨迹上飞行器的轨迹跟踪。任务1为飞行器执行巡航、爬升和下降任务飞行60s的轨迹跟踪任务，它的实验结果如图6a和图6b所示，其中，图6a是强化学习的收敛过程曲线，图6a的横坐标为探索(episode)数量，纵坐标为总的奖励(total reward)，图6b中的点分别为目标轨迹和训练后智能体控制飞行器的轨迹，可以看出吻合性较好。
[0123]
任务2为飞行器执行巡航、转弯爬升任务，飞行30s的轨迹跟踪任务，它的实验结果如图7a和图7b所示，其中，图7a是强化学习的收敛过程曲线，图7a的横坐标为探索(episode)数量，纵坐标为总的奖励(total reward)，图7b是轨迹跟踪曲线。
[0124]
任务3为飞行器执行上述两种任务各一个周期(30s)，共飞行60s的轨迹跟踪。前30s执行的是任务1，实验结果如图8a和图8b所示，其中，图8a是强化学习的收敛过程曲线，图8a的横坐标为探索(episode)数量，纵坐标为总的奖励(total reward)，图8b是轨迹跟踪曲线，后30s执行的是任务2，实验结果如图8c和图8d所示，其中，图8c是强化学习的收敛过程曲线，图8c的横坐标为探索(episode)数量，纵坐标为总的奖励(total reward)，图8d是轨迹跟踪曲线。
[0125]
在上述三个实验的total reward-episodes曲线中，可以看见当greedy增大到1时，总奖励的收敛性很好；即使波动，奖励也在-100以内，因此轨迹也在可以接受的区间。在上述三个实验的轨迹跟踪曲线中，飞行器飞行轨迹和目标轨迹几乎重合，实现了较为理想的轨迹跟踪效果。从上述三个任务的结果图可以看出，强化网络的收敛性较好，分段简化的任务使飞行器能很好的进行轨迹跟踪。实验结果表明，该dqn网络具有泛化能力，能较好地适应不同变形方法和轨迹。同时，在强化网络的行为(action)选择处加入编码器，大幅减小网络，使网络更容易收敛。经过研究，该变体飞行器的气动性能比传统飞行器更优秀，能较好的实现路径跟踪并且能稳定实现急升急转动作。
[0126]
本发明实施例具有如下有益效果：
[0127]
1、通常飞行器的运动学和动力学方程用气动特性来直接给出，本发明实施例能够克服变体飞行器很难通过空气动力学参数分析建模的缺点，实现在没有飞行器的气动数据的情况下，设计了一种框架来分析变体飞行器的运动。通过该框架，可以进行变体飞行器的设计、分析和控制，适应飞行器变形过程带来系统多模态、强非线性和强耦合的特点，可在复杂的控制下选出最优的控制策略，保证飞行稳定性。
[0128]
2、在控制飞行器进行轨迹跟踪时，用编码器的方法缩小了值函数网络，使训练时深度学习网络收敛的速度加快，实现了比较理想的轨迹跟踪效果。使用编码器减小动作空间，有助于加速训练收敛的同时，能规避飞行器做出可能导致飞行器失速的反常的动作。
[0129]
在任务设计的合理的情况下，飞行器能合理做出变形。
[0130]
3、通过强化学习的方法控制飞行器，可以将需要考虑的因素输入到深度学习网络中，并给定奖励值，比用传统优化方法设计过多等式或不等式更简便。
[0131]
本发明实施例还具有如下特点：
[0132]
1、根据不同任务，缩小动作空间的编码器；
[0133]
2、变体飞行器的建模方法和仿真数据生成方法；
[0134]
3、30种变构型下的变体飞行器深度强化学习控制方法。
[0135]
附录
[0136]
[0137][0138]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

技术特征：
1.一种基于深度强化学习的变体飞行器鲁棒控制方法，其特征在于，包括如下步骤：s1、建立变体飞行器的cad模型，然后仿真得到飞行器气动数据，根据得到的数据，对飞行器的运动学和动力学方程进行求解，完成变体飞行器运动的物理模型搭建；s2、使用dqn(deep q-learning)算法进行变体飞行器变形和运动控制的深度强化学习，训练值函数网络；s3、根据训练好的值函数网络构建智能体，通过所述智能体对变体飞行器的控制作出合理决策。2.如权利要求1所述的变体飞行器鲁棒控制方法，其特征在于，步骤s1中，通过catia软件建立所述变体飞行器的cad模型，然后fluent软件仿真得到所述飞行器气动数据。3.如权利要求2所述的变体飞行器鲁棒控制方法，其特征在于，步骤s1中，建模时，忽略所述变体飞行器的副翼和引擎，视为平衡受力、保持飞行器速度方向的模型，而所述变体飞行器的机翼和尾翼上有可变形部分，所述机翼上的可变部分进行变形时大小相等，方向相反，所述尾翼上的可变部分进行变形时大小相等，方向相同；其中，由机翼的变形、水平尾翼的变形以及速度的改变三者来组合成不同的动作。4.如权利要求3所述的变体飞行器鲁棒控制方法，其特征在于，所述变体飞行器的机翼可变形的角度为[-18
°
,-13.5
°
,-9
°
,-4.5
°
,0
°
,4.5
°
,9
°
,13.5
°
,18
°
]，所述变体飞行器的尾翼可变形的角度为[0
°
,3
°
,6
°
,9
°
,12
°
,15
°
]。不同的变形角度组合共30种。5.如权利要求3所述的变体飞行器鲁棒控制方法，其特征在于，步骤s1中，假设飞行器的速度方向始终与x轴方向相同，即航迹坐标系与机体坐标系方向相同，根据不同变形角度组合，用fluent模块测出多种速度时飞行器在xyz三个轴向上的受力、三个轴向对于质心的和力矩数据；飞行器转动惯量j的估算为：其中w为飞行器质量，l
a
为飞行器总长，为机体坐标系y轴方向上无量纲回转半径；飞行器力矩m、角加速度α和角速度ω为：m＝j
×
a
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)(2)其中t为时间；原坐标系绕x，y轴转过角的转换矩阵分别为：
其中，飞行器飞行时，等效为先使机翼形变使飞行器绕x轴旋转，再变形尾翼，实现飞行器的变向；旋转后的坐标为:旋转前的坐标为:若飞行器先绕x轴旋转ξ弧度，再绕y轴旋转η弧度，有：航迹坐标系下的x轴方向在地面坐标系上的投影[x',y',z']为：航迹偏角χ和倾角γ为：航迹偏角χ和倾角γ为：飞行器的速度v在地面坐标系ox
g
y
g
z
g
的三个速度分量为：的三个速度分量为：的三个速度分量为：对所述三个速度分量分别求积分，确定飞行器的位置，根据得到的数据，搭建出所述变体飞行器运动的物理模型。6.如权利要求3所述的变体飞行器鲁棒控制方法，其特征在于，步骤s2中，在进行变体飞行器的轨迹跟踪训练时，使用编码器的方法缩小所述值函数网络的动作空间，使训练时深度学习网络收敛的速度加快。7.如权利要求3所述的变体飞行器鲁棒控制方法，其特征在于，步骤s2中，所述深度强化学习包括：以获得一个周期内的目标轨迹为任务，飞行器的状态为14维，包括飞行器飞行
的目标与当前位置的比值、飞行器的偏角、飞行器的倾角、飞行器的角速度、飞行器机翼位姿、飞行器尾翼位姿、飞行器当前的坐标，飞行器下一秒目标坐标；飞行器在飞行的一个周期内执行特定的三种动作，其中二种动作由飞行任务经过编码器从机翼的变形、水平尾翼的变形以及速度的改变三者组合形成的26种不同动作中选出，再和飞行器不变形的动作组成三种动作；优选地，选择机翼变形和尾翼变形相反的动作；由此，对搭建好的飞行器物理模型进行操作来获得路径数据。8.如权利要求7所述的变体飞行器鲁棒控制方法，其特征在于，设置任务的周期为30s，动作的步长为1s，通过不同的飞行任务，用所述编码器缩小动作空间。9.如权利要求3所述的变体飞行器鲁棒控制方法，其特征在于，所述深度强化学习包括：用取得的路径放入状态(state)里的相应位置，进行强化学习训练；在每一次探索(episode)中，首先重置环境，使飞行器出现在路径的初始位置，然后根据值函数网络选择出值最大的动作；有(1-greedy)概率随机选取动作，在达到预定的探索次数前，greedy以小于1的值线性增加，之后取1；如果采取完动作的状态没有使飞行器的加速度过大，与环境交互，将状态-动作-奖励-下一状态的数组存入寄存器；否则，随机从剩下的动作选取一个，与环境交互后存入；当存入寄存器超过预定量的内容时，以设定的更新频率、学习率和奖励折扣训练值函数网络；直至完成预定的探索次数。10.如权利要求9所述的变体飞行器鲁棒控制方法，其特征在于，根据生成的路线和动作的关系完成一个编码器，通过所述编码器，能够确定飞行器是通过何种动作的组合飞出给定的轨迹。

技术总结
本发明公开了一种基于深度强化学习的变体飞行器鲁棒控制方法，包括如下步骤：S1、建立变体飞行器的CAD模型，然后仿真得到飞行器气动数据，根据得到的数据，对飞行器的运动学和动力学方程进行求解，完成变体飞行器运动的物理模型搭建；S2、使用DQN算法进行变体飞行器变形和运动控制的深度强化学习，训练值函数网络；S3、根据训练好的值函数网络构建智能体，通过所述智能体对变体飞行器的控制作出合理决策；本发明能够对变体飞行器进行变形设计、分析和控制；在任务设计的合理的情况下，使飞行器能合理做出变形，适应飞行器变形过程带来系统多模态、强非线性和强耦合的特点，可在复杂的控制下选出最优的控制策略，保证飞行稳定性。性。性。

技术研发人员：王学谦谭俊波杨智程梁斌
受保护的技术使用者：清华大学深圳国际研究生院
技术研发日：2023.03.21
技术公布日：2023/8/9

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

一种基于深度强化学习的变体飞行器鲁棒控制方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度强化学习的变体飞行器鲁棒控制方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表