基于强化学习的航天器容错控制方法

未命名 08-02 阅读:162 评论:0

基于强化学习的航天器容错控制方法
【技术领域】
1.本发明针对存在执行机构故障和模型不确定的刚性航天器,提出一种基于强化学习的航天器容错控制方法,实现复杂情况下的姿态稳定控制,本发明属于航天器姿态控制领域。


背景技术:

2.如今人类日常生活与航天器的联系日益紧密,保证在轨航天器的正常运行变得极其重要。而航天器快速发展的同时也面临着系统故障、模型不确定性和时间延迟等挑战。据不完全统计,在所有航天器分系统中,控制系统故障的比例达到了16%,在轨航天器由于执行机构故障而失效的实例也时有发生,比较典型的案例有1996年美国导航卫星gps bii-7由于第二个反作用轮故障导致卫星无法实现对地三轴稳定。为了减小执行机构故障的不利影响,研究航天器容错控制具有重要意义。
3.容错控制的思想起源于1971年niederlinski首次提出的完整性控制,具有自动适应组件故障能力的控制系统称为容错控制系统,即系统在发生故障时能够保持整体稳定性,并且在性能退化的基础之上获得可以接受的性能水平。根据处理故障方式的不同,容错控制分为被动容错控制和主动容错控制。被动容错控制设计得到的控制器结构和参数固定,在面对预设故障时的控制效果较好;主动容错控制在鲁棒性较强的控制器上加入重构控制方案,通过直接或间接获得的故障信息,能够在线处理更多的故障类型。
4.目前大部分航天器容错控制研究中控制器的设计多采用状态反馈、输出反馈以及滑模控制、反步控制等非线性控制方法,属于控制理论中的古典控制和现代控制,使用该类方法设计得到的控制器对模型的依赖性较强,并且难以根据模型的变化自动进行调整。虽然自适应技术的加入能够提升控制器对于环境的适应能力,进而提高控制器的鲁棒性,但是其设计缺乏系统性,无法定义控制目标,不具备自主优化的能力。如何通过具备自主调整能力的控制方法进行容错控制器的设计,从而提高控制性能和航天器的可靠性,目前仍没有很好的解决办法。


技术实现要素:

5.本发明提出一种基于强化学习的航天器容错控制方法,通过预设性能方法、滑模控制方法和强化学习算法,实现存在执行机构故障和模型不确定性的航天器的姿态稳定控制。
6.针对上述问题,本发明技术方案如下:
7.首先建立存在执行机构故障和模型不确定的航天器系统模型,包括姿态运动学方程、姿态动力学方程和执行机构及其故障模型;然后根据姿态四元数和姿态角速度建立滑模变量,基于预设性能方法和扩张状态观测器设计航天器容错控制器,保证姿态控制系统的稳定性,同时使得系统的暂态和稳态响应满足一定的条件约束;接着定义由控制性能和控制消耗加权的代价函数,以减小代价函数为目标,设计强化学习算法实时调整控制参数,
实现对控制性能和控制消耗的在线调整,提高控制器的自适应能力。具体的操作步骤如下
8.步骤1:建立刚性航天器存在执行机构故障和模型不确定时的姿态运动学方程及姿态动力学方程。具体包括如下步骤:
9.步骤1.1:定义坐标系
10.a.惯性坐标系si(oixiyizi)
11.惯性坐标系的原点oi位于地心,xi轴指向春分点,zi轴垂直地球赤道平面指向地球北极,yi轴位于赤道地球赤道平面,其方向通过右手定则确定。
12.b.轨道坐标系so(oox
oyozo
)
13.轨道坐标系原点oo位于航天器质心,zo轴指向地心,xo轴位于轨道平面,且垂直于zo轴,yo轴垂直于轨道平面,其方向通过右手定则确定。
14.c.本体坐标系sb(obxbybzb)
15.本体坐标系原点ob位于航天器质心,xb轴沿主刚体的纵轴,yb轴沿主刚体的横轴,指向右,zb轴通过右手定则确定。
16.步骤1.2:航天器系统模型建立
17.步骤1.2.1:建立姿态运动学方程及动力学方程
18.姿态运动学方程:
[0019][0020]
其中,ωb为航天器本体坐标系相对惯性坐标系的角速度在本体坐标系中的分量列阵,为航天器本体坐标系相对惯性坐标系的四元数,q
b0
和qb分别为qb的标量部分和矢量部分,和分别为q
b0
和qb关于时间的导数,i3为3阶单位矩阵,为qb的叉乘反对称矩阵。对于任意一个三维列阵y=[y
1 y
2 y3]
t
,其叉乘反对称矩阵y
×
为:
[0021][0022]
姿态动力学方程:
[0023][0024]
其中,i
b0
为航天器名义转动惯量,δib为未知转动惯量,为ωb关于时间的导数,为ωb的叉乘反对称矩阵,tc为作用在航天器上的控制力矩,td为干扰力矩。航天器的模型不确定性主要体现在未知转动惯量δib和干扰力矩td。
[0025]
进一步整理为:
[0026][0027]
其中,为惯量不确定性产生的未知力矩。
[0028]
步骤1.2.2:执行机构及其故障建模
[0029]
实际作用在航天器的控制力矩通过执行机构产生,具有一般性质的执行机构数学模型可表示为:
[0030]
tc=cu
ꢀꢀꢀꢀ
(4)
[0031]
其中,c为执行机构的安装矩阵,u=[u
1 u2…
un]
t
为n个执行机构的实际输出力矩形成的列向量,ui为第i个执行机构的实际输出力矩。
[0032]
航天器在轨运行的过程面临着复杂的空间环境,执行机构故障、老化的概率大大增加,导致执行机构产生的实际控制力矩和期望控制力矩并不相等,严重影响航天器的控制性能和寿命。为此建立如下所示的执行机构故障模型:
[0033][0034]
其中,uc为执行机构的指令控制力矩,通过姿态控制律和操纵律设计得到;e=diag(e
1 e2…en
)为n个执行机构的失效系数所构成的对角矩阵,ei∈[0,1]为第i个执行机构的失效系数;为n个执行机构的加性偏差故障形成的列向量,为第i个执行机构的加性偏差故障;in表示n阶单位矩阵。
[0035]
步骤1.2.3:推导故障模式下的姿态动力学方程
[0036]
执行机构故障主要对作用在航天器的三轴力矩产生影响,直接改变航天器的姿态角速度,进而改变航天器的姿态。因此执行机构故障主要影响航天器的姿态动力学方程,而对于航天器的姿态运动学方程没有影响。
[0037]
将式(4)和(5)带入式(3),得到故障下的姿态动力学方程为:
[0038][0039]
其中,t
cf
=cuc表示执行机构无故障下的输出力矩,表示执行机构故障产生的额外控制力矩,两者相加即为执行机构实际输出的控制力矩tc。
[0040]
步骤2:基于航天器在轨运行的实际特点,应用本发明基于如下假设:
[0041]
假设1:航天器运行过程中受到的干扰力矩有界,即:||td||<t
dmax
;且加性偏差故障也存在上界,其中||
·
||表示矩阵或向量的2-范数,为未知常数。
[0042]
假设2:航天器转动惯量为正定对称矩阵。
[0043]
假设3:本发明不考虑执行机构失效故障导致航天器成为欠驱动航天器的情况,即至少有3个执行机构不是完全失效,可以用下面的表达式来表示:
[0044]
rank(c(i
n-e))=3
ꢀꢀꢀꢀ
(7)
[0045]
其中,rank(
·
)表示矩阵的秩。
[0046]
假设4:环境干扰力矩、执行机构故障以及惯量不确定性引起的总扰动的微分存在上界。
[0047]
步骤3:基于强化学习的容错控制律设计。具体包括如下步骤:
[0048]
步骤3.1:定义滑模变量
[0049]
选用如下所示的滑模变量:
[0050]
s=ωb+k0qbꢀꢀꢀꢀ
(8)
[0051]
其中,k0>0,为设计者给定常数。结合式(1),当s

0时,s=ωb→
0,qb→
0。
[0052]
步骤3.2:预设性能约束及误差转换
[0053]
假设滑模变量的各个分量sj(j=1,2,3)满足以下控制约束:
[0054][0055]
其中,δj和为正常数,表示超调抑制参数;表示预设性能函数,ρ
j0

j∞
,hj均为大于零的参数。
[0056]
为了简化控制器的设计,进行如下所示的误差转换:
[0057][0058]
其中,εj为转换误差,lj=sj(t)/ρj(t),j=1,2,3。
[0059]
在经过误差转换之后,只需要保证转换误差εj有界即可保证滑模变量满足控制约束,并且当εj趋于0时,sj也趋于0。
[0060]
由式(10)可得转换误差εj的微分方程:
[0061][0062]
其中,
[0063]
令e=[ε
1 ε
2 ε3]
t
,则有:
[0064][0065]
其中,ξ=diag(ξ
1 ξ
2 ξ3),
[0066]
步骤3.3:扩张状态观测器设计
[0067]
令x1=i
b0
ωb,x2=td+tf+t
δ
为环境干扰力矩、执行机构故障以及惯量不确定性引起的总扰动,则航天器的姿态动力学方程可改写为:
[0068][0069]
其中,w(t)表示系统总扰动的微分。
[0070]
采用如下形式的扩张状态观测器估计总扰动:
[0071][0072]
其中,和分别表示x1和x2的估计值;和分别表示状态量x1和x2的估计误差;α1和α2为可调的观测器增益;g(x)=[g(x1) g(x2)

g(xn)]
t
,g(x)为适当构造的偶函数,在此选为:
[0073]
[0074]
其中,δ>0,0<β≤1为可调参数;sgn()为符号函数。
[0075]
步骤3.4:控制律初步设计
[0076]
选用如下控制律:
[0077][0078]
其中,tw为航天器的三轴期望控制力矩,k>0为控制参数。
[0079]
执行机构指令控制力矩为:
[0080]
uc=c
+
twꢀꢀꢀꢀ
(17)
[0081]
其中,c
+
=c
t
(cc
t
)-1
表示矩阵c的伪逆。
[0082]
由式(13)和(14)可得观测误差的动态方程为:
[0083][0084]
当观测器稳定时,有等式和成立,因此观测器的估计误差为:
[0085][0086]
由式(19)可知,当系统总扰动的微分w(t)有界时,观测器的估计误差也是有界的,总扰动估计误差的大小可以通过参数α1,α2和函数g(x)的参数进行调整。
[0087]
将lyapunov函数v取为:
[0088][0089]
对lyapunov函数v求时间导数,结合式(12)、(16)有:
[0090][0091]
其中,λ
min
(
·
)和λ
max
(
·
)分别表示矩阵最小和最大的特征值,b为任意大于零的常数,
[0092]
从式(21)中可知lyapunov函数v是有界的,进一步由稳定性定理可知,e是有界稳定的;由于e有界,即对εj有界,因此滑模变量sj满足预设性能约束,故滑模变量sj有界;进而有qb和ωb均有界稳定。
[0093]
步骤3.5:基于强化学习的参数调整算法设计
[0094]
上述控制律中控制参数通常在控制器设计时就已经确定,在整个控制过程中不发生改变,导致控制器的灵活性较差,一定程度上限制了其自适应性。下面通过强化学习算法实现对控制参数的实时调整。具体包括如下步骤:
[0095]
步骤3.5.1:奖励函数及代价函数设计
[0096]
定义如下所示的收益或者奖励函数:
[0097][0098]
其中,表示航天器的状态变量,为qb和ωb构成的列向量;tw为期望控制力矩;q和r为待定的正定矩阵,表示控制性能和控制消耗的权重。
[0099]
定义如下所示的离散形式的代价(价值)函数j:
[0100]
j(t)=r(t)+γr(t+δt)+γ2r(t+2δt)+
…ꢀꢀꢀꢀ
(23)
[0101]
其中,γ为折扣因子;t为仿真时刻;δt为仿真步长。
[0102]
步骤3.5.2:评判网络及参数更新律设计
[0103]
评判网络用于近似最优的代价函数j1(t),采用神经网络实现:
[0104][0105]
其中,z=[x
t a]
t
为评判网络的输入,为评判网络参数,是最优评判网络参数wc的估计值,σc为评判网络的激活函数,在此选为如下形式前馈神经网络:
[0106][0107]
其中,为评判网络激活函数的权值向量,tanh为双曲正切函数。
[0108]
评判网络参数的更新律为:
[0109][0110]
其中,αc为评判网络的学习率,为评判网络的时序差分误差,σc=σc(z)为评判网络激活函数的输出。
[0111]
步骤3.5.3:动作网络及参数更新律设计
[0112]
动作网络用于近似最优的控制策略,同样采用神经网络实现:
[0113][0114]
其中,为动作网络参数,是最优动作网络参数wa的估计值,σa为动作网络的激活函数,fa为适当构造的输出层激活函数。σa和fa的表达式为:
[0115][0116][0117]
其中,为动作网络激活函数的权值向量。
[0118]
动作网络参数的更新律为:
[0119][0120]
其中,αa为动作网络的学习率;σa=σa(x)为动作网络激活函数的输出,为常值矩阵,为动作网络输出层激活函数的导数,为评判网络激活函数输出对评判网络输入的偏导数,为动作网络的估计误差。
[0121]
最终将动作网络的输出值作为控制参数即为改进的控制律。
[0122]
本发明设计了一种基于强化学习的航天器姿态容错控制方法,用于解决具有执行机构故障和惯量不确定性的航天器姿态控制问题,其优点主要如下:
[0123]
1)本发明设计的容错控制律不仅能够保证执行机构故障情况下的稳定控制,还能够对控制过程的暂态响应进行约束。
[0124]
2)本发明不需要确切了解故障的先验信息,而是通过扩张状态观测器对故障信息和干扰信息进行实时的估计,在航天器仍然是完全驱动的前提下能够适用于更加多样的故障类型。
[0125]
3)本发明采用了强化学习方法对控制参数进行实时调整,不仅提高了控制器的自适应能力,还能实现对于代价函数的在线优化。
【附图说明】
[0126]
图1为常用坐标系的示意图。
[0127]
图2为基于强化学习的容错控制系统结构示意图。
[0128]
图3为控制律设计流程示意图。
[0129]
图4为姿态四元数矢部-时间曲线图。
[0130]
图5为姿态角速度-时间曲线图。
[0131]
图6为滑模变量-时间曲线图。
[0132]
图7为总扰动估计误差-时间曲线图。
[0133]
图8为控制参数-时间曲线图。
[0134]
图9为代价函数-时间曲线图。
【具体实施方式】
[0135]
下面以某型号的航天器为例,具体说明本发明的实施流程。
[0136]
航天器的实际转动惯量和名义转动惯量分别为:
[0137][0138]
执行机构的安装矩阵为:
[0139][0140]
航天器的初始姿态四元数和角速度分别为qb(0)=[0.9531 0.1 0.15
ꢀ‑
0.12]
t
和ωb(0)=[0.4
ꢀ‑
0.2 0.3]
t
°
/s。
[0141]
航天器所受干扰力矩为:
[0142]
[0143]
执行机构故障设置为:20s时,x轴执行机构同时发生失效和偏差故障,其中失效系数为e1=0.5,偏差故障大小为
[0144]
下面开始设置控制律对航天器的姿态进行控制。
[0145]
1、建立刚性航天器存在执行机构故障和模型不确定时的姿态运动学方程及姿态动力学方程。具体包括如下步骤:
[0146]
1.1定义坐标系:按照步骤1.1定义惯性坐标系、轨道坐标系和本体坐标系。
[0147]
1.2航天器系统模型建立
[0148]
1.2.1建立姿态运动学方程及动力学方程
[0149]
姿态运动学方程:
[0150][0151]
姿态动力学方程:
[0152][0153]
1.2.2执行机构及其故障建模
[0154]
执行机构数学模型为:
[0155]
tc=cu
ꢀꢀꢀꢀ
(33)
[0156]
执行机构故障模型为:
[0157][0158]
其中e=diag(e
1 e2…en
)为失效系数矩阵,为加性偏差故障。
[0159]
1.2.3推导故障模式下的姿态动力学方程
[0160]
故障下的姿态动力学方程为:
[0161][0162]
其中,t
cf
=cuc表示执行机构无故障下的输出力矩,表示执行机构故障产生的额外控制力矩,两者相加即为执行机构实际输出的控制力矩tc。
[0163]
2、基于航天器在轨运行的实际特点,应用本发明基于如下假设:
[0164]
假设1:航天器运行过程中受到的干扰力矩有界,即:||td||<t
dmax
;且加性偏差故障也存在上界,其中||
·
||表示矩阵或向量的2-范数,为未知常数。
[0165]
假设2:航天器转动惯量为正定对称矩阵。
[0166]
假设3:本发明不考虑执行机构失效故障导致航天器成为欠驱动航天器的情况,即至少有3个执行机构不是完全失效,可以用下面的表达式来表示:
[0167]
rank(c(i
n-e))=3
ꢀꢀꢀꢀ
(36)
[0168]
其中,rank(
·
)表示矩阵的秩。
[0169]
假设4:环境干扰力矩、执行机构故障以及惯量不确定性引起的总扰动的微分存在上界。
[0170]
3、基于强化学习的容错控制律设计。具体包括如下步骤:
[0171]
3.1定义滑模变量
[0172]
选用如下所示的滑模变量:
[0173]
s=ωb+k0qbꢀꢀꢀꢀ
(37)
[0174]
其中,k0>0,为设计者给定常数。本例中选为k0=1。
[0175]
3.2预设性能约束及误差转换
[0176]
假设滑模变量的各个分量sj(j=1,2,3)满足以下控制约束:
[0177][0178]
其中,δj和为正常数,表示超调抑制参数;表示预设性能函数,ρ
j0

j∞
,hj均为大于零的参数。本例中参数具体选为:ρ
j0
=0.5,ρ
j∞
=10-3
,hj=0.2,j=1,2,3。
[0179]
为了简化控制器的设计,进行如下所示的误差转换:
[0180][0181]
其中,εj为转换误差,lj=sj(t)/ρj(t),j=1,2,3。
[0182]
在经过误差转换之后,只需要保证转换误差εj有界即可保证滑模变量满足控制约束,并且当εj趋于0时,sj也趋于0。
[0183]
由式(39)可得转换误差εj的微分方程:
[0184][0185]
其中,
[0186]
令e=[ε
1 ε
2 ε3]
t
,则有:
[0187][0188]
其中,ξ=diag(ξ
1 ξ
2 ξ3),
[0189]
3.3扩张状态观测器设计
[0190]
令x1=i
b0
ωb,x2=td+tf+t
δ
为环境干扰力矩、执行机构故障以及惯量不确定性引起的总扰动,则航天器的姿态动力学方程可改写为:
[0191][0192]
其中,w(t)表示系统总扰动的微分。
[0193]
采用如下形式的扩张状态观测器估计总扰动:
[0194][0195]
其中,和分别表示x1和x2的估计值;和分别表示状态量x1和x2的估计误差;α1和α2为可调的观测器增益;g(x)=[g(x1) g(x2)

g(xn)]
t
,g(x)为适当构造的偶函数,在此选为:
[0196][0197]
其中,δ>0,0<β≤1为可调参数;sgn(
·
)为符号函数。
[0198]
本例中上述参数具体选为:β=0.5,α1=40,α2=100,δ=0.01。观测器的初值为:x1(0)=i
b0
ωb(0),x2(0)=0。
[0199]
3.4控制律初步设计
[0200]
选用如下控制律:
[0201][0202]
其中,tw为航天器的三轴期望控制力矩,k>0为控制参数。
[0203]
执行机构指令控制力矩为:
[0204]
uc=c
+
twꢀꢀꢀꢀ
(46)
[0205]
其中,c
+
=c
t
(cc
t
)-1
表示矩阵c的伪逆。
[0206]
由式(42)和(43)可得观测误差的动态方程为:
[0207][0208]
当观测器稳定时,有等式和成立,因此观测器的估计误差为:
[0209][0210]
由式(48)可知,当系统总扰动的微分w(t)有界时,观测器的估计误差也有界。
[0211]
将lyapunov函数v取为:
[0212][0213]
对lyapunov函数v求时间导数,结合式(41)、(45)有:
[0214][0215]
其中,λ
min
(
·
)和λ
max
(
·
)分别表示矩阵最小和最大的特征值,b为任意大于零的常
数,
[0216]
从式(50)中可知lyapunov函数v是有界的,进一步由稳定性定理可知,e是有界稳定的;由于e有界,即对εj有界,因此滑模变量sj满足预设性能约束,故滑模变量sj有界;进而有qb和ωb均有界稳定。
[0217]
3.5基于强化学习的参数调整算法设计
[0218]
上述控制律中控制参数通常在控制器设计时就已经确定,在整个控制过程中不发生改变,导致控制器的灵活性较差,一定程度上限制了其自适应性。下面通过强化学习算法实现对控制参数的实时调整。具体包括如下步骤:
[0219]
3.5.1奖励函数及代价函数设计
[0220]
定义如下所示的收益或者奖励函数:
[0221][0222]
其中,表示航天器的状态变量,为qb和ωb构成的列向量;tw为期望控制力矩;q和r为待定的正定矩阵,表示控制性能和控制消耗的权重。本例中q1=i6,r1=0.01i3。
[0223]
定义如下所示的离散形式的代价(价值)函数j:
[0224]
j(t)=r(t)+γr(t+δt)+γ2r(t+2δt)+
…ꢀꢀꢀꢀ
(52)
[0225]
其中,γ为折扣因子;t为仿真时刻;δt为仿真步长。本例中γ=0.99,δt=0.01s。
[0226]
3.5.2评判网络及参数更新律设计
[0227]
评判网络用于近似最优的代价函数j1(t),采用神经网络实现:
[0228][0229]
其中,z=[x
t a]
t
为评判网络的输入,为评判网络参数,是最优评判网络参数wc的估计值,σc为评判网络的激活函数,在此选为如下形式前馈神经网络:
[0230][0231]
其中,为评判网络激活函数的权值向量,tanh为双曲正切函数。
[0232]
评判网络参数的更新律为:
[0233][0234]
其中,αc为评判网络的学习率,为评判网络的时序差分误差,σc=σc(z)为评判网络激活函数的输出。
[0235]
上述参数选为:αc=0.15,评判网络激活函数的输出均为10维,在[-0.2,0.2]之间随机选取,并且该参数在学习过程中保持不变;评判网络的初始参数为零。每个仿真步长中,评判网络参数的更新迭代次数上限为30,可容许误差选为10-8

[0236]
3.5.3动作网络及参数更新律设计
[0237]
动作网络用于近似最优的控制策略,同样采用神经网络实现:
[0238][0239]
其中,为动作网络参数,是最优动作网络参数wa的估计值,σa为动作网络的激活函数,fa为适当构造的输出层激活函数。σa和fa的表达式为:
[0240][0241][0242]
其中,为动作网络激活函数的权值向量。
[0243]
动作网络参数的更新律为:
[0244][0245]
其中,αa为动作网络的学习率;σa=σa(x)为动作网络激活函数的输出,为常值矩阵,为动作网络输出层激活函数的导数,为评判网络激活函数输出对评判网络输入的偏导数,为动作网络的估计误差。
[0246]
上述参数选为:αa=0.15,动作网络激活函数的输出为10维,在[-0.2,0.2]之间随机选取,并且该参数在学习过程中保持不变;动作网络的初始参数为零。每个仿真步长中,动作网络参数的更新迭代次数上限为30,可容许误差选为10-8

[0247]
最终将动作网络的输出值作为控制参数即为改进的控制律。
[0248]
从图4至图6不难看出,即使航天器存在执行机构故障和模型不确定性,本发明提出的基于强化学习的容错控制方法能够实现姿态的稳定控制,并且整个控制过程中滑模变量始终在预设性能函数范围之内变化,具有较好的暂态响应。图7则说明本发明设计的扩张状态观测器能够较为快速和准确的估计出总扰动的大小,从而处理执行机构故障和模型不确定性。图8和图9表明在使用强化学习算法之后,控制算法能够实时调整,从而实现对代价函数的优化。
[0249]
本发明提出的基于强化学习的容错控制方法具有如下特征:不需要知道故障的先验知识即可实现航天器姿态的稳定控制,并且能够保证控制过程中的暂态响应满足设计要求;强化学习算法的加入使得控制算法的自适应能力更强,并且具有一定的优化能力。

技术特征:
1.一种基于强化学习的航天器容错控制方法,其特征在于:步骤如下:步骤1:建立刚性航天器存在执行机构故障和模型不确定时的姿态运动学方程及姿态动力学方程;具体包括如下步骤:步骤1.1:定义坐标系a.惯性坐标系s
i
(o
i
x
i
y
i
z
i
)惯性坐标系的原点o
i
位于地心,x
i
轴指向春分点,z
i
轴垂直地球赤道平面指向地球北极,y
i
轴位于赤道地球赤道平面,其方向通过右手定则确定;b.轨道坐标系s
o
(o
o
x
o
y
o
z
o
)轨道坐标系原点o
o
位于航天器质心,z
o
轴指向地心,x
o
轴位于轨道平面,且垂直于z
o
轴,y
o
轴垂直于轨道平面,其方向通过右手定则确定;c.本体坐标系s
b
(o
b
x
b
y
b
z
b
)本体坐标系原点o
b
位于航天器质心,x
b
轴沿主刚体的纵轴,y
b
轴沿主刚体的横轴,指向右,z
b
轴通过右手定则确定;步骤1.2:航天器系统模型建立步骤1.2.1:建立姿态运动学方程及动力学方程姿态运动学方程:其中,ω
b
为航天器本体坐标系相对惯性坐标系的角速度在本体坐标系中的分量列阵,为航天器本体坐标系相对惯性坐标系的四元数,q
b0
和q
b
分别为q
b
的标量部分和矢量部分,和分别为q
b0
和q
b
关于时间的导数,i3为3阶单位矩阵,为q
b
的叉乘反对称矩阵;对于任意一个三维列阵y=[y
1 y
2 y3]
t
,其叉乘反对称矩阵y
×
为:姿态动力学方程:其中,i
b0
为航天器名义转动惯量,δi
b
为未知转动惯量,为ω
b
关于时间的导数,为ω
b
的叉乘反对称矩阵,t
c
为作用在航天器上的控制力矩,t
d
为干扰力矩;航天器的模型不确定性体现在未知转动惯量δi
b
和干扰力矩t
d
;步骤1.2.2:执行机构及其故障建模实际作用在航天器的控制力矩通过执行机构产生,执行机构数学模型表示为:t
c
=cu
ꢀꢀꢀꢀꢀꢀ
(3)其中,c为执行机构的安装矩阵,u=[u
1 u2ꢀ…ꢀ
u
n
]
t
为n个执行机构的实际输出力矩形成的列向量,u
i
为第i个执行机构的实际输出力矩;
执行机构产生的实际控制力矩和期望控制力矩并不相等,影响航天器的控制性能和寿命;需要建立如下所示的执行机构故障模型:其中,u
c
为执行机构的指令控制力矩,通过姿态控制律和操纵律设计得到;e=diag(e
1 e2ꢀ…ꢀ
e
n
)为n个执行机构的失效系数所构成的对角矩阵,e
i
∈[0,1]为第i个执行机构的失效系数;为n个执行机构的加性偏差故障形成的列向量,为第i个执行机构的加性偏差故障;i
n
表示n阶单位矩阵;步骤1.2.3:推导故障模式下的姿态动力学方程执行机构故障对作用在航天器的三轴力矩产生影响,直接改变航天器的姿态角速度,进而改变航天器的姿态;因此执行机构故障影响航天器的姿态动力学方程,而对于航天器的姿态运动学方程没有影响;将式(4)和(5)带入式(3),得到故障下的姿态动力学方程为:其中,t
cf
=cu
c
表示执行机构无故障下的输出力矩,表示执行机构故障产生的额外控制力矩,两者相加即为执行机构实际输出的控制力矩t
c
;步骤2:基于航天器在轨运行的实际特点,提出如下假设:假设1:航天器运行过程中受到的干扰力矩有界,即:||t
d
||<t
dmax
;且加性偏差故障也存在上界,其中||
·
||表示矩阵或向量的2-范数,t
dmax
,为未知常数;假设2:航天器转动惯量为正定对称矩阵;假设3:不考虑执行机构失效故障导致航天器成为欠驱动航天器的情况,即至少有3个执行机构不是完全失效,用下面的表达式来表示:rank(c(i
n-e))=3
ꢀꢀꢀꢀꢀ
(6)其中,rank()表示矩阵的秩;假设4:环境干扰力矩、执行机构故障以及惯量不确定性引起的总扰动的微分存在上界;步骤3:基于强化学习的容错控制律设计;具体包括如下步骤:步骤3.1:定义滑模变量选用如下所示的滑模变量:s=ω
b
+k0q
b
ꢀꢀꢀꢀꢀꢀ
(7)其中,k0>0,为设计者给定常数;结合式(1),当s

0时,s=ω
b

0,q
b

0;步骤3.2:预设性能约束及误差转换假设滑模变量的各个分量s
j
满足以下控制约束,j=1,2,3:其中,δ
j
和为正常数,表示超调抑制参数;表示预设性能函数,ρ
j0

j∞
,h
j
均为大于零的参数;为了简化控制器的设计,进行如下所示的误差转换:
其中,ε
j
为转换误差,l
j
=s
j
(t)/ρ
j
(t),j=1,2,3;在经过误差转换之后,只需要保证转换误差ε
j
有界即保证滑模变量满足控制约束,并且当ε
j
趋于0时,s
j
也趋于0;步骤3.3:扩张状态观测器设计令x1=i
b0
ω
b
,x2=t
d
+t
f
+t
δ
为环境干扰力矩、执行机构故障以及惯量不确定性引起的总扰动,则航天器的姿态动力学方程改写为:其中,w(t)表示系统总扰动的微分;采用如下形式的扩张状态观测器估计总扰动:其中,和分别表示x1和x2的估计值;和分别表示状态量x1和x2的估计误差;α1和α2为可调的观测器增益;g(x)=[g(x1) g(x2)
ꢀ…ꢀ
g(x
n
)]
t
,g(x)为适当构造的偶函数,步骤3.4:控制律初步设计选用如下控制律:其中,t
w
为航天器的三轴期望控制力矩,k>0为控制参数;执行机构指令控制力矩为:u
c
=c
+
t
w
ꢀꢀꢀꢀꢀꢀ
(13)其中,c
+
=c
t
(cc
t
)-1
表示矩阵c的伪逆;步骤3.5:基于强化学习的参数调整算法设计通过强化学习算法实现对控制参数的实时调整;具体包括如下步骤:步骤3.5.1:奖励函数及代价函数设计定义如下收益或者奖励函数:其中,表示航天器的状态变量,为q
b
和ω
b
构成的列向量;t
w
为期望控制力矩;q和r为待定的正定矩阵,表示控制性能和控制消耗的权重;定义如下所示的离散形式的代价函数j:j(t)=r(t)+γr(t+δt)+γ2r(t+2δt)+
…ꢀꢀꢀ
(15)其中,γ为折扣因子;t为仿真时刻;δt为仿真步长;步骤3.5.2:评判网络及参数更新律设计
评判网络用于近似最优的代价函数j1(t),采用神经网络实现:其中,z=[x
t a]
t
为评判网络的输入,为评判网络参数,是最优评判网络参数w
c
的估计值,σ
c
为评判网络的激活函数,在此选为如下形式前馈神经网络:其中,为评判网络激活函数的权值向量,tanh为双曲正切函数;评判网络参数的更新律为:其中,α
c
为评判网络的学习率,为评判网络的时序差分误差,σ
c
=σ
c
(z)为评判网络激活函数的输出;步骤3.5.3:动作网络及参数更新律设计动作网络用于近似最优的控制策略,同样采用神经网络实现:其中,为动作网络参数,是最优动作网络参数w
a
的估计值,σ
a
为动作网络的激活函数,f
a
为适当构造的输出层激活函数;σ
a
和f
a
的表达式为:的表达式为:其中,为动作网络激活函数的权值向量;动作网络参数的更新律为:其中,α
a
为动作网络的学习率;σ
a
=σ
a
(x)为动作网络激活函数的输出,为常值矩阵,为动作网络输出层激活函数的导数,为评判网络激活函数输出对评判网络输入的偏导数,为动作网络的估计误差;最终将动作网络的输出值作为控制参数即为改进的控制律。2.根据权利要求1所述的一种基于强化学习的航天器容错控制方法,其特征在于:在步骤1.2.1中,进一步整理为:其中,为惯量不确定性产生的未知力矩。3.根据权利要求1所述的一种基于强化学习的航天器容错控制方法,其特征在于:在步骤3.2中,由式(10)得到转换误差ε
j
的微分方程:
其中,令e=[ε
1 ε
2 ε3]
t
,则有:其中,ξ=diag(ξ
1 ξ
2 ξ3),4.根据权利要求1所述的一种基于强化学习的航天器容错控制方法,其特征在于:在步骤3.3中,在此选为:其中,δ>0,0<β≤1为可调参数;sgn()为符号函数。5.根据权利要求1所述的一种基于强化学习的航天器容错控制方法,其特征在于:在步骤3.4中,由式(13)和(14)得到观测误差的动态方程为:当观测器稳定时,有等式和成立,因此观测器的估计误差为:由式(19)得到,当系统总扰动的微分w(t)有界时,观测器的估计误差也是有界的,总扰动估计误差的大小通过参数α1,α2和函数g(x)的参数进行调整。6.根据权利要求3或5所述的一种基于强化学习的航天器容错控制方法,其特征在于:在步骤3.4中,将lyapunov函数v取为:对lyapunov函数v求时间导数,结合式(12)、(16)有:其中,λ
min
(
·
)和λ
max
(
·
)分别表示矩阵最小和最大的特征值,b为任意大于零的常数,从式(21)中得到lyapunov函数v是有界的,e是有界稳定的;由于e有界,即对ε
j
有界,因此滑模变量s
j
满足预设性能约束,故滑模变量s
j
有界;进而有q
b
和ω
b
均有界稳定。

技术总结
本发明提出一种基于强化学习的航天器容错控制方法,通过预设性能方法、滑模控制方法和强化学习算法,实现存在执行机构故障和模型不确定性的航天器的姿态稳定控制。首先建立存在执行机构故障和模型不确定的航天器系统模型,包括姿态运动学方程、姿态动力学方程和执行机构及其故障模型;然后根据姿态四元数和姿态角速度建立滑模变量,基于预设性能方法和扩张状态观测器设计航天器容错控制器,保证姿态控制系统的稳定性,同时使得系统的暂态和稳态响应满足一定的条件约束;接着定义由控制性能和控制消耗加权的代价函数,以减小代价函数为目标,设计强化学习算法实时调整控制参数,实现对控制性能和控制消耗的在线调整,提高控制器的自适应能力。器的自适应能力。器的自适应能力。


技术研发人员:杨绍龙 金磊
受保护的技术使用者:北京航空航天大学
技术研发日:2023.04.19
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐