一种针对双自旋稳定系统的加速集成值迭代控制方法

未命名 09-03 阅读:155 评论:0


1.本发明属于航天器领域。


背景技术:

2.航天器的姿态控制系统是航天器系统中的一个重要组成部分,该系统能够获取并保持航天器在宇宙空间定向以及航天器相对某参考坐标系的姿态,是实现航天器平台标准化的关键技术。因此,设计合适的姿态控制系统对航天器的稳定在轨运行及正常太空载荷工作至关重要,同时也不断吸引着众多学者进行研究讨论。航天器姿态控制中双自旋稳定系统是常用方法之一,其基本原理为保证航天器本体在空间中绕惯量主轴高速旋转并利用陀螺效应保证其对惯性定向,该方法可靠性强,控制系统简单,能够对较大的干扰力矩产生明显的抵御效果,被广泛应用于航天器的姿态控制系统。具有旋转激励的平移振荡器(rotational/translational actuator,rtac)实验最初是作为一个简化的双自旋航天器模型,该系统在数学和定性上与双自旋航天器相当,即它们具有相似的平均方程和表现出相似的动力学行为。因此可以通过对rtac系统进行仿真控制从而实现对双自旋航天器的姿态控制。然而,该系统转动和平动运动是耦合的,内部存在非线性,不确定性及干扰,具有动力学复杂性,因此难以实现该系统的直接优化设计,传统的优化控制方法存在自适应能力差,收敛速度慢,控制效率低等问题。因此,有必要针对rtac系统建立先进的智能优化控制方法。
3.智能优化方法广泛应用于控制论、计算机科学、计算数学等领域。其中,优化思想在基于人工智能的高级控制设计中发挥着重要作用,对构建各种智能系统具有重要意义。然而,与一般的线性情况不同,非线性系统的最优控制往往是难以解决的。强化学习具有主体-环境交互的特点,在进行智能优化设计时与动态规划密切相关。在自适应评价框架中,将强化学习与近似结构相结合,用以近似处理复杂优化问题。近年来,自适应动态规划adaptive dynamic programming(adp)被广泛应用于解决复杂最优控制问题,并在自适应最优控制设计上取得了许多优秀的成果。因此本发明基于adp方法来实现rtac系统的智能控制。adp的核心任务是迭代求解非线性系统的hamilton-jacobi-bellman(hjb)方程。迭代adp算法主要包括值迭代和策略迭代。在策略迭代算法中,要求采用可容许控制策略对迭代算法进行初始化,从而可以保证策略迭代生成的迭代控制策略具有可容许性。但在每次迭代中,策略迭代中采用逐次逼近的方法来进行策略评估,从而引入了额外的计算代价。对于值迭代算法,可以用任意一个正半定代价函数进行初始化,但迭代控制策略的可容许性是未知的,无法保证迭代过程中获得稳定的控制策略。目前,很少有方法能够有效实现迭代adp方法的加速收敛。因此,亟需设计先进的智能优化控制器,在能够获得最优控制策略的前提下,加快代价函数的收敛速度,同时保证系统的稳定性,提高非线性系统的最优控制效率,提升adp方法的控制性能。


技术实现要素:

4.本发明基于迭代自适应评判框架提出一种具有收敛速度保证的集成值迭代方法,来解决非线性系统的智能优化控制问题。重点研究了值迭代方法的收敛速度,提出了一种新颖的集成值迭代方案,通过引入松弛因子,设计自适应调节的松弛函数,可调节迭代过程中代价函数的收敛速度,同时该集成值迭代方案没有引入额外的计算成本,且保证了系统的稳定性。
5.rtac非线性基准问题考虑一个非线性四阶动态系统,其中包含一个平动振荡器和一个离心转动摆球的非线性相互作用。考虑图1所示的平动振荡器,振荡器由一个质量为m的小车组成,由一个刚度为k的线性弹簧连接到固定的墙上。其运动仅限于一维方向,即仅在水平面内,因此引力不起作用,小车的平移位置为q,则可知小车的运动速度为小车的运动加速度为安装在小车中心的摆球可在水平面内旋转,其质量为m,转动的角度为θ,则摆球的转动角速度为摆球转动的角加速度为摆球质心的转动惯量为i,摆球质心与其旋转点的距离为e,n表示施加到摆球上的控制转矩。对于该系统,控制目标是通过给离心转动摆球提供的控制转矩实现振荡器的稳定,设计的控制器需保证内部稳定性,并在控制效果有限的情况下对某些信号具有良好的干扰抑制能力。
6.因此通过机理建模可以得到rtac系统的模型为
[0007][0008]
根据上述rtac系统的模型,设小车的平移位置q、小车的运动速度小球转动的角度θ、以及小球的转动角速度分别为系统状态的四个分量x1、x2、x3、x4,则系统的状态为设施加到小球上的控制转矩n为系统的控制输入u。此外,设为平动和转动运动之间的耦合为已知系统状态所满足的常微分方程则为控制系统的状态方程,将系统状态x的微分形式写为于是可以得到rtac系统的状态方程为:
[0009][0010]
接下来将rtac系统的控制进行研究,即抑制系统的水平振动,将小车的平动位置和摆球转动角度稳定到系统平衡点,使得[x1,x2,x3,x4]
t
=[0,0,0,0]
t
。因此,本发明基于集成值迭代方法实现对rtac系统的稳定控制,关于集成值迭代智能控制设计的详细步骤描述如下:
[0011]
步骤1、问题转化。将rtac系统实现振荡器稳定的问题转化为非线性系统的最优控制问题。通过欧拉方法对rtac系统的状态方程进行离散化,选取离散时间间隔为0.1s,设当
前时刻为k,则离散化后的系统各状态分量表示为x
1k
、x
2k
、x
3k
、x
4k
,相应地下一时刻的系统状态为x
k+1
,系统的控制策略表示为uk,因此可以得到相应的系统状态空间表达式如下:
[0012][0013]
该系统可以看作为一个四阶非线性非仿射系统,即
[0014][0015]
其中,f(
·
,
·
)为连续的系统函数,xk为系统状态向量,代表非负整数集合,即若x0为系统的初始状态,则x0为系统在u=0时的唯一平衡点,即f(0,0)=0,从而意味着存在控制序列能够使得当k

0时系统状态xk→
0。设系统的最优反馈控制策略为u(xk),效用函数为u(xk,u(xk)),选取其为二次型形式,即其中q和r为维数与系统状态和控制相匹配的正定矩阵。设系统的代价函数为v(xk,u(xk)),对于该系统的最优控制问题,其目标是找到合适的反馈控制策略u(xk)使得系统稳定,并最小化如下的无限时间代价函数:
[0016][0017]
其中,u(0,0)=0且在此将系统代价函数v(xk,u(xk))和反馈控制策略u(xk)简写为v(xk)和uk。将当前时刻k下系统的最优代价函数表示为相应的最优控制策略表示为则下一时刻k+1下系统的最优代价函数为v
*
(f(xk,uk)),根据bellman最优性原理,可以得到该系统的hjb方程
[0018][0019]
与之对应的最优控制策略的表达式则为
[0020][0021]
但对于非线性系统而言,hjb方程的精确解难以获得,因此采用了adp的方法来获得其近似最优解,即获得近似最优控制策略。
[0022]
步骤2、构建集成值迭代控制框架。利用自适应评判架构,结合传统值迭代和新型值迭代,近似求解非线性系统的hjb方程。
[0023]
对于传统值迭代,将其代价函数和控制策略表示为v
t
(xk)和u
tk
,设迭代指标和迭代终止误差为i=1,2,

和δ。迭代过程中的代价函数和控制策略分别为和则下一迭代步的代价函数为且下一时刻k+1的代价函数为利用任意半正定函数对初始代价函数进行初始化,通过代价函数更新
[0024][0025]
和策略提升
[0026][0027]
交替迭代,直至相邻代价函数差值的绝对值时,迭代过程停止并得到近似最优控制策略。
[0028]
对于新型值迭代,将该方法下的系统代价函数和控制策略表示为和迭代过程中相应的代价函数和控制策略则表示为和则下一迭代步的代价函数为且下一时刻k+1的代价函数为相较于传统值迭代,引入了松弛因子ω>0,相应的代价函数更新和策略提升过程如下:
[0029][0030]

[0031][0032]
同样地,通过(10)和(11)不断交替迭代至新型值迭代方法下相邻代价函数差值的绝对值时,迭代过程停止并得到近似最优控制策略。其中,特殊地,当ω=1时,则新型值迭代方法与传统值迭代方法等价。
[0033]
步骤3、引入自适应松弛函数建立加速值迭代方案。
[0034]
根据逐次超松弛的方法,可以发现如果松弛因子满足一定范围内,松弛因子越大,则代价函数序列收敛速度越快。因此,当ω>1时,所提出的新型值迭代方法比传统值迭代具有更快的收敛速度。但是,保证代价函数收敛的松弛因子上限是未知的。因此,当ω>1时,如何保证迭代算法的收敛速度是一个重要的问题。因此,提出了一种实用的松弛因子设计方法,以保证收敛速度。将迭代过程分为加速阶段和收敛阶段,如图2所示。
[0035]
在加速阶段,松弛因子大于1,加速代价函数的收敛过程。在加速阶段后,松弛因子设为1,以保证迭代代价函数收敛于最优代价函数。在迭代过程中代价函数序列的单调性是不能保证的。当加速阶段设置过长或松弛因子设置过大时,迭代的代价函数可能大于系统最优代价函数,导致加速阶段振荡,收敛阶段减小。故选取的松弛系数不宜过大。此外,定义一个关于迭代指标i的松弛函数ω(i),其中α>0和β>1均为松弛函数的可调节参数且ω(i)∈(1,β),为了保证函数在该范围内,将松弛函数ω(i)设为以自然常数e为底的指数函数形式,并令α为指数位置上的变量参数,(β-1)则为系数位置上的参数,即设为如下的松弛函数:
[0036]
ω(i)=(β-1)e-αi
+1 (12)
[0037]
基于此可以得到,对于任意迭代指标函数ω(i)为单调递减的且满足当β=1时,松弛函数ω(i)=1,则意味着新型值迭代转化为传统值迭代。根据(11)中的松弛函数,可以得到相应的代价函数更新为
[0038][0039]
通过该松弛函数使得松弛因子逐渐减小到1,即逐渐使得β=1,从而实现由新型快速值迭代方案向传统值迭代方案的过渡。
[0040]
步骤4、实现rtac系统的智能控制。
[0041]
基于上述的集成值迭代框架和自适应松弛函数的引入,确立了算法方案,首先,对系统效用函数中的参数、代价函数、迭代指标、松弛因子大小、松弛函数参数、以及迭代终止误差等进行初始化,然后根据式(10)和(11)或(13)进行交替迭代,直至达到迭代终止误差停止,从而可以获得rtac系统的近似最优代价函数和控制策略,实现对该系统的智能优化控制。
[0042]
本发明的创新之处:
[0043]
本发明针对复杂非线性rtac系统,通过引入松弛因子和自适应松弛函数,提出了一种收敛速度可调的集成值迭代方案。结合传统值迭代和新型值迭代方法,研究了松弛因子对系统收敛性的影响。为了方便调节迭代过程中代价函数的收敛速度,设计了一个松弛函数来自适应加速迭代过程,从而在实现系统快速收敛的同时,保证由集成值迭代获得的控制策略能够使得闭环系统稳定。最终实现了非线性rtac系统的智能优化控制,在保证系统控制效果的同时提升了控制效率。
附图说明
[0044]
图1rtac系统示意图
[0045]
图2加速集成值迭代方法示意图
[0046]
图3近似代价函数权值向量范数收敛曲线(ω=1)
[0047]
图4近似代价函数权值向量范数收敛曲线(ω=2)
[0048]
图5近似代价函数权值向量范数收敛曲线(α=0.01,β=4)
[0049]
图6近似代价函数权值矩阵参数收敛曲线(α=0.01,β=4)
[0050]
图7系统状态轨迹(α=0.01,β=4)
[0051]
图8系统控制输入轨迹(α=0.01,β=4)
具体实施方式
[0052]
本部分通过开展具体实验来对所提算法的有效性进行验证。选取二次型效用函数为即系统效用函数中的q和r选取为i4和0.05i,其中i4和i分别为4
×
4维和1
×
1维的单位矩阵,设最大迭代指标为600。选取下列的函数近似结构对系统代价函数进行近似:
[0053]
[0054]
其中,为该近似结构的权值参数向量,代表实数集合,其初始值选取为0。随机选取100个初始状态通过式(10)和(11)进行近似代价函数和近似控制策略的迭代。
[0055]
为了验证引入松弛因子及自适应松弛函数对迭代过程中代价函数快速收敛的有效性,在仿真实验中选取松弛因子ω的大小分别为1和2,以及选取自适应松弛函数参数为α=0.01,β=4,即对应传统值迭代,引入松弛因子和自适应松弛函数下的集成值迭代方法,可以得到相应的系统收敛效果图如图3、4、5所示。由以上实验结果可以看出,传统值迭代方法下代价函数在迭代步为500左右趋于收敛,而引入松弛因子及自适应松弛函数下代价函数分别在迭代步为300和200左右已经趋于收敛。因此,当松弛因子ω>1时,能够加速迭代过程中系统代价函数的收敛,且自适应松弛函数相较直接赋值的松弛因子,具有更强的自适应能力和更精确的调节范围。同时,基于加速的集成值迭代,系统的近似代价函数权值参数的收敛图如图6所示,从中可知,迭代过程中的代价函数逐渐趋近于最优值。利用该方法获得的近似最优控制策略来控制系统,可以得到相应的状态轨迹和控制轨迹如图7和8所示。从中可以得知,本发明所提出的加速集成值迭代框架不仅能够实现非线性系统的智能优化控制,保证系统的稳定性,同时能够加速系统代价函数的收敛过程,提升控制效率。

技术特征:
1.一种针对双自旋稳定系统的加速集成值迭代控制方法,其特征在于:rtac非线性基准问题考虑一个非线性四阶动态系统,其中包含一个平动振荡器和一个离心转动摆球的非线性相互作用;振荡器由一个质量为m的小车组成,由一个刚度为k的线性弹簧连接到固定的墙上;其运动仅限于一维方向,即仅在水平面内,因此引力不起作用,小车的平移位置为q,则可知小车的运动速度为小车的运动加速度为安装在小车中心的摆球可在水平面内旋转,其质量为m,转动的角度为θ,则摆球的转动角速度为摆球转动的角加速度为摆球质心的转动惯量为i,摆球质心与其旋转点的距离为e,n表示施加到摆球上的控制转矩;对于该系统,控制目标是通过给离心转动摆球提供的控制转矩实现振荡器的稳定,设计的控制器需保证内部稳定性;通过机理建模得到rtac系统的模型为:根据上述rtac系统的模型,设小车的平移位置q、小车的运动速度小球转动的角度θ、以及小球的转动角速度分别为系统状态的四个分量x1、x2、x3、x4,则系统的状态为设施加到小球上的控制转矩n为系统的控制输入u;此外,设为平动和转动运动之间的耦合为已知系统状态所满足的常微分方程则为控制系统的状态方程,将系统状态x的微分形式写为于是得到rtac系统的状态方程为:接下来将rtac系统的控制进行研究,即抑制系统的水平振动,将小车的平动位置和摆球转动角度稳定到系统平衡点,使得[x1,x2,x3,x4]
t
=[0,0,0,0]
t
;基于集成值迭代方法实现对rtac系统的稳定控制,关于集成值迭代智能控制设计的详细步骤描述如下:步骤1、问题转化;将rtac系统实现振荡器稳定的问题转化为非线性系统的最优控制问题;通过欧拉方法对rtac系统的状态方程进行离散化,选取离散时间间隔为0.1s,设当前时刻为k,则离散化后的系统各状态分量表示为x
1k
、x
2k
、x
3k
、x
4k
,相应地下一时刻的系统状态为x
k+1
,系统的控制策略表示为u
k
,因此得到相应的系统状态空间表达式如下:
该系统看作为一个四阶非线性非仿射系统,即其中,f(
·
,
·
)为连续的系统函数,x
k
为系统状态向量,代表非负整数集合,即若x0为系统的初始状态,则x0为系统在u=0时的唯一平衡点,即f(0,0)=0,从而意味着存在控制序列能够使得当k

0时系统状态x
k

0;设系统的最优反馈控制策略为u(x
k
),效用函数为u(x
k
,u(x
k
)),选取其为二次型形式,即其中q和r为维数与系统状态和控制相匹配的正定矩阵;设系统的代价函数为v(x
k
,u(x
k
)),对于该系统的最优控制问题,其目标是找到合适的反馈控制策略u(x
k
)使得系统稳定,并最小化如下的无限时间代价函数:其中,u(0,0)=0且在此将系统代价函数v(x
k
,u(x
k
))和反馈控制策略u(x
k
)简写为v(x
k
)和u
k
;将当前时刻k下系统的最优代价函数表示为相应的最优控制策略表示为则下一时刻k+1下系统的最优代价函数为v
*
(f(x
k
,u
k
)),根据bellman最优性原理,得到该系统的hjb方程与之对应的最优控制策略的表达式则为但对于非线性系统而言,hjb方程的精确解难以获得,因此采用了adp的方法来获得其近似最优解,即获得近似最优控制策略;步骤2、构建集成值迭代控制框架;将其代价函数和控制策略表示为v
t
(x
k
)和u
tk
,设迭代指标和迭代终止误差为i=1,2,...和δ;迭代过程中的代价函数和控制策略分别为和则下一迭代步的代价函数为且下一时刻k+1的代价函数为利用任意半正定函数对初始代价函数进行初始化,通过代价函数更新和策略提升
交替迭代,直至相邻代价函数差值的绝对值时,迭代过程停止并得到近似最优控制策略;对于新型值迭代,将该方法下的系统代价函数和控制策略表示为和迭代过程中相应的代价函数和控制策略则表示为和则下一迭代步的代价函数为且下一时刻k+1的代价函数为相应的代价函数更新和策略提升过程如下:和同样地,通过(10)和(11)不断交替迭代至新型值迭代方法下相邻代价函数差值的绝对值时,迭代过程停止并得到近似最优控制策略;其中,当ω=1时,则新型值迭代方法与传统值迭代方法等价;步骤3、引入自适应松弛函数建立加速值迭代方案;将迭代过程分为加速阶段和收敛阶段:在加速阶段,松弛因子大于1,加速代价函数的收敛过程;在加速阶段后,松弛因子设为1,以保证迭代代价函数收敛于最优代价函数;定义一个关于迭代指标i的松弛函数ω(i),其中α>0和β>1均为松弛函数的可调节参数且ω(i)∈(1,β),为了保证函数在该范围内,将松弛函数ω(i)设为以自然常数e为底的指数函数形式,并令α为指数位置上的变量参数,(β-1)则为系数位置上的参数,即设为如下的松弛函数:ω(i)=(β-1)e-αi
+1
ꢀꢀꢀꢀ
(12)基于此得到,对于任意迭代指标函数ω(i)为单调递减的且满足当β=1时,松弛函数ω(i)=1,则意味着新型值迭代转化为传统值迭代;根据(11)中的松弛函数,得到相应的代价函数更新为通过该松弛函数使得松弛因子逐渐减小到1,即逐渐使得β=1,从而实现由新型快速值迭代方案向传统值迭代方案的过渡;步骤4、实现rtac系统的智能控制;对系统效用函数中的参数、代价函数、迭代指标、松弛因子大小、松弛函数参数、以及迭代终止误差进行初始化,然后根据式(10)和(11)或(13)进行交替迭代,直至达到迭代终止误差停止,从而获得rtac系统的近似最优代价函数和控制策略,实现对该系统的智能优化控制。

技术总结
本发明提供了一种针对双自旋稳定系统的加速集成值迭代控制方法。双自旋稳定系统是航天器的姿态控制中的重要实现方法之一。具有旋转激励的平移振荡器(RTAC)作为双自旋航天器的简化模型被广泛研究。然而RTAC系统内部存在非线性,不确定性及干扰,为了实现该系统的智能优化控制,本发明基于自适应评判框架,提出了一种集成的新型值迭代方案,引入松弛因子加速代价函数的迭代过程,且该算法生成的控制策略能够保证闭环系统的稳定性。同时,设计了自适应松弛函数来调节代价函数序列的收敛速度。通过实验结果验证了所提出的集成值迭代控制算法的快速收敛性,从而能够快速有效地获得最优控制策略,在保证系统稳定的同时提升控制效率。率。率。


技术研发人员:王鼎 任进
受保护的技术使用者:北京工业大学
技术研发日:2023.06.16
技术公布日:2023/8/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐