一种基于生成对抗模仿学习的干扰策略感知方法
未命名
08-29
阅读:100
评论:0

1.本发明属于雷达技术领域,具体涉及一种基于生成对抗模仿学习的干扰策略感知方法。
背景技术:
2.随着现代电子技术的快速发展,雷达的生存面临着更大的挑战。其中,主瓣干扰由于在雷达天线主瓣上,并且干扰信号与目标信号在空域上完全匹配,对雷达构成了严重威胁,使雷达系统难以提取出真实目标。此外,更智能的干扰机能够根据截获的雷达信号调整其干扰策略。因此,研究更加智能的雷达系统具有重要意义。
3.传统的主瓣干扰抑制方法是通过信号处理,抑制接收回波数据中的干扰信号。例如,研究者利用特征投影矩阵预处理(emp)抑制主瓣干扰,或者采用盲源分离等技术将干扰信号与目标信号分离。然而,当干扰信号在到达方向上接近目标回波时,这些方法就会失效,比如,当目标配备自卫式干扰机时,上述方法不仅抑制干扰信号,而且还抑制了目标回波信号,导致极低的输出信干噪比。针对主瓣欺骗式干扰,西安电子科技大学兰岚等人采用一种基于阵元脉冲编码mimo(epc-mimo)雷达的新型相位调制方法,可以分离不同脉冲对应的真假目标。但当干扰样式为压制干扰时,此方法无法区分目标信号与干扰信号。极化方式作为雷达抗干扰的一个重要的自由度,引起了研究者们广泛的研究兴趣,雷达可以通过采用变极化的方式,在接收信号处理中采用极化滤波从而滤除干扰,但如果干扰机采用相同的极化方式,则极化滤波会失效。与信号处理不同,主动对抗方法近年来受到了广泛关注,研究者们通过设计合适的信号发射策略避免被干扰。然而目前先进的干扰机可以采取更加智能的方法,利用以往截获的雷达信号分析雷达抗干扰策略,设计出相应的干扰策略。因此,在面对更加智能的干扰机时,如何更快地制定抗干扰策略是雷达和干扰机对抗过程中获胜的关键。
4.当前智能抗干扰策略的设计主要聚焦于博弈论和强化学习两种方法。利用博弈论方法,西安电子科技大学李康等人将频率捷变雷达和干扰机之间的竞争建模为扩展式博弈过程,并使用基于神经虚拟自博弈(nfsp)算法来寻找近似纳什均衡(ane)策略。而该求解的ane策略有两个假设:雷达和干扰机是理性的,并且干扰机的效用函数为雷达效用函数的负数。但在实时对抗场景下,干扰机的效用函数难以被雷达确定,并且ane策略并不是应对不同干扰策略的最佳对抗策略。作为一种学习决策策略的有效工具,近年来许多研究尝试使用强化学习求解最优抗干扰策略,其中干扰机被建模为环境,频率捷变雷达为与环境的多次交互而做出决策的智能体。研究者们采用强化学习中的dqn、ppo等算法设计最优抗干扰策略。然而,由于当前无模型强化学习算法的交互成本高,交互量大,直接与真实干扰环境交互在线训练抗干扰策略是不现实的。为了提高采样效率,中山大学方愚渊等人提出了一种基于多臂老虎机的在线抗干扰策略学习方法。然而,该方法只考虑了单脉冲检测的抗干扰策略设计,没有考虑多个脉冲的长期回报。此外当前抗干扰策略设计方法由于缺乏对干扰策略的理解,仅仅通过在线探索求解最优抗干扰策略是不安全的。比如,干扰机可能会制
定欺骗策略使雷达的探索策略失效。
5.不同于强化学习从延迟反馈中学习最优策略,在模仿学习中,从专家示例中根据及时反馈,能够更加高效地获得一个好的策略。而在模仿学习中,由于直接学习干扰机的状态动作映射在小样本下容易出现“复合误差”的问题。
技术实现要素:
6.为了解决现有技术中存在的上述问题,本发明提供了一种基于生成对抗模仿学习的干扰策略感知方法。本发明要解决的技术问题通过以下技术方案实现:
7.一种基于生成对抗模仿学习的干扰策略感知方法,所述干扰策略感知方法包括:
8.步骤1、基于回合制马尔可夫决策过程,根据雷达和干扰机的交互得到在线样本集,所述在线样本集为收集的雷达和干扰机的交互数据;
9.步骤2、将所述在线样本集中的在线样本输入干扰策略网络,并先更新判别器网络的参数,之后基于所述判别器网络输出的奖励更新生成器网络的参数,获取达到预设要求的所述生成器网络和所述判别器网络,以得到训练好的干扰策略网络,所述干扰策略网络包括生成器网络和判别器网络;
10.步骤3、根据训练好的干扰策略网络输出的干扰策略对应的奖励的期望值,得到该干扰策略与真实干扰策略之间的策略评估误差,并根据策略评估误差得到用于训练抗干扰策略网络的干扰策略;
11.步骤4、基于所述步骤3得到的干扰策略训练抗干扰策略网络,得到训练好的抗干扰策略网络;
12.步骤5、利用所述训练好的抗干扰策略网络输出的抗干扰策略在线对抗真实干扰策略。
13.在本发明的一个实施例中,所述步骤1包括:
14.步骤1.1、初始化雷达的诱导策略;
15.步骤1.2、基于回合制马尔可夫决策过程,将雷达建模为回合制马尔可夫决策过程中的智能体,干扰机为环境,雷达通过与干扰机交互观测预设数量的在线样本,由所有观测的在线样本组成在线样本集。
16.在本发明的一个实施例中,所述步骤2包括:
17.步骤2.1、在所述在线样本集中进行采样,并将采样的在线样本输入至所述干扰策略网络中;
18.步骤2.2、使用梯度下降法更新所述判别器网络的参数;
19.步骤2.3、将所述判别器网络输出的奖励看作代价函数,利用trpo算法对所述生成器网络做梯度下降,以更新所述生成器网络的参数;
20.步骤2.4、重复步骤2.1到步骤2.3,直到所述生成器网络和所述判别器网络之间达到纳什均衡,得到所述训练好的干扰策略网络。
21.在本发明的一个实施例中,梯度下降法对应的梯度为:
[0022][0023]
其中,c
ω
(s,b)为所述判别器网络输出的奖励,s为雷达的状态信息,b为干扰机的
动作,为判别器网络输出的奖励对判别器网络参数ω的梯度,为真实样本中的状态动作对(s,b)经过判别器输出后的奖励值对判别器网络参数ω的梯度的均值估计,为生成器输出的状态动作对(s,b)经过判别器输出后的奖励值对判别器网络参数ω的梯度的均值估计。
[0024]
在本发明的一个实施例中,所述训练好的干扰策略网络中最优的判别器网络为:
[0025][0026]
其中,c
*
(sh,bh)为最优的判别器网络输出的奖励,sh为第h时刻雷达的状态信息,bh为第h时刻干扰机的动作,为第h时刻雷达诱导策略在干扰策略m
θ
中交互的干扰机状态动作分布,为第h时刻雷达诱导策略在干扰策略m中交互的干扰机状态动作分布,m
θ
为干扰策略网络输出的干扰策略,m为真实干扰策略,为第h时刻雷达的诱导策略。
[0027]
在本发明的一个实施例中,所述步骤3包括:
[0028]
步骤3.1、获取未知的真实干扰策略m,并基于训练好的干扰策略网络得到干扰策略m
θ
;
[0029]
步骤3.2、根据未知的真实干扰策略m得到奖励的期望值根据干扰策略m
θ
得到奖励的期望值
[0030]
步骤3.3、基于奖励的期望值和奖励的期望值得到所述策略评估误差,所述策略评估误差为
[0031]
步骤3.4、判断所述策略评估误差是否恒定不变,若否,则跳转至步骤2,直至所述策略评估误差恒定,若是,则将当前训练好的干扰策略网络的输出作为用于训练抗干扰策略网络的干扰策略。
[0032]
在本发明的一个实施例中,未知的真实干扰策略对应的奖励的期望值表示为:
[0033][0034]
训练好的干扰策略网络输出的干扰策略对应的奖励的期望值表示为:
[0035][0036]
其中,ah为第h时刻雷达的动作,sh为第h时刻雷达的状态信息,1≤h≤h,rh(sh,ah)为第h时刻雷达脉冲信号的奖励,ρ0为雷达所处的初始状态分布,πh(
·
|sh)为第h时刻雷达的诱导策略,mh(
·
|sh,ah)第h时刻干扰机的干扰策略;第h时刻雷达脉冲信号的奖励等于第h时刻雷达脉冲信号的信干噪比。
[0037]
在本发明的一个实施例中,所述步骤4包括:
[0038]
基于ppo算法,利用所述步骤3得到的干扰策略训练抗干扰策略网络,以得到训练好的抗干扰策略网络。
[0039]
在本发明的一个实施例中,所述抗干扰策略网络对应的目标函数为:
[0040][0041]
其中,为训练好的干扰策略网络输出的干扰策略对应的奖励的期望值。
[0042]
本发明的有益效果:
[0043]
1.本发明针对fa雷达和瞄准式干扰机对抗过程中的干扰策略快速感知问题,提出了一种基于生成对抗模仿学习的干扰策略感知方法,该方法相较于监督学习方法能够缓解感知过程中的复合误差问题,雷达在感知到干扰策略后,通过虚拟交互学习抗干扰策略,从而在线对抗真实干扰策略。
[0044]
2.本发明将干扰策略建模为回合制马尔可夫决策过程中的环境,fa雷达为智能体,干扰机可以采取确定性或随机性,并且以脉冲为单位时变的干扰策略。
[0045]
3.本发明通过雷达诱导干扰机收集在线交互样本,在线样本和生成器采样的样本放入判别器网络进行训练,当达到纳什均衡后,即感知到干扰策略,本发明提出的方法能够有效地感知到确定和随机性的干扰策略,感知到干扰策略后,进而使用ppo算法虚拟交互训练抗干扰策略。
附图说明
[0046]
图1是本发明实施例提供的一种基于生成对抗模仿学习的干扰策略感知方法的流程示意图;
[0047]
图2是本发明实施例提供的一种在线收集交互样本在虚拟交互训练抗干扰策略的过程框图;
[0048]
图3是本发明实施例提供的一种生成对抗模仿学习的算法框图;
[0049]
图4是本发明实施例提供的一种判别器网络结构图;
[0050]
图5是本发明实施例提供的一种gail中的actor网络结构图;
[0051]
图6是本发明实施例提供的一种gail中的critic网络结构图;
[0052]
图7是本发明实施例提供的一种随机和确定性干扰策略示意图;
[0053]
图8是本发明实施例提供的一种确定性干扰策略的奖励评估曲线图;
[0054]
图9是本发明实施例提供的一种随机性干扰策略的奖励评估曲线图;
[0055]
图10是本发明实施例提供的一种策略评估误差随干扰策略复杂程度的变化曲线图;
[0056]
图11是本发明实施例提供的一种策略评估误差随着在线样本数变化的曲线图。
具体实施方式
[0057]
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
[0058]
实施例一
[0059]
现有的雷达抗干扰策略设计方法中,存在基于强化学习算法在线训练抗干扰策略时存在样本效率低,而采用监督学习方法感知干扰策略在小样本情况下会存在复合误差的问题。本发明提出了一种基于生成对抗模仿学习的干扰策略感知方法。请参见图1和图2,图1是本发明实施例提供的一种基于生成对抗模仿学习的干扰策略感知方法的流程示意图,图2是本发明实施例提供的一种在线收集交互样本在虚拟交互训练抗干扰策略的过程框图,本发明提供的基于生成对抗模仿学习的干扰策略感知方法包括:
[0060]
步骤1、基于回合制马尔可夫决策过程,根据雷达和干扰机的交互得到在线样本集,在线样本集为收集的雷达和干扰机的交互数据,该交互数据为体现了干扰机做决策的样本。
[0061]
具体而言,将雷达作为回合制马尔可夫决策过程的智能体依据当前策略选择动作并与干扰机进行交互,收集交互样本信息。
[0062]
在一个具体实施例中,步骤1包括:
[0063]
步骤1.1、初始化雷达的诱导策略。
[0064]
这里,雷达的诱导策略,是在雷达和干扰机对抗时,由于对干扰策略未知,雷达需要制定诱导策略与干扰机交互。
[0065]
在面对未知的干扰策略时,雷达需要发射诱导信号获取干扰机做决策的样本,在时变的干扰环境下,假设雷达发射h个脉冲的诱导信号,其中第h个脉冲的发射信号策略为其定义为在第h时刻的给定状态sh下,雷达选择动作ah的概率。一般而言,面对未知的干扰策略,雷达可以选择均匀随机采样策略收集能够更加体现完备干扰策略的样本。其中,sh为雷达感知的环境信息,其中包括历史的雷达和干扰的动作信息,ah为真实雷达的动作信息。
[0066]
步骤1.2、基于回合制马尔可夫决策过程,将雷达建模为回合制马尔可夫决策过程中的智能体,干扰机为环境,雷达通过与干扰机交互观测预设数量的在线样本,由所有观测的在线样本组成在线样本集。
[0067]
这里,基于回合制马尔可夫决策过程,将雷达建模为回合制马尔可夫决策过程中的智能体,干扰机为环境。雷达诱导干扰机决策时,该策略即为步骤1.1中制定的诱导策略。
[0068]
本发明假设干扰机工作在收发分时模式。并且干扰机能够对雷达的每一个子脉冲同步地采取截获或干扰动作,雷达一个脉冲包括k个子脉冲。雷达在第h个脉冲的第k个子脉冲的动作表示为那么雷达在一个脉冲的动作ah表示为1≤k≤k。相应地,干扰机在雷达的第h个脉冲的第k个子脉冲的动作表示为干扰机工作在侦察模式时,取值为α,工作在干扰模式时,取值为干扰信号的中心频率。因此,第h时刻的干扰机的动作表示为
[0069]
本发明将雷达看作收集干扰机行动的观测者,未知的干扰环境看作待感知的专家策略,雷达可以通过与干扰机交互观测一定数量的在线样本。在线样本集为收集的雷达和干扰机的交互数据,数据集体现了干扰机做决策的样本。
[0070]
步骤2、将在线样本集中的在线样本输入干扰策略网络,并先更新判别器网络的参数,之后基于判别器网络输出的奖励更新生成器网络的参数,获取达到预设要求的生成器
网络和判别器网络,以得到训练好的干扰策略网络,干扰策略网络包括生成器网络和判别器网络。其中,预设要求为达到纳什均衡。
[0071]
在一个具体实施例中,步骤2包括:
[0072]
步骤2.1、在在线样本集中进行采样,并将采样的在线样本输入至干扰策略网络中。
[0073]
具体而言,首先设置学习率、生成器网络和判别器网络,更新步长;之后,对雷达和学习的干扰策略进行交互生成在线样本集进行采样,将采样的状态动作对(s,b)(即在线样本)到样本集合中,用于对干扰策略网络进行训练的在线样本,其中雷,达采用均匀随机采样方式进行采样。
[0074]
步骤2.2、使用梯度下降法更新判别器网络的参数ωi→
ω
i+1
。
[0075]
这里,为了缓解在干扰策略感知时小样本情况下的复合误差问题,本发明使用模仿学习中的生成对抗模仿学习方法感知干扰策略,相较于模仿学习中的行为克隆算法,具有能够缓解因样本不足带来的复合误差的问题,并且对于随机性干扰策略,生成对抗模仿学习能够更准确地模仿干扰策略的概率分布。对于干扰策略网络其目标函数可以表述为:
[0076][0077]
表示为第h时刻雷达诱导策略在干扰策略m中交互的干扰机状态动作分布,为第h时刻雷达的诱导策略,c(sh,bh)为在第h时刻的给定状态sh和干扰机的动作bh条件下判别器网络输出的奖励。实际上,上述优化目标在在线样本集合下的优化目标服从以下优化问题:
[0078][0079]
上述优化问题的求解的原理如图3所示,判别器网络是一个二分类器,其输出表示输入的数据属于专家示例的概率,其目的是最大化来自专家示例的概率,最小化生成器采样的数据的输出概率,生成器网络是一个强化学习过程,其采样数据经过判别器网络的输出作为生成器网络的奖励,其目标为最大化其采样数据的概率。
[0080]
因此,在本实施例中,梯度下降法对应的梯度为:
[0081][0082]
其中,c
ω
(s,b)为所述判别器网络输出的奖励,s为雷达的状态信息,b为干扰机的动作,为判别器网络输出的奖励对判别器网络参数ω的梯度,为真实样本中的状态动作对(s,b)经过判别器输出后的奖励值对判别器网络参数ω的梯度的均值估计,为生
成器输出的状态动作对(s,b)经过判别器输出后的奖励值对判别器网络参数ω的梯度的均值估计。
[0083]
在本实施例中,判别器网络参见图4:将干扰机的状态和采取的动作输入网络,网络结构为全连接网络,每层全连接网络隐藏单元数均为256,激活函数为leaky relu函数,输出单元经过sigmoid函数,输出为输入的状态动作对属于真实干扰机的状态动作对的概率。
[0084]
步骤2.3、将判别器网络输出的奖励c
ω
(s,b)看作代价函数,利用trpo(trust region policy optimization,置信域策略优化算法)算法对生成器网络做梯度下降,以更新生成器网络的参数。
[0085]
步骤2.4、重复步骤2.1到步骤2.3,直到生成器网络和判别器网络之间达到纳什均衡,得到训练好的干扰策略网络。
[0086]
这里,当判别器网络实现它的最优目标时,即生成器网络与判别器网络之间达到纳什均衡,此时得到的生成器网络与判别器网络所组成的干扰策略网络即为训练好的干扰策略网络,最优的判别器表示如下:
[0087][0088]
其中,c
*
(sh,bh)为最优的判别器网络输出的奖励,sh为第h时刻雷达的状态信息,bh为第h时刻干扰机的动作,为第h时刻雷达诱导策略在干扰策略m
θ
中交互的干扰机状态动作分布,为第h时刻雷达诱导策略在干扰策略m中交互的干扰机状态动作分布,m
θ
为干扰策略网络输出的干扰策略,m为真实干扰策略,为第h时刻雷达的诱导策略。
[0089]
可以推导生成对抗模仿学习的目标是最小化真实干扰策略和模仿学习策略的状态行动对(s,b)的分布误差。js散度表示的模仿学习如下:
[0090][0091]
因此,采用生成对抗模仿学习感知干扰策略的本质为最小化雷达收集的在线样本的状态动作分布和感知的干扰策略网络输出的状态动作分布。
[0092]
本发明通过雷达诱导干扰机收集在线交互样本,在线样本和生成器采样的样本放入判别器网络进行训练,当达到纳什均衡后,即感知到干扰策略,本发明提出的方法能够有效地感知到确定和随机性的干扰策略,感知到干扰策略后,进而使用ppo算法虚拟交互训练抗干扰策略。
[0093]
步骤3、根据训练好的干扰策略网络输出的干扰策略对应的奖励的期望值,得到该干扰策略与真实干扰策略之间的策略评估误差,并根据策略评估误差得到用于训练抗干扰策略网络的干扰策略。
[0094]
具体而言,根据未知的真实干扰策略对应的奖励的期望值和训练好的干扰策略网络输出的干扰策略对应的奖励的期望值得到策略评估误差,并根据策略评估误差得到用于训练抗干扰策略网络的干扰策略。
[0095]
在一个具体实施例中,步骤3具体可以包括:
[0096]
步骤3.1、获取未知的真实干扰策略m,并基于训练好的干扰策略网络得到干扰策略m
θ
。
[0097]
步骤3.2、根据未知的真实干扰策略m得到奖励的期望值根据干扰策略m
θ
得到奖励的期望值
[0098]
这里,未知的真实干扰策略对应的奖励的期望值表示为:
[0099][0100]
这里,训练好的干扰策略网络输出的干扰策略对应的奖励的期望值表示为:
[0101][0102]
其中,ah为第h时刻雷达的动作,sh为第h时刻雷达的状态信息,1≤h≤h,rh(sh,ah)为第h时刻雷达脉冲信号的奖励,ρ0为初始状态分布,πh(
·
|sh)为第h时刻雷达的诱导策略,mh(
·
|sh,ah)第h时刻干扰机的干扰策略;第h时刻雷达脉冲信号的奖励等于第h时刻雷达脉冲信号的信干噪比,第h时刻雷达脉冲信号的信干噪比表示为:
[0103][0104]
其中,p
t
为雷达发射功率,g
t
为雷达天线增益,分别为雷达在第h个脉冲的第k个子脉冲时刻发射信号的波长和载频,为对应的干扰信号的中心频率,σ
rcs
为目标的雷达散射截面积,rd为雷达与目标间距离,为接收机噪声方差,为干扰信号的噪声方差。
[0105][0106]
其中,为表征雷达信号是否被成功干扰的指示函数。
[0107]
步骤3.3、基于奖励的期望值和奖励的期望值得到策略评估误差,所述策略评估误差为
[0108]
一般而言,干扰环境模型的准确性可以使用均方误差距离衡量;给定一个未知的真实的干扰环境m和行为克隆感知的干扰环境可用均方误差评估学习环境的准确性,这种利用均方误差衡量干扰环境的方法能够反应学习的干扰环境的准确性,但是其准确性还需要进一步提高,因此,为了进一步评估雷达策略在感知的干扰环境中的性能差异,本实施例的干扰环境模型的准确性使用环境模型之间的策略评估误差来衡量;给定一个未知的真实的干扰策略m,和生成对抗模仿学习算法感知的干扰策略,其策略评估误差为
其中为雷达策略π在对抗干扰环境m时的奖励的期望值,它反应了雷达的抗干扰性能。
[0109]
该策略评估误差反应了服从于雷达接收回波信号的信干噪比奖励的干扰环境的内在差异,相比于均方误差,能够更准确地评估学习的干扰环境。
[0110]
步骤3.4、判断策略评估误差是否恒定不变,若否,则跳转至步骤2,直至策略评估误差恒定,若是,则将当前干扰策略网络作为训练好的干扰策略网络的。
[0111]
步骤4、基于步骤3得到的干扰策略训练抗干扰策略网络,得到训练好的抗干扰策略网络。
[0112]
具体而言,基于ppo算法,利用步骤3得到的干扰策略训练抗干扰策略网络,以得到训练好的抗干扰策略网络。
[0113]
对于强化学习任务,由于对干扰策略没有了解,从零开始在线试错学习最优反干扰策略是不现实的,并且是不安全的。在感知到干扰策略后,雷达可以通过离线交互快速求解反干扰策略。根据步骤3中采用生成对抗模仿学习算法学习的干扰策略,雷达和感知的干扰策略进行虚拟试错交互求解最优抗干扰策略,本发明采用强化学习中的ppo算法求解最优抗干扰策略。优化目标为:
[0114][0115]
进一步的,雷达抗干扰策略网络的参数采用强化学习中的ppo算法优化,主要采用actor-criti框架,包括actor网络和critic网络。
[0116]
actor网络结构参见图5:将状态数据输入网络,输入到隐藏单元数为256单元的全连接网络中,通过tanh函数进行激活。然后传递给下一层全连接网络,第二层网络结构同第一层,采用tanh函数违激活函数。最后传递到第三层全连接网络,输出单元为雷达总的动作数,采用softmax函数作为激活函数,输出每个干扰动作的概率。
[0117]
critic网络结构参见图6:将状态数据输入网络,网络结构为全连接网络,每层全连接网络隐藏单元数均为16,激活函数为relu函数,输出单元数为1,输出状态数据和动作数据的状态值函数。
[0118]
步骤5、利用训练好的抗干扰策略网络输出的抗干扰策略在线对抗真实干扰策略。即步骤4得到的抗干扰策略π
θ
用于在线对抗真实干扰策略。
[0119]
下面通过仿真实验对本发明效果作进一步验证说明。
[0120]
(1)仿真条件:
[0121]
雷达发射功率为30kw,天线增益为32db,雷达子脉冲带宽为2mhz,雷达和干扰机的距离为100km,干扰机天线增益为3db。
[0122]
fa雷达发射脉冲信号,一个脉冲中包含4个子脉冲,可选载频为3个,f1=10ghz,f2=10.1ghz,f3=10.2ghz。干扰机有两种可能的模式,即侦察模式和发射瞄准式干扰信号模式。当干扰机工作在侦察模式时,它能够获取雷达的载频,当工作在干扰模式时,它会根据其策略发射窄带噪声干扰信号。本发明假设干扰机对雷达信号进行同步截获或干扰。因此,针对雷达的每一个子脉冲,干扰机的可以选择截获或者干扰动作,为了便于表示,本发明将干扰机的针对每个子脉冲的动作具体化为可以表示的干扰规则,其中包括确定性干扰规则
和随机性干扰规则:
[0123]
j0:干扰机工作在侦察模式,并且雷达载频被干扰机截获;
[0124]
j1:干扰机干扰上一次截获的雷达载频;
[0125]
j2:干扰机干扰所有截获的历史频率中出现次数最少的雷达载频;
[0126]
j3:干扰机干扰所有截获的历史频率中出现次数最多的雷达载频;
[0127]
j4:干扰机干扰所有截获的历史频率中出现频次为倒数第二的雷达载频;
[0128]
j5:干扰机分别以0.5的概率执行干扰规则j0和j1;
[0129]
其中j0、j1、j2、j3和j4为确定性规则,j5为随机性规则。在图7中,不同的规则被组成干扰机在每一个脉冲的干扰策略。为了验证本发明提出的基于生成对抗模仿学习的干扰策略感知方法,本发明基于上述设定的干扰规则假定了几种真实的干扰策略,参见图7所示,其中随机性策略指的是组成干扰策略的干扰规则包含j5。本发明考虑的干扰策略在每个脉冲具有时变性,时变长度为h,例如,当h=2时,干扰机的策略为每两个子脉冲为一个回合。随着h的变大,干扰策略在一个回合内的时间变长,干扰策略越复杂。
[0130]
图8为在确定性干扰策略下给定1000个子脉冲的在线交互样本,使用生成对抗模仿学习算法感知干扰环境和真实干扰环境中的评估的奖励曲线。图8中的(a)和(b)分别为h=1和h=2时的奖励评估曲线。其中m和表示真实的干扰环境和使用生成对抗模仿学习算法感知的干扰环境,π
*
和π
gail
分别表示在真实干扰环境和gail算法感知的干扰环境中训练的最优抗干扰策略,曲线r(π
*
,m)表示抗干扰策略π在真实干扰环境m中的32个脉冲的奖励评估曲线。对于抗干扰策略学习任务而言,本发明专利的目的为用在感知的干扰环境中训练的抗干扰策略π
gail
去对抗真实的干扰环境m,即图中的标记为r(π
gail
,m)的曲线。从图8可以看出当h=1和h=2时三条曲线最终收敛到相同的信干噪比值,这意味着感知的干扰环境能够完全替代真实的干扰环境。
[0131]
图9为在随机干扰策略下给定10000个子脉冲在线交互样本,使用生成对抗模仿学习算法感知的干扰环境的奖励评估曲线。图9中的(a)中当h=1时,三条曲线最终收敛到相同的奖励值,图9中的(b)中当h=2时,随着干扰策略的随机性变强,训练的雷达策略一定会有被成功干扰的概率,因此,曲线的方差不为0,但三条曲线的均值和方差相近。因此,当干扰机采取随机策略时,gail算法能够准确地感知到真实的干扰策略。
[0132]
图10为在确定性干扰策略时,在给定1000个子脉冲的在线交互数据时,随着干扰策略复杂程度h增加,干扰环境学习的策略评估误差曲线,曲线为20个随机种子的平均结果。从实验结果可以看出,随着干扰策略复杂程度h的变大,策略评估误差也会变大。在感知到未知的干扰环境后,本发明的目的是通过虚拟交互训练抗干扰策从而在线对抗真实的干扰策略,下表给出了不同干扰策略复杂程度下在虚拟环境中训练和在真实环境中评估的奖励值。表中可以看出当干扰策略复杂程度h变大,π
gail
在m
gail
中具有很高的奖励,但是在对抗真实干扰环境m时,其奖励损失会变大,比如h=8和h=12时,r(π
gail
,m)具有非常明显的损失,并且随着h变大,奖励损失也会变大。可以通过增加在线样本数来降低该损失。
[0133][0134]
图11为在确定性干扰策略下,干扰策略复杂程度h=8时,随着收集的在线样本数量的增加,策略评估误差曲线的变化情况。图中横坐标为收集的子脉冲交互的样本数,纵坐标为误差值。可以看出随着样本数的增加,策略评估误差逐渐减小。
[0135]
1.本发明针对fa雷达和瞄准式干扰机对抗过程中的干扰策略快速感知问题,提出了一种基于生成对抗模仿学习的干扰策略感知方法,该方法相较于监督学习方法能够缓解感知过程中的复合误差问题,雷达在感知到干扰策略后,通过虚拟交互学习抗干扰策略,从而在线对抗真实干扰策略。
[0136]
2.本发明将干扰策略建模为回合制马尔可夫决策过程中的环境,fa雷达为智能体,干扰机可以采取确定性或随机性,并且以脉冲为单位时变的干扰策略。
[0137]
3.本发明通过雷达诱导干扰机收集在线交互样本,在线样本和生成器采样的样本放入判别器网络进行训练,当达到纳什均衡后,即感知到干扰策略,本发明提出的方法能够有效地感知到确定和随机性的干扰策略,感知到干扰策略后,进而使用ppo算法虚拟交互训练抗干扰策略。
[0138]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
[0139]
尽管在此结合各实施例对本技术进行了描述,然而,在实施所要求保护的本技术过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
[0140]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
技术特征:
1.一种基于生成对抗模仿学习的干扰策略感知方法,其特征在于,所述干扰策略感知方法包括:步骤1、基于回合制马尔可夫决策过程,根据雷达和干扰机的交互得到在线样本集,所述在线样本集为收集的雷达和干扰机的交互数据;步骤2、将所述在线样本集中的在线样本输入干扰策略网络,并先更新判别器网络的参数,之后基于所述判别器网络输出的奖励更新生成器网络的参数,获取达到预设要求的所述生成器网络和所述判别器网络,以得到训练好的干扰策略网络,所述干扰策略网络包括生成器网络和判别器网络;步骤3、根据训练好的干扰策略网络输出的干扰策略对应的奖励的期望值,得到该干扰策略与真实干扰策略之间的策略评估误差,并根据策略评估误差得到用于训练抗干扰策略网络的干扰策略;步骤4、基于所述步骤3得到的干扰策略训练抗干扰策略网络,得到训练好的抗干扰策略网络;步骤5、利用所述训练好的抗干扰策略网络输出的抗干扰策略在线对抗真实干扰策略。2.根据权利要求1所述的基于生成对抗模仿学习的干扰策略感知方法,其特征在于,所述步骤1包括:步骤1.1、初始化雷达的诱导策略;步骤1.2、基于回合制马尔可夫决策过程,将雷达建模为回合制马尔可夫决策过程中的智能体,干扰机为环境,雷达通过与干扰机交互观测预设数量的在线样本,由所有观测的在线样本组成在线样本集。3.根据权利要求1所述的基于生成对抗模仿学习的干扰策略感知方法,其特征在于,所述步骤2包括:步骤2.1、在所述在线样本集中进行采样,并将采样的在线样本输入至所述干扰策略网络中;步骤2.2、使用梯度下降法更新所述判别器网络的参数;步骤2.3、将所述判别器网络输出的奖励看作代价函数,利用trpo算法对所述生成器网络做梯度下降,以更新所述生成器网络的参数;步骤2.4、重复步骤2.1到步骤2.3,直到所述生成器网络和所述判别器网络之间达到纳什均衡,得到所述训练好的干扰策略网络。4.根据权利要求3所述的基于生成对抗模仿学习的干扰策略感知方法,其特征在于,梯度下降法对应的梯度为:其中,c
ω
(s,b)为所述判别器网络输出的奖励,s为雷达的状态信息,b为干扰机的动作,为判别器网络输出的奖励对判别器网络参数ω的梯度,为真实样本中的状态动作对(s,b)经过判别器输出后的奖励值对判别器网络参数ω的梯度的均值估计,为生成器输出的状态动作对(s,b)经过判别器输出后的奖励值对判别器网络参数ω的梯度的均值估计。
5.根据权利要求3所述的基于生成对抗模仿学习的干扰策略感知方法,其特征在于,所述训练好的干扰策略网络中最优的判别器网络为:其中,c
*
(s
h
,b
h
)为最优的判别器网络输出的奖励,s
h
为第h时刻雷达的状态信息,b
h
为第h时刻干扰机的动作,为第h时刻雷达诱导策略在干扰策略m
θ
中交互的干扰机状态动作分布,为第h时刻雷达诱导策略在干扰策略m中交互的干扰机状态动作分布,m
θ
为干扰策略网络输出的干扰策略,m为真实干扰策略,为第h时刻雷达的诱导策略。6.根据权利要求1所述的基于生成对抗模仿学习的干扰策略感知方法,其特征在于,所述步骤3包括:步骤3.1、获取未知的真实干扰策略m,并基于训练好的干扰策略网络得到干扰策略m
θ
;步骤3.2、根据未知的真实干扰策略m得到奖励的期望值根据干扰策略m
θ
得到奖励的期望值步骤3.3、基于奖励的期望值和奖励的期望值得到所述策略评估误差,所述策略评估误差为步骤3.4、判断所述策略评估误差是否恒定不变,若否,则跳转至步骤2,直至所述策略评估误差恒定,若是,则将当前训练好的干扰策略网络的输出作为用于训练抗干扰策略网络的干扰策略。7.根据权利要求1所述的基于生成对抗模仿学习的干扰策略感知方法,其特征在于,未知的真实干扰策略对应的奖励的期望值表示为:知的真实干扰策略对应的奖励的期望值表示为:训练好的干扰策略网络输出的干扰策略对应的奖励的期望值表示为:训练好的干扰策略网络输出的干扰策略对应的奖励的期望值表示为:其中,a
h
为第h时刻雷达的动作,s
h
为第h时刻雷达的状态信息,1≤h≤h,r
h
(s
h
,a
h
)为第h时刻雷达脉冲信号的奖励,ρ0为雷达所处的初始状态分布,π
h
(
·
|s
h
)为第h时刻雷达的诱导策略,m
h
(
·
|s
h
,a
h
)第h时刻干扰机的干扰策略;第h时刻雷达脉冲信号的奖励等于第h时刻雷达脉冲信号的信干噪比。8.根据权利要求1所述的基于生成对抗模仿学习的干扰策略感知方法,其特征在于,所述步骤4包括:
基于ppo算法,利用所述步骤3得到的干扰策略训练抗干扰策略网络,以得到训练好的抗干扰策略网络。9.根据权利要求8所述的基于生成对抗模仿学习的干扰策略感知方法,其特征在于,所述抗干扰策略网络对应的目标函数为:其中,为训练好的干扰策略网络输出的干扰策略对应的奖励的期望值。
技术总结
本发明公开了一种基于生成对抗模仿学习的干扰策略感知方法,包括:基于回合制马尔可夫决策过程,根据雷达和干扰机的交互得到在线样本集;将在线样本集中的在线样本输入干扰策略网络,并先更新判别器网络的参数,基于判别器网络输出的奖励更新生成器网络的参数,获取达到预设要求的生成器网络和判别器网络,以得到训练好的干扰策略网络;根据策略评估误差得到用于训练抗干扰策略网络的干扰策略;基于步骤3得到的干扰策略训练抗干扰策略网络,得到训练好的抗干扰策略网络;利用训练好的抗干扰策略网络输出的抗干扰策略在线对抗真实干扰策略。本发明的方法相较于监督学习方法能够缓解感知过程中的复合误差问题。解感知过程中的复合误差问题。解感知过程中的复合误差问题。
技术研发人员:纠博 李康 范友林 刘宏伟 赵宇
受保护的技术使用者:西安电子科技大学
技术研发日:2023.04.19
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/