一种基于干扰意识学习的抗智能干扰信道决策方法
未命名
10-21
阅读:55
评论:0
1.本技术涉及无线通信安全传输技术领域,特别涉及一种基于干扰意识学习的抗智能干扰信道决策方法。
背景技术:
2.在无线通信领域,抗干扰通信是用户适应复杂环境、提高信息传输可靠性的重要助力。随着人工智能与无线通信的深度融合,电子干扰技术发展迅速。干扰模式的数量及其智能化水平不断提高,使得无线通信系统面临日益复杂和恶劣的电磁环境。此外,随着无线电新技术和新业务的广泛应用,无线设备的数量急剧增加,使得频谱资源十分稀缺,相互干扰现象极为严重。因此,在无线通信安全领域,受益于人工智能技术,未来的新型干扰机将呈现“智能决策”的典型特征。“智能决策”是指干扰机具有一定的智能,能够根据环境或者通信用户决策的变化改变干扰决策,可以学习用户的传输策略,从以达到针对性的最优干扰效果。保证无线通信系统中的可靠传输,研究抗干扰技术对战胜新型智能干扰机具有重要意义。
3.在现有的工作中,一个常见的假设是干扰模式常常是固定的或启发式的。由于其固有的规律性,在面对具有学习能力用户时往往导致较低的干扰效率。当前,已有一些智能型预测式干扰具备感知和自主决策能力,能够利用感知到的数据对用户通信行为进行预测,从而释放针对性干扰信号。然而,仅有非常少的工作对智能干扰下的抗干扰通信进行了研究,但并未提出有效的解决方案。
4.最后,注意到现有关于无线通信智能对抗的文献大多从信号识别角度考虑智能干扰带来的影响,少有文献从频谱决策角度探讨抗干扰策略。如图1所示,从频谱决策角度进行探讨,考虑具有学习能力的智能干扰带来的威胁,此时智能干扰也会基于自身干扰效用优化干扰策略。由于干扰策略分布在不断变化,无法直接将干扰视为环境,导致传统单用户学习方法难以适用。
技术实现要素:
5.本技术提供了一种基于干扰意识学习的抗智能干扰信道决策方法,可用于解决现有技术中对只能干扰缺少针对解决方法的技术问题。
6.本技术提供一种基于干扰意识学习的抗智能干扰信道决策方法,包括以下步骤:
7.本技术提供一种基于干扰意识学习的抗智能干扰信道决策方法,方法包括:
8.步骤1,建立抗干扰模型,并将抗干扰信道决策问题,建立为最优化用户通信速率的问题;
9.步骤2,将抗智能干扰信道决策问题建立为双人同时决策的抗干扰博弈模型;其中智能用户与干扰拥有相同的状态空间与决策空间;
10.步骤3,复制当前模拟干扰智能体策略的参数,以复制的模拟干扰与当前用户构建虚拟频谱对抗环境,复制的模拟干扰根据当前次智能体虚拟交互过程更新自身策略参数,
获得更新后的模拟干扰策略;
11.步骤4,以当前用户与步骤3得到的模拟干扰策略构建虚拟频谱对抗环境,用户根据该次智能体虚拟交互过程更新自身策略参数,获得更新后的用户信道选择策略;
12.步骤5,智能用户利用步骤4得到的用户参与在线抗干扰信道决策过程,实现智能的抗干扰信道选择;
13.步骤6,模拟干扰智能体收集步骤5所述频谱交互中真实干扰的行为轨迹,并根据轨迹更新自身策略,以模拟真实干扰的行为。
14.可选的,抗干扰模型包括背景干扰、智能干扰以及一个用户对组成的通信系统;一个用户对包括一个发射机和一个接收机;
15.背景干扰机以固定的信道选择策略占用信道;智能干扰机通过学习优化自己的频率选择策略来干扰用户;假设由带有智能体的接收机来决定用户访问的具体无线信道;
16.接收机从控制链路向发射机发送信道决策消息告知下一时刻使用的信道;发射机在信道上发送信号后,接收机根据是否接收到发射机的信号在控制链路上回传该次信道决策的反馈信号,用于指示信号传输是否成功,并告知下一时刻的使用信道。
17.可选的,将抗干扰信道决策问题,建立为最优化用户通信速率的问题,包括:
18.决策过程建模为马尔可夫决策过程;
19.抗干扰模型中所有设备共享信道集,信道具有相同带宽,信道的频率为[f
k-b/2,fk+b/2],其中fk为中心频率,表示可选择地信道集合,用户的接收机的信干噪比sinr如公式(1)所示:
[0020][0021]
其中p
t
为发射机发射功率,fi,fj表示干扰信号的中心频点,gr,gj,gi为各自的信道增益,u(f)为功率谱密度方程,n(f)为高斯白噪声;
[0022]
通信速率为:
[0023][0024]
其中β
th
是接收机解调信号的信噪比阈值;在接收机端的功率谱密度方程s(f)表达为:
[0025]
s(f)=n(f)+giui(f-fi)+gjuj(f-fj)+guuu(f-fk).
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0026]
定义频谱分辨率δf,场景中每个无线终端进行频谱感知并采样获得的某一时刻的频谱观察状态表达为o
t
=[o1,o2,...,o
l
],其中oi通过以下方法确定:
[0027][0028]
用户智能体的目的是找到最优信道接入策略以最大化每个时隙下的通信传输速率,即:
[0029][0030]
其中用户策略πu是从接收机感知到的观察o
t
到用户信道决策fk的映射函数;
[0031]
智能干扰机的目的是找到最优干扰信道选择策略以最小化用户通信速率,即:
[0032][0033]
其中策略πj是从干扰机观察o
t
到干扰频率决策fj的映射函数,通信方与干扰方拥有对频谱相同的感知结果。
[0034]
可选的,步骤2中双人同时决策的抗干扰博弈模型为对抗双方的频谱感知、决策、依据决策效用调整策略,过程建立为双人同时决策的随机博弈模型,由元组表示;其中表示状态,表示状态转移概率,表示用户与干扰的联合决策奖励函数取决于当前状态与双方决策,即有
[0035]
可选的,步骤2所述随机博弈模型中,用户策略的单步策略学习差分表述为:
[0036][0037]
其中θu,θj分别表示用户和干扰的策略参数,参数上标i表示第i轮迭代过程,vu,vj分别表示用户与干扰的策略评估函数,δθu,δθj分别表示单步参数差分,δ表示单步步长。
[0038]
可选的,通过以下方法实现复制的模拟干扰根据当前次智能体虚拟交互过程更新自身策略参数:
[0039][0040]
其中θc表示复制的模拟干扰智能体策略,θc′
表示更新后的策略参数,表示模拟干扰智能体的损失函数。
[0041]
可选的,以当前用户与步骤3得到的模拟干扰策略构建虚拟频谱对抗环境,用户根据该次智能体虚拟交互过程更新自身策略参数,获得更新后的用户信道选择策略,包括:
[0042]
智能用户利用虚拟对抗获得的若干频谱对抗行为轨迹表示为:
[0043][0044]
使用策略梯度估计方法,智能体的状态值函数vu和vj通过历史回报数据进行估计,通过式(7)衍生得到策略梯度估计方法下用户智能体的更新目标:
[0045][0046]
其中,模拟干扰策略参数θs由步骤3所述模拟干扰智能体复制得到。
[0047]
可选的,步骤5中,智能用户利用步骤4得到的用户参与在线抗干扰信道决策过程中,用户策略学习与用户策略利用交替进行,在线决策与频谱对抗数据收集同时进行。
[0048]
可选的,模拟干扰智能体收集步骤5所述频谱交互中真实干扰的行为轨迹,并根据轨迹更新自身策略,通过以下方法实现:
[0049]
模拟干扰智能体θs观察真实的频谱对抗过程并收集真实干扰行为信息的过程,如下:
[0050]
由于用户与模拟干扰间是完全合作的,通过观察历史频谱并提取出用户行为与干扰行为,模拟干扰可获得真实干扰的历史决策过程其中s
t
表示t时刻频谱状态,表示用户与干扰的t时刻的决策;
[0051]
基于模拟干扰自身的效用函数,得到模拟干扰的虚拟行为轨迹为:
[0052]
其中表示模拟干扰在t时刻决策的回报;执行策略参数更新过程,其中表示模拟干扰策略参数损失。
[0053]
可选的,用户策略学习方法通过以下方法确定:
[0054]
步骤51,初始化:用户智能体θu,干扰智能体θj,模拟干扰智能体θs;
[0055]
步骤52,输入用户向前预测干扰策略变化步数k以及策略更新步长α;
[0056]
步骤53,复制模拟干扰智能体参数θc←
θs;在策略(πu,πc)得到虚拟频谱交互轨迹;根据轨迹求得虚拟环境下模拟干扰参数变化
[0057]
步骤54,在策略(πu,πc′
)得到虚拟频谱交互轨迹;在虚拟环境下更新用户参数
[0058]
步骤55,在策略(πu,πc′
)下进行频谱交互,获得真实频谱对抗轨迹τ
actual
;干扰智能体评估自身效用,并更新自身策略参数;
[0059]
步骤56,模拟干扰智能体θs以轨迹τ
imitaion
更新策略参数;
[0060]
步骤57,输出用户策略θu。
[0061]
本技术将频谱对抗过程构建为一个双人同时动作的随机博弈,根据博弈模型,提出了一个新的用户迭代学习目标,为了实现提出的学习目标,构造了一个模仿干扰方行为的模拟干扰智能体,利用模拟干扰和用户构建虚拟的频谱对抗环境,通过虚拟频谱对抗,用户预测了干扰方未来的策略变化,并将干扰策略变化加入用户的学习过程。本技术提供的方法收敛稳定,在动态频谱对抗中表现出更好的性能。
附图说明
[0062]
图1为本技术实施例提供的通信干扰智能对抗的示意图;
[0063]
图2是本技术实施例提供的抗智能干扰模型的模型图;
[0064]
图3是本技术实施例提供的基于干扰意识学习的抗智能干扰决策方法的示意图;
[0065]
图4是本技术实施例1中的用户抗干扰方法工作流程;
[0066]
图5是本技术实施例1中的平均包成功率变化图。
具体实施方式
[0067]
为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
[0068]
下面首先结合附图对本技术实施例适用的可能的系统架构进行介绍。
[0069]
请参考图1,其示例性示出了本技术实施例适用的一种系统的结构示意图。该系统可以包括用户智能体与干扰智能体,用户与干扰都具备通过迭代优化自身策略的学习能力。
[0070]
图2是本发明所提出的抗智能干扰用户信道接入模型。在这一模型中,背景干扰、智能干扰与一个用户对(一个发射机和一个接收机)组成的通信系统同时存在。
[0071]
图3是本发明所提中基于干扰意识学习的抗智能干扰决策方法的示意图。传统强化学习采用在线试错的方式,需要较长的训练过程,难以满足高动态环境下的实时决策要求。为此,本技术提出“离线提前训练+在线策略适配”的方式,根据历史频谱对抗数据,生成与真实干扰决策分布类似的模拟干扰。在训练阶段,通信智能体通过离线与模拟干扰进行虚拟对抗,提前得到最优的策略网络。在运用阶段,直接采用训练好的抗干扰策略网络进行对抗,并根据实时对抗反馈微调策略网络与模拟干扰策略网络。
[0072]
图4是本发明所提方法的用户抗干扰方法工作流程。本发明所提方法在离线的虚拟频谱对抗与在线的真实频谱对抗间轮流交替,真实对抗的数据会被收集用于构造模拟干扰机,用户通过虚拟对抗进行策略学习,并在在线对抗阶段直接部署策略进行信道决策。
[0073]
下面具体阐述本技术实施例。本技术提供一种基于干扰意识学习的抗智能干扰信道决策方法,包括以下步骤:
[0074]
步骤1,将抗干扰信道决策问题,建立为最优化用户通信速率的问题。
[0075]
进一步地,步骤1所述抗干扰模型如图2所示,干扰模型包括背景干扰、智能干扰以及一个用户对组成的通信系统;一个用户对包括一个发射机和一个接收机;
[0076]
背景干扰机以固定的信道选择策略占用信道;智能干扰机通过学习优化自己的频率选择策略来干扰用户;假设由带有智能体的接收机来决定用户访问的具体无线信道;
[0077]
接收机从控制链路向发射机发送信道决策消息告知下一时刻使用的信道;发射机在信道上发送信号后,接收机根据是否接收到发射机的信号在控制链路上回传该次信道决策的反馈信号,用于指示信号传输是否成功,并告知下一时刻的使用信道;
[0078]
决策过程建模为马尔可夫决策过程,以此优化用户频率来决策出最大化的用户宽带通信的吞吐量。
[0079]
将抗干扰信道决策问题,建立为最优化用户通信速率的问题,步骤1中抗干扰模型中所有设备共享信道集,信道具有相同带宽,信道的频率为[f
k-b/2,fk+b/2],其中fk为中心频率,表示可选择地信道集合,用户的接收机的信干噪比sinr表示为如公式(1)所示:
[0080][0081]
其中p
t
为发射机发射功率,fi,fj表示干扰信号的中心频点,gr,gj,gi为各自的信道增益,u(f)为功率谱密度方程,n(f)为高斯白噪声;
[0082]
通信速率为:
[0083][0084]
其中β
th
是接收机解调信号的信噪比阈值;为了便于信道接入策略的分析,考虑所
有信号同时存在的情况,在接收机端的功率谱密度方程s(f)表达为:
[0085]
s(f)=n(f)+giui(f-fi)+gjuj(f-fj)+guuu(f-fk).
ꢀꢀꢀꢀꢀꢀ
(3)
[0086]
定义频谱分辨率δf,场景中每个无线终端进行频谱感知并采样获得的某一时刻的频谱观察状态表达为o
t
=[o1,o2,...,o
l
],其中oi通过以下方法确定:
[0087][0088]
用户智能体的目的是找到最优信道接入策略以最大化每个时隙下的通信传输速率,即:
[0089][0090]
其中用户策略πu是从接收机感知到的观察o
t
到用户信道决策fk的映射函数;
[0091]
智能干扰机的目的是找到最优干扰信道选择策略以最小化用户通信速率,即:
[0092][0093]
其中策略πj是从干扰机观察o
t
到干扰频率决策fj的映射函数,通信方与干扰方拥有对频谱相同的感知结果。
[0094]
步骤2,将抗智能干扰信道决策问题建立为双人同时决策的抗干扰博弈模型;其中智能用户与干扰拥有相同的状态空间与决策空。
[0095]
具体的,步骤2中双人同时决策的抗干扰博弈模型为对抗双方的频谱感知、决策、依据决策效用调整策略,过程建立为双人同时决策的随机博弈模型,由元组表示;其中表示状态,表示状态转移概率,表示用户与干扰的联合决策奖励函数取决于当前状态与双方决策,即有
[0096]
随机博弈模型中,用户策略的单步策略学习差分表述为:
[0097][0098]
其中θu,θj分别表示用户和干扰的策略参数,参数上标i表示第i轮迭代过程,vu,vj分别表示用户与干扰的策略评估函数,δθu,δθj分别表示单步参数差分,δ表示单步步长。
[0099]
步骤3,复制当前模拟干扰智能体策略的参数,以复制的模拟干扰与当前用户构建虚拟频谱对抗环境,复制的模拟干扰根据当前次智能体虚拟交互过程更新自身策略参数,获得更新后的模拟干扰策略。
[0100]
通过以下方法实现复制的模拟干扰根据当前次智能体虚拟交互过程更新自身策略参数:
[0101][0102]
其中θc表示复制的模拟干扰智能体策略,θc′
表示更新后的策略参数,表示模
拟干扰智能体的损失函数。
[0103]
步骤4,以当前用户与步骤3得到的模拟干扰策略构建虚拟频谱对抗环境,用户根据该次智能体虚拟交互过程更新自身策略参数,获得更新后的用户信道选择策略;
[0104]
具体的,智能用户利用虚拟对抗获得的若干频谱对抗行为轨迹表示为:
[0105][0106]
使用策略梯度估计方法,智能体的状态值函数vu和vj通过历史回报数据进行估计,通过式(7)衍生得到策略梯度估计方法下用户智能体的更新目标:
[0107][0108]
其中,模拟干扰策略参数θs由步骤3所述模拟干扰智能体复制得到,即该参数的更新不影响步骤6模拟干扰构造中的模拟干扰学习过程。
[0109]
步骤5,智能用户利用步骤4得到的用户参与在线抗干扰信道决策过程,实现智能的抗干扰信道选择。
[0110]
步骤5智能用户利用步骤4得到的用户参与在线抗干扰信道决策过程中,的过程如图4所示,用户策略学习与用户策略利用交替进行,在线决策与频谱对抗数据收集同时进行。
[0111]
用户策略学习方法包括以下具体步骤:
[0112]
步骤51,初始化:用户智能体θu,干扰智能体θj,模拟干扰智能体θs;
[0113]
步骤52,输入用户向前预测干扰策略变化步数k以及策略更新步长α;
[0114]
步骤53,复制模拟干扰智能体参数θc←
θs;在策略(πu,πc)得到虚拟频谱交互轨迹;根据轨迹求得虚拟环境下模拟干扰参数变化
[0115]
步骤54,在策略(πu,πc′
)得到虚拟频谱交互轨迹;在虚拟环境下更新用户参数
[0116]
步骤55,在策略(πu,πc′
)下进行频谱交互,获得真实频谱对抗轨迹τ
actual
;干扰智能体评估自身效用,并更新自身策略参数;
[0117]
步骤56,模拟干扰智能体θs以轨迹t
imitaion
更新策略参数;
[0118]
步骤57,输出用户策略θu。
[0119]
步骤6,模拟干扰智能体收集步骤5所述频谱交互中真实干扰的行为轨迹,并根据轨迹更新自身策略,以模拟真实干扰的行为。
[0120]
模拟干扰智能体θs观察真实的频谱对抗过程并收集真实干扰行为信息的过程,如下:
[0121]
由于用户与模拟干扰间是完全合作的,通过观察历史频谱并提取出用户行为与干扰行为,模拟干扰可获得真实干扰的历史决策过程其中s
t
表示t时刻频谱状态,表示用户与干扰的t时刻的决策;
[0122]
基于模拟干扰自身的效用函数,得到模拟干扰的虚拟行为轨迹为:
[0123]
其中表示模拟干扰在t时刻决策的回报;执行策略参数更新过程,其中表示模拟干扰策略参数损失。
[0124]
以上所述的本技术实施方式并不构成对本技术保护范围的限定。
[0125]
实施例1
[0126]
本发明的实施例1,具体描述如下,并通过仿真实验来证明所提出的智能抗干扰方案的有效性。设计每个信道的带宽为2mhz,信道数为5。用户和干扰信号均为升余弦滚降波形,包含滚降系数为0.4,其中干扰功率为30dbm,用户信号功率0dbm,用户的信号解调门限设计为10db,背景干扰的信道切换概率设置为0.9。所有智能体均采用全连接感知机(mlp)的网络结构,使用adam优化器被来辅助策略学习,学习速率被设置为0.005和。仿真实验采用100步作为一轮,策略学习基于64的批处理大小,强化学习的未来奖励折扣值设置为0.85。所有的实验基于python编程语言与pytorch深度学习框架。对损失函数的偏导通过代码torch.autograd.grad(objective,(theta))实现,objective表示计算得到地优化目标,theta表示需要优化的策略参数。
[0127]
图5是本发明中实施例1所展示基于干扰意识学习抗干扰方法与常规深度强化学习方法的抗干扰性能比较,以100次频谱对抗作为一个比较的滑动窗口,平均处理20次实验结果,比较不同算法间的平均包成功率。传统深度强化学习抗干扰算法的始终无法收敛,导致较低的累积回报。通过浅色的95%置信区间,还可以发现传统深度强化学习抗干扰算法比基于感知决策方法波动性更强。而所提抗干扰算法通过虚拟频谱对抗的预演增强了抗干扰策略,增加了通信方的信息优势,随着对抗过程迭代的增加,模拟干扰对真实干扰的策略相似性的提升,最终能维持在通信优势的均衡策略附近。
[0128]
本技术将频谱对抗过程构建为一个双人同时动作的随机博弈,根据博弈模型,提出了一个新的用户迭代学习目标,为了实现提出的学习目标,构造了一个模仿干扰方行为的模拟干扰智能体,利用模拟干扰和用户构建虚拟的频谱对抗环境,通过虚拟频谱对抗,用户预测了干扰方未来的策略变化,并将干扰策略变化加入用户的学习过程。本技术提供的方法收敛稳定,在动态频谱对抗中表现出更好的性能。本技术提出“离线提前训练+在线策略适配”的方式,根据历史频谱对抗数据,生成与真实干扰决策分布类似的模拟干扰。在训练阶段,通信智能体通过离线与模拟干扰进行虚拟对抗,提前得到最优的策略网络。在运用阶段,直接采用训练好的抗干扰策略网络进行对抗,并根据实时对抗反馈微调策略网络与模拟干扰策略网络。
技术特征:
1.一种基于干扰意识学习的抗智能干扰信道决策方法,其特征在于,所述方法包括:步骤1,建立抗干扰模型,并将抗干扰信道决策问题,建立为最优化用户通信速率的问题;步骤2,将抗智能干扰信道决策问题建立为双人同时决策的抗干扰博弈模型;其中智能用户与干扰拥有相同的状态空间与决策空间;步骤3,复制当前模拟干扰智能体策略的参数,以复制的模拟干扰与当前用户构建虚拟频谱对抗环境,复制的模拟干扰根据当前次智能体虚拟交互过程更新自身策略参数,获得更新后的模拟干扰策略;步骤4,以当前用户与步骤3得到的模拟干扰策略构建虚拟频谱对抗环境,用户根据该次智能体虚拟交互过程更新自身策略参数,获得更新后的用户信道选择策略;步骤5,智能用户利用步骤4得到的用户参与在线抗干扰信道决策过程,实现智能的抗干扰信道选择;步骤6,模拟干扰智能体收集步骤5所述频谱交互中真实干扰的行为轨迹,并根据轨迹更新自身策略,以模拟真实干扰的行为。2.根据权利要求1所述的方法,其特征在于,抗干扰模型包括背景干扰、智能干扰以及一个用户对组成的通信系统;一个用户对包括一个发射机和一个接收机;背景干扰机以固定的信道选择策略占用信道;智能干扰机通过学习优化自己的频率选择策略来干扰用户;假设由带有智能体的接收机来决定用户访问的具体无线信道;接收机从控制链路向发射机发送信道决策消息告知下一时刻使用的信道;发射机在信道上发送信号后,接收机根据是否接收到发射机的信号在控制链路上回传该次信道决策的反馈信号,用于指示信号传输是否成功,并告知下一时刻的使用信道。3.根据权利要求1所述的方法,其特征在于,将抗干扰信道决策问题,建立为最优化用户通信速率的问题,包括:决策过程建模为马尔可夫决策过程;抗干扰模型中所有设备共享信道集,信道具有相同带宽,信道的频率为[f
k-b/2,f
k
+b/2],其中f
k
为中心频率,表示可选择地信道集合,用户的接收机的信干噪比sinr如公式(1)所示:其中p
t
为发射机发射功率,f
i
,f
j
表示干扰信号的中心频点,g
r
,g
j
,g
i
为各自的信道增益,u(f)为功率谱密度方程,n(f)为高斯白噪声;通信速率为:其中β
th
是接收机解调信号的信噪比阈值;在接收机端的功率谱密度方程s(f)表达为:s(f)=n(f)+g
i
u
i
(f-f
i
)+g
j
u
j
(f-f
j
)+g
u
u
u
(f-f
k
).
ꢀꢀꢀꢀꢀꢀ
(3)定义频谱分辨率δf,场景中每个无线终端进行频谱感知并采样获得的某一时刻的频
谱观察状态表达为o
t
=[o1,o2,...,o
l
],其中o
i
通过以下方法确定:用户智能体的目的是找到最优信道接入策略以最大化每个时隙下的通信传输速率,即:其中用户策略π
u
是从接收机感知到的观察o
t
到用户信道决策f
k
的映射函数;智能干扰机的目的是找到最优干扰信道选择策略以最小化用户通信速率,即:其中策略π
j
是从干扰机观察o
t
到干扰频率决策f
j
的映射函数,通信方与干扰方拥有对频谱相同的感知结果。4.根据权利要求3所述的方法,其特征在于,步骤2中双人同时决策的抗干扰博弈模型为对抗双方的频谱感知、决策、依据决策效用调整策略,过程建立为双人同时决策的随机博弈模型,由元组表示;其中表示状态,表示状态转移概率,表示用户与干扰的联合决策奖励函数取决于当前状态与双方决策,即有5.根据权利要求4所述的方法,其特征在于,步骤2所述随机博弈模型中,用户策略的单步策略学习差分表述为:其中θ
u
,θ
j
分别表示用户和干扰的策略参数,参数上标i表示第i轮迭代过程,v
u
,v
j
分别表示用户与干扰的策略评估函数,δθ
u
,δθ
j
分别表示单步参数差分,δ表示单步步长。6.根据权利要求5所述的方法,其特征在于,通过以下方法实现复制的模拟干扰根据当前次智能体虚拟交互过程更新自身策略参数:其中θ
c
表示复制的模拟干扰智能体策略,θ
′
c
表示更新后的策略参数,表示模拟干扰智能体的损失函数。7.根据权利要求6所述的方法,其特征在于,以当前用户与步骤3得到的模拟干扰策略构建虚拟频谱对抗环境,用户根据该次智能体虚拟交互过程更新自身策略参数,获得更新后的用户信道选择策略,包括:智能用户利用虚拟对抗获得的若干频谱对抗行为轨迹表示为:
使用策略梯度估计方法,智能体的状态值函数v
u
和v
j
通过历史回报数据进行估计,通过式(7)衍生得到策略梯度估计方法下用户智能体的更新目标:其中,模拟干扰策略参数θ
s
由步骤3所述模拟干扰智能体复制得到。8.根据权利要求7所述的方法,其特征在于,步骤5中,智能用户利用步骤4得到的用户参与在线抗干扰信道决策过程中,用户策略学习与用户策略利用交替进行,在线决策与频谱对抗数据收集同时进行。9.根据权利要求8所述的方法,其特征在于,模拟干扰智能体收集步骤5所述频谱交互中真实干扰的行为轨迹,并根据轨迹更新自身策略,通过以下方法实现:模拟干扰智能体θ
s
观察真实的频谱对抗过程并收集真实干扰行为信息的过程,如下:由于用户与模拟干扰间是完全合作的,通过观察历史频谱并提取出用户行为与干扰行为,模拟干扰可获得真实干扰的历史决策过程其中s
t
表示t时刻频谱状态,表示用户与干扰的t时刻的决策;基于模拟干扰自身的效用函数,得到模拟干扰的虚拟行为轨迹为:其中表示模拟干扰在t时刻决策的回报;执行策略参数更新过程,其中表示模拟干扰策略参数损失。10.根据权利要求9所述的方法,其特征在于,用户策略学习方法通过以下方法确定:步骤51,初始化:用户智能体θ
u
,干扰智能体θ
j
,模拟干扰智能体θ
s
;步骤52,输入用户向前预测干扰策略变化步数k以及策略更新步长α;步骤53,复制模拟干扰智能体参数θ
c
←
θ
s
;在策略(π
u
,π
c
)得到虚拟频谱交互轨迹;根据轨迹求得虚拟环境下模拟干扰参数变化步骤54,在策略(π
u
,π
c
′
)得到虚拟频谱交互轨迹;在虚拟环境下更新用户参数步骤55,在策略(π
u
,π
c
′
)下进行频谱交互,获得真实频谱对抗轨迹τ
actual
;干扰智能体评估自身效用,并更新自身策略参数;步骤56,模拟干扰智能体θ
s
以轨迹τ
imitaion
更新策略参数;步骤57,输出用户策略θ
u
。
技术总结
本申请提供一种基于干扰意识学习的抗智能干扰信道决策方法,方法包括:建立抗干扰模型,建立最优化用户通信速率模型;建立为双人同时决策的抗干扰博弈模型;其中智能用户与干扰拥有相同的状态空间与决策空间;复制当前模拟干扰智能体策略的参数,以复制的模拟干扰与当前用户构建虚拟频谱对抗环境,复制的模拟干扰根据当前次智能体虚拟交互过程更新自身策略参数;用户根据该次智能体虚拟交互过程更新自身策略参数,获得更新后的用户信道选择策略;智能用户利用用户参与在线抗干扰信道决策过程;模拟干扰智能体收集频谱交互中真实干扰的行为轨迹,并根据轨迹更新自身策略。本申请收敛稳定,在动态频谱对抗中性能良好。在动态频谱对抗中性能良好。在动态频谱对抗中性能良好。
技术研发人员:陈瑾 徐煜华 袁鸿程 李国鑫 李文 韩昊
受保护的技术使用者:中国人民解放军陆军工程大学
技术研发日:2023.08.03
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种竹炭生产设备的制作方法 下一篇:一种蓝藻污染治理装置的制作方法