基于深度学习的光学射频对消多维参数自适应优化方法

未命名 08-02 阅读:101 评论:0


1.本发明属于射频通信技术领域,涉及微波光子学、雷达探测、多维参数优化、深度强化学习、人工智能等领域,尤其涉及一种基于深度学习的光学射频对消多维参数自适应优化方法。


背景技术:

2.随着无线通信产业的发展,无线通信中使用的信号带宽越来越宽,频谱需求越来越大,相对应的频谱资源却越来越少。不断增长的信号频率及带宽给通信和雷达设备带来了巨大的挑战。现有的频分复用和时分复用技术尽管能够实现全双工工作模式,但二者由于自身工作方式限制对频谱资源的利用率与同时同频全双工技术相比还有一定差距,并不能完全利用频谱资源。而在同时同频全双工技术的应用中,无线设备中有限的收发隔离会造成发射天线的发射信号不可避免的泄漏到接收天线中,若有用信号与泄漏信号在接收机中同时存在,则接收机对有用信号的接收处理能力必然会受到影响。这类会影响接收机性能的泄漏信号一般被统称为自干扰。因此,如何在节约频谱资源以及最大化利用频谱的前提下避免自身信号干扰的问题成为了研究热点。为了解决上述问题,提高频谱的利用效率,使接收机能够对有用信号进行接收,自干扰消除技术被引入到同时同频全双工射频接收机前端。另外,随着微波光子技术被越来越广泛的应用于射频信号处理领域,微波光子技术能提供更大调节范围及更精细的延时调谐精度,以及固有的大瞬时带宽特性,这些特性也使得光子辅助的宽带射频对消技术成为了自干扰信号对消技术重点关注的解决方案。在实际应用场景中,由于无线信道中反射、散射和衍射效应的影响,自干扰信号不仅包含从发射天线到接收天线的直接自干扰分量也包含反射、散射和衍射造成的不同路径传输的多路自干扰分量。然而,传统的单路光学自干扰对消方案仅针对多路自干扰信号中的直接分量部分进行消除,而忽略了不同路径的多路分量对同时同频全双工系统的影响。因此,传统的单路光学自干扰对消方案并不能满足同时同频全双工射频系统的工作要求,多路自干扰消除方案不可避免地成为了研究热点。
3.大部分光学自干扰消除方案都是通过观测自干扰信号的波形或频谱来手动控制参考信号的幅度和时延实现的。然而,这一手动调谐过程将需要较长的时间来完成,继而限制自干扰消除技术的在实际场景中的应用。特别是对于具有快变自干扰信号的同时同频全双工系统,这个问题尤为显著。为了提高自干扰对消速度,这一手动调谐过程可以被一个由实时自适应算法构成的全自动过程取代。
4.深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。
5.因此,针对光学宽带多径自干扰对消系统所带来的多维参数优化难题,利用深度强化学习的人工智能理论,实现基于光学自适应射频对消的多维参数自适应优化,更好更
快地解决多径自干扰问题。


技术实现要素:

6.为了快速准确自动地对光学射频对消系统的参数进行优化从而对多径自干扰信号进行消除,在实际应用场景中快速准确消除多路自干扰信号,实现同时同频全双工通信。本发明提供一种基于深度学习的光学射频对消多维参数自适应优化方法。
7.本发明的一种基于深度学习的光学射频对消多维参数自适应优化方法,采用基于光学射频对消的无线同时同频全双工系统,系统包含信号发送端,光学射频自适应对消信号合成端和信号接收端,信号发送端包括信号发射模块和参考信号耦合模块,光学射频自适应对消信号合成端包含多维强化学习优化模块和自适应对消信号合成模块,接收端包括信号接收模块,信号合成模块和状态奖励反馈模块。其方法包括以下步骤:
8.步骤1:建立深度强化学习网络:随机初始化网络权重值为θq的评论家网络q(s,a|θq)和网络权重值为θ
μ
的演员网络μ(s|θ
μ
),初始化目标评论家网络q’和目标演员网络μ’并将θq和θ
μ
分别赋给目标的网络权重,初始化重放缓存以存放光学射频对消参数优化的过往经历。
9.步骤2:观测状态并给出参数优化动作:深度强化学习网络根据初始的状态值s
t
给出光学射频对消参数优化动作,其中若重放缓存空间未满则随机从动作空间中随机选取参数优化动作a
t
否则根据目标演员网络μ’和探索噪声noise给出参数优化动作a
t
=μ’(s
t

μ
)+noise,其中状态值包含自适应对消信号合成的所有多维参数以及反馈的多个分片的自干扰信号功率值,参数优化动作值包含自适应对消信号合成的所有多维参数。
10.步骤3:存储过渡过程:将选取的参数优化动作a
t
送入自适应对消信号合成模块执行优化,执行优化后观测新的状态值s
t+1
和相关奖励值r
t
,将过渡过程(s
t
,a
t
,r
t
,s
t+1
)存入重放缓存中备用。
11.步骤4:随机抽取过渡过程:在重放缓存中将数量n的过渡过程(si,ai,ri,s
i+1
)进行随机抽样并计算yi=ri+γq

(s
i+1


(s
i+1

μ

)|θq′
),用以更新提供光学射频对消参数优化动作的深度神经网络,其中γ为折扣因子。
12.步骤5:更新深度强化学习网络:将抽取数量n的过渡过程的各种变量对评论家网络通过进行网络权重值的更新和对演员网络通过进行网络权重值更新,将更新后的评论家网络和演员网络的网络权重结合延迟更新量对目标评论家网络和演员网络进行软更新。
13.步骤6:重复步骤2-5,达到一定的步骤数后实现多路自干扰信号消除。
14.进一步的,步骤1中:评论家网络,演员网络,目标评论家网络,目标演员网络由全连接神经网络构成;评论家网络和目标评论家网络的输入为状态值和参数优化动作值,输出为评估参数优化动作值的值;演员网络和目标演员网络的输入为状态值,输出为参数优化动作值。
15.进一步的,步骤2中:
16.定义状态值s
t
用作量化当前光学射频对消系统的状态,包含自适应对消信号合成
端的状态值和残留自干扰信号的分片平均功率值并映射到-1~1,其中自适应对消信号合成端的状态值为一定数量的时延值和衰减值。
17.定义参数优化动作值a
t
为自适应对消信号合成的所有多维参数值,主要为一定数量的时延值和衰减值。
18.定义奖励值r
t
用作衡量当前参数优化动作值对残留自干扰信号的功率的影响,计算公式为r=10
sca(nf-crp)
,其中nf+为接收到的多径自干扰信号的噪底平均功率值,crp为残留多径自干扰信号的平均功率值,运算符sca表示缩放映射运算,将噪底与残留自干扰信号的功率差值缩放映射到0~2。
19.本发明的有益技术效果为:
20.本发明能够快速准确地对光学射频对消系统的参数进行自适应优化从而将多路自干扰信号消除,实现同时同频全双工通信。
附图说明
21.图1为本发明基于深度学习的光学射频对消多维参数自适应优化方法的实现框图。
22.图2为本发明基于深度强化学习的算法更新框图。
23.图3为本发明具体实施例的方案示意图。
24.图4为本发明方法的基于深度强化学习的光学射频对消多维参数自适应优化过程图。
25.图5为本发明方法的在自适应优化过程中每次重置恢复的自适应优化过程图。
26.图6为本发明方法的图5相对应的多路自干扰对消频谱图。
具体实施方式
27.下面结合附图和具体实施例对本发明做进一步详细说明。
28.本发明的一种基于深度学习的光学射频对消多维参数自适应优化方法实现框图如图1所示,具体采用基于光学射频对消的无线同时同频全双工系统。系统包含信号发送端,光学射频自适应对消信号合成端和信号接收端,信号发送端包括信号发射模块和参考信号耦合模块,光学射频自适应对消信号合成端包含多维强化学习优化模块和自适应对消信号合成模块,接收端包括信号接收模块,信号合成模块和状态奖励反馈模块。其方法包括以下步骤:
29.步骤1:建立深度强化学习网络:随机初始化网络权重值为θq的评论家网络q(s,a|θq)和网络权重值为θ
μ
的演员网络μ(s|θ
μ
),初始化目标评论家网络q’和目标演员网络μ’并将θq和θ
μ
分别赋给目标的网络权重,初始化重放缓存以存放光学射频对消参数优化的过往经历。
30.步骤2:观测状态并给出参数优化动作:动作收到初始的状态值s
t
,若重放缓存空间未满则随机从动作空间中随机选取参数优化动作a
t
否则根据目标演员网络μ’和探索噪声noise给出参数优化动作a
t
=μ’(s
t

μ
)+noise,其中状态值包含自适应对消信号合成的所有多维参数以及反馈的多个分片的自干扰信号功率值,参数优化动作值包含自适应对消信号合成的所有多维参数。
31.步骤3:存储过渡过程:将选取的参数优化动作a
t
送入自适应对消信号合成模块执行优化,执行优化后观测新的状态值s
t+1
和相关奖励值r
t
,将过渡过程(s
t
,a
t
,r
t
,s
t+1
)存入重放缓存中备用。
32.步骤4:随机抽取过渡过程:在重放缓存中将数量n的过渡过程(si,ai,ri,s
i+1
)进行随机抽样并计算yi=ri+γq

(s
i+1


(s
i+1

μ

)|θq′
),其中γ为折扣因子。
33.步骤5:更新深度强化学习网络(更新过程如图2所示):将抽取数量n的过渡过程的各种变量对评论家网络通过进行网络权重值的更新和对演员网络通过进行网络权重值更新,将更新后的评论家网络和演员网络的网络权重结合延迟更新量对目标评论家网络和演员网络进行软更新。
34.步骤6:重复步骤2-5,达到一定的步骤数后实现多路自干扰信号消除。
35.进一步的,步骤1中:评论家网络,演员网络,目标评论家网络,目标演员网络由全连接神经网络构成;评论家网络和目标评论家网络的输入为状态值和参数优化动作值,输出为评估参数优化动作值的值;演员网络和目标演员网络的输入为状态值,输出为参数优化动作值。
36.进一步的,步骤2中:
37.定义状态值s
t
用作量化当前光学射频对消系统的状态,包含自适应对消信号合成端的状态值和残留自干扰信号的分片平均功率值并映射到-1~1,其中自适应对消信号合成端的状态值为一定数量的时延值和衰减值。
38.定义参数优化动作值a
t
为自适应对消信号合成的所有多维参数值,主要为一定数量的时延值和衰减值。
39.定义奖励值r
t
用作衡量当前参数优化动作值对残留自干扰信号的功率的影响,计算公式为r=10
sca(nf-crp)
,其中nf+为接收到的多径自干扰信号的噪底平均功率值,crp为残留多径自干扰信号的平均功率值,运算符sca表示缩放映射运算,将噪底与残留自干扰信号的功率差值缩放映射到0~2。
40.实施例:
41.本发明实施例基于深度学习的光学射频对消多维参数自适应优化方法如图3所示,具体为:
42.1、射频电信号由信号源100发出,而后在电/光转换模块200中被转换为光信号,在小信号模型下,输出光信号可以表示为:
[0043][0044]
其中,e0为光信号的幅值,ω0为光信号的的角频率,s
t
(t)为信号源100发出的射频电信号。
[0045]
2、光信号在通过光分束器300后,被分为发射信号和参考信号,其中参考信号分为多路送入光学多径自干扰对消系统700以对消多径自干扰信号,发射信号通过单模光纤400送入光/电转换模块500中恢复为射频电信号。
[0046]
3、在光学多径自干扰对消系统700中,多路参考信号在经过不同路的衰减调节701
和时延调节702后,可以表示为:
[0047][0048]
其中,n为参考信号的路径数量,α
r,i
为第i条路径的衰减值,τ
r,i
为第i条路径的时延值,v
π1
为电/光转换模块200的半波电压。
[0049]
4、在光/电转换模块500中,恢复的射频电信号送入发射天线发射到自由空间中,自由空间中的发射信号经由反射、折射和散射形成多径自干扰信号600,由于接收天线与发射天线间隔很近,多径自干扰信号600与有效信号一起被接收天线接收称为混合接收信号,送入电/光转换模块200中被转换为光信号从而被送入单模光纤410中进行传输,最终送入光学多径自干扰对消系统700。
[0050]
5、在光学多径自干扰对消系统700中,混合接收信号直接送入平衡探测器703的其中一个接口,恢复为射频电信号,可以表示为:
[0051][0052]
其中,i0和i1分别是直流(dc)和基频项的振幅,v
soi
为有效信号的幅度,v
t
为多径自干扰信号中原始信号的幅度值,αn和τn分别为多径自干扰信号的衰减值和时延值。
[0053]
在光学多径自干扰对消系统700中,经过调节的多路参考信号合路后一起送入平衡探测器703的其中另一个接口,恢复为射频电信号,在平衡探测器703的输出端的射频电信号可以表示为:
[0054][0055]
从上式中可以看出,只要适当调整多路参考信号的延时量以及幅度,多径自干扰信号可以抵消,恢复纯净的有效信号。
[0056]
6、在深度强化学习模块800中,根据送入模块的状态与奖励801信息,模块自动优化光学多径自干扰对消系统的多路衰减值701参数和时延值702参数,使得多路参考信号的延时量以及幅度与多径自干扰信号的时延值与幅度值匹配,从而将多径自干扰信号对消并恢复有效信号。
[0057]
上述步骤6中,深度强化学习模块800的网络更新流程图如图2所示。深度强化学习模块800的深度网络包含4个深度神经网络(dnns),包括2个演员网络和2个评论家网络,它们都由多层感知器(mlp)组成。mlp是一种多层全连接神经网络,在本实例中采用三层mlp算法,包括输入层、隐藏层和输出层,其中隐层节点数为256。输入层和输出层分别表示输入状态和输出参数优化动作。演员网络直接与光学多径射频对消系统交互,根据当前状态导出下一步动作,其中动作分别表示对功率衰减和时延的操作。目标演员网络可视为演员网络的副本,用于在反向传播优化中根据下一个状态计算和评估未来可能的参数优化动作。评
论家也由一个三层的mlp找到,包括输入层、隐藏层和输出层,其中隐层节点数为256。输入层表示当前状态和执行的参数优化动作。输出层表示一个q值,用于评估在光学多径射频对消系统中当前执行的操作的奖励。目标评论家网络可视为临界网络的副本,用于计算反向传播优化中从目标演员者网络获得的动作所对应的q值。
[0058]
根据上述流程如图4所示,将基于深度强化学习的光学射频对消多维参数自适应优化过程的总步骤设置为1500步,每50为一段将光学射频对消的多维参数进行随机选择,而后让本实例对进行光学射频对消多维参数自适应优化,并且前500步作为填满重放缓存的多维参数随机选择以加强本实例算法自适应优化能力的鲁棒性。在图4中,可以看过通过前500步的学习后,本实例算法可以利用以往学习的经验逐渐找到最佳的多维对消参数即获取最大奖励,并且每次随机重置后都能找到最佳的多维对消参数。图5是选自图4中的一段(900-905),作为本实例算法每次随机重置恢复的自适应优化过程的具体表现。图6为图5相对应的多路自干扰对消频谱,其中自干扰信号的中心频率为2ghz,带宽为2ghz。从结合图5和图6中可以看出,本实例算法能够不断进行光学射频对消的多维参数自适应优化,并在5步以内将自干扰信号对消到噪底,其对消深度可达33.4db。
[0059]
本发明利用光子学方案能提供多路光学参考信号的衰减和时延调谐;采用深度强化学习思想对基于光子学方案的多径自干扰对消系统进行参数优化调谐,以保证多径自干扰信号的消除和有效信号的恢复。

技术特征:
1.一种基于深度学习的光学射频对消多维参数自适应优化方法,其特征在于,采用基于光学射频对消的无线同时同频全双工系统,系统包含信号发送端,光学射频自适应对消信号合成端和信号接收端,信号发送端包括信号发射模块和参考信号耦合模块,光学射频自适应对消信号合成端包含多维强化学习优化模块和自适应对消信号合成模块,接收端包括信号接收模块,信号合成模块和状态奖励反馈模块;其方法包括以下步骤:步骤1:建立深度强化学习网络:随机初始化网络权重值为θ
q
的评论家网络q(s,a|θ
q
)和网络权重值为θ
μ
的演员网络μ(s|θ
μ
),初始化目标评论家网络q’和目标演员网络μ’并将θ
q
和θ
μ
分别赋给目标的网络权重,初始化重放缓存以存放光学射频对消参数优化的过往经历;步骤2:观测状态并给出参数优化动作:深度强化学习网络根据初始的状态值s
t
给出光学射频对消参数优化动作,其中若重放缓存空间未满则随机从动作空间中随机选取参数优化动作a
t
否则根据目标演员网络μ’和探索噪声noise给出参数优化动作a
t
=μ’(s
t

μ
)+noise,其中状态值包含自适应对消信号合成的所有多维参数以及反馈的多个分片的自干扰信号功率值,参数优化动作值包含自适应对消信号合成的所有多维参数;步骤3:存储过渡过程:将选取的参数优化动作a
t
送入自适应对消信号合成模块执行优化,执行优化后观测新的状态值s
t+1
和相关奖励值r
t
,将过渡过程(s
t
,a
t
,r
t
,s
t+1
)存入重放缓存中备用;步骤4:随机抽取过渡过程:在重放缓存中将数量n的过渡过程(s
i
,a
i
,r
i
,s
i+1
)进行随机抽样并计算y
i
=r
i
+γq

(s
i+1


(s
i+1

μ

)|θ
q

),用以更新提供光学射频对消参数优化动作的深度神经网络,其中γ为折扣因子;步骤5:更新深度强化学习网络:将抽取数量n的过渡过程的各种变量对评论家网络通过进行网络权重值的更新和对演员网络通过进行网络权重值更新,将更新后的评论家网络和演员网络的网络权重结合延迟更新量对目标评论家网络和演员网络进行软更新;步骤6:重复步骤2-5,达到一定的步骤数后实现多路自干扰信号消除。2.根据权利要求1所述的一种基于深度学习的光学射频对消多维参数自适应优化方法,其特征在于,所述步骤1中:评论家网络,演员网络,目标评论家网络,目标演员网络由全连接神经网络构成;评论家网络和目标评论家网络的输入为状态值和参数优化动作值,输出为评估参数优化动作值的值;演员网络和目标演员网络的输入为状态值,输出为参数优化动作值。3.根据权利要求1所述的一种基于深度学习的光学射频对消多维参数自适应优化方法,其特征在于,所述步骤2中:定义状态值s
t
用作量化当前光学射频对消系统的状态,包含自适应对消信号合成端的状态值和残留自干扰信号的分片平均功率值并映射到-1~1,其中自适应对消信号合成端的状态值为一定数量的时延值和衰减值;定义参数优化动作值a
t
为自适应对消信号合成的所有多维参数值,主要为一定数量的时延值和衰减值;定义奖励值r
t
用作衡量当前参数优化动作值对残留自干扰信号的功率的影响,计算公式为r=10
sca(nf-crp)
,其中nf+为接收到的多径自干扰信号的噪底平均功率值,crp为残留多
径自干扰信号的平均功率值,运算符sca表示缩放映射运算,将噪底与残留自干扰信号的功率差值缩放映射到0~2。

技术总结
本发明公开了一种基于深度学习的光学射频对消多维参数自适应优化方法,基于光学射频对消系统,具体为:步骤1:建立深度强化学习网络;步骤2:观测状态并给出参数优化动作;步骤3:存储过渡过程;步骤4:随机抽取过渡过程;步骤5:更新深度强化学习网络;步骤6:重复步骤2-5,经过一定步骤后可以实现多路自干扰信号消除。本发明能够快速准确地对光学射频对消系统的参数进行自适应优化从而将多路自干扰信号消除,实现同时同频全双工通信。实现同时同频全双工通信。实现同时同频全双工通信。


技术研发人员:叶佳 余骁 闫连山 潘炜 邹喜华
受保护的技术使用者:西南交通大学
技术研发日:2023.03.16
技术公布日:2023/7/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐