一种面向延迟容忍服务的高能效传输方法、系统、设备及介质

未命名 09-29 阅读:55 评论:0

statistical dynamic programming)技术方案,根据已知的信道衰落系数的分布估计每个时隙的传输方法;进一步引入q-learning算法,通过已知的当前信道状态和估计的下一时隙的信道状态,给出相应的传输方法,经验证这一算法相对于asdp算法来说可以更为接近最优下限。
5.为了实现以上目的,本发明所采用的技术方案为:
6.一种面向延迟容忍服务的高能效传输方法,具体包括以下步骤:
7.步骤1、建立单天线点对点通信系统模型;
8.步骤2、根据步骤1的通信系统模型建立dt服务能效模型;
9.步骤3、将步骤2中的传输功率优化问题转变为马尔可夫决策过程(markov decision process,mdp)问题,引入强化学习算法得到高能效传输方法;利用源节点观测当前信道状态以及对未来时隙信道状态估计调整优化传输功率。
10.一种面向延迟容忍服务的高能效传输方法,具体包括以下步骤:
11.所述步骤1的具体方法为:
12.将两个装备了单天线的通信节点通过时分双工(tdd)的方式进行通信,在通信过程中信号同时受到高斯加性白噪声(additive white gauss noise,awgn)和乘性衰落的影响,不失一般性;假设节点间的乘性衰落是由于阴影衰落(大尺度衰落与小尺度衰落共同作用)引起的,同时,假设每个时隙内的信道衰落幅度保持不变,因此,第i个时隙中的接收信号可以表示为:
[0013][0014]
其中,p
t,i
是第i个时隙的传输功率,hi和zi分别为信道衰落系数和gauss噪声变量,yi和xi分别表示接收信号和发送信号;
[0015]
所述步骤2的具体方法为:
[0016]
将通信能效表示为:
[0017][0018]
其中,c为信道速率,w为信道带宽,p
l
和p
t
分别为静态功率和传输功率;
[0019]
如果进一步定义τ为单位时隙的持续时间,则总信息量为φ=cτtw,这里t为时隙个数;同时,总静态功率为p
l总
=wtτp
l
,总动态功率为系统能效最终可以表示为:
[0020][0021]
对于特定业务,包括视频的点播、信息的收发、音乐的播放等,所需传输的总信息量φ为固定值;同时,对无线通信,静态功率wtτp
l
为固定值,将特定业务的能效最大问题可以等效为传输功率最小化问题,进行传输功率优化;
[0022]
将时隙长度τ和带宽w归一化,则通信业务的总信息量φ可表示为:
[0023][0024]
其中:
[0025][0026]hi
表示第i个时隙的信道衰落系数,为第i个时隙gauss白噪声的方差,i=1,2,3,

,8;同时,源节点的发射功率约束可以表达为:
[0027]
p
t,i
≤p
t,i,max
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0028][0029][0030]
0≤p
t,i
≤p
t,i,max
[0031]
其中,i=1,2,

,t;显然,式(7)是一个经典的凸优化问题,提供了dt服务的传输功率下限或能效上界;
[0032]
所述步骤3的具体方法为:
[0033]
3.1)运用sdp传输功率优化算法或asdp传输功率优化算法对离散信道状态进行dt服务的高能效传输;
[0034]
3.1.1)运用sdp传输功率优化算法对离散信道状态进行dt服务的高能效传输:
[0035]
通信节点传输的信息总量φ可以离散化为而离散信道状态ψ可以表示为(ψ1,


n2
);其中,n1、n2为预定义的整数;
[0036]
采用mdp四元组《k,m,h,υ》对dt服务传输过程中的状态、动作、奖励和状态转移概率进行定义;其中,k={κ1,κ2,

}是dt服务传输过程的状态集,m={m1,m2,

}是dt服务传输过程的动作集,h和υ分别为动作之后获得的奖励和状态转移概率;其中,状态集k中的状态κi由当前信道状态和通信节点传输的信息量构成,可以表示为:
[0037][0038]
其中,θ
φ
∈{0,1,

,n1},θc∈{1,2

,n2},i∈{1,

,(n1+1)*(n2)};而动作集m中的动作mj由通信节点在当前时隙中传输的信息量构成,可表示为:
[0039][0040]
其中,θm∈{0,1,

,n1},j={1,2,

,n1+1}。
[0041]
状态转移概率υ和动作之后获得的奖励h与动作m和状态κ有关,则在第t时隙从状态κ转移到状态κ

的概率υ
t
可以表示为:
[0042][0043][0044]
则高能效传输的mdp问题可以用sdp方程表示为:
[0045][0046][0047]
其中,u
t+1
(κi)为t+1时隙的状态值函数,l
t
(κi,mj)分别为t时隙的状态动作值函数;在最后一个时隙中需要将全部信息传输完成,于是在最后一个时隙的状态值函数和状态动作值函数可以表述为:
[0048]ut
(κi)=h(κi)
[0049]
l
t
(κi,mj)=h(κi,mj)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0050]
其中,状态动作值函数表示的是为使得累积得到的传输功率最小,在t时隙选择传输的最大信息量;而在实际通信中,状态值函数u
t
(κi)可以通过状态动作值函数l
t
(κi,mj)来计算,表示为:
[0051]ut
(κi)=argmax{max(lt(κi,mj)|mj∈m)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0052]
在第t时隙的最优动作选择可以表示为:
[0053]mt
=argmax{l
t
(κi,mj)|mj∈m}
ꢀꢀꢀꢀꢀꢀ
(15)
[0054]
在最后一个时隙的动作可以确定为:
[0055][0056]
同时,最后一个时隙的sdp方程可以表示为:
[0057][0058]
其中,对于式(10)、(12)和(17),所有的状态动作值函数l
t
(κi,mj)可用回溯算法计算;并且,每个状态下的最优动作选择通过式(15)来确定;在mdp问题框架下信道状态中的h为信道增益,见式(5),且服从均匀分布;
[0059]
3.1.2)运用asdp传输功率优化算法对离散信道状态进行dt服务的高能效传输:
[0060]
在离散信道中,通信中的信号同时受到awgn和乘性衰落影响,不失一般性,假设信道增益h服从瑞利分布,概率密度函数表现为:
[0061][0062]
根据信道增益h的概率密度函数得到传输功率或是信道状态的期望值,使用asdp算法,状态集为k和动作集为m,通信节点传输的信息总量离散化为m;此时t阶段查询表则有
t*(n1+1)个元素,而状态转移概率υ可以表示为:
[0063][0064]
状态集不再考虑信道信息,故最后一个时隙状态值函数和状态动作值函数可以表述为:
[0065]
u(κ)=e[h(κ)]
[0066]
l(κ,m)=e[h(κ,m)]
ꢀꢀꢀꢀꢀꢀꢀ
(20)
[0067]
其中,e[
·
]是关于信道增益h的期望,对于不是最后一个时隙的其他时隙,有:
[0068][0069][0070]
asdp根据当前时隙的信道增益来确定动作,得出:
[0071][0072]
其中:
[0073][0074][0075]
3.2)运用asdp传输功率优化算法或q-learning算法,对连续信道状态进行dt服务的高能效传输;得到精确的状态值函数和动作值函数;
[0076]
3.2.1)运用asdp传输功率优化算法,对连续信道状态进行dt服务的高能效传输:
[0077]
在连续信道中,通信中的信号同时受到awgn和乘性衰落影响,不失一般性,假设信道增益h服从瑞利分布,概率密度函数表现为:
[0078][0079]
根据信道增益h的概率密度函数得到传输功率或是信道状态的期望值,使用asdp算法,状态集为k和动作集为m,通信节点传输的信息总量离散化为m;此时t阶段查询表则有t*(n1+1)个元素,而状态转移概率υ可以表示为:
[0080][0081]
状态集不再考虑信道信息,故最后一个时隙状态值函数和状态动作值函数可以表述为:
[0082]
u(κ)=e[h(κ)]
[0083]
[0084]
其中,e[
·
]是关于信道增益h的期望,对于不是最后一个时隙的其他时隙,有:
[0085][0086][0087]
asdp根据当前时隙的信道增益来确定动作,得出:
[0088][0089]
其中:
[0090][0091][0092]
3.2.2)根据q-learning算法针对连续信道状态解决dt服务高能效传输:
[0093]
确定状态值函数u
t
(κi)和状态动作值函数l
t
(κi,mj);在κi的状态下根据控制方法π选择动作mj,得到一组传输功率的样本:
[0094][0095]
状态动作值可估计为:
[0096][0097]
其中,m=1
,
2,


[0098]
式(25)可以改写为递归形式:
[0099][0100]
其中:
[0101][0102]
对多个传输功率样本量进行训练,得到收敛的时隙状态对应的q表,然后得到对应的传输方法,会收敛到一个精确的状态动作值函数lπ(κi,mj);选择动作的方法,根据q表不同时隙的信道状态q-learning算法随机动作选择,经过多次训练,q表收敛,然后可以根据信道状态结合训练好的q表选择动作,使得总功率最小。
[0103]
实现上述的面向延迟容忍服务的高能效传输方法的高能效传输系统,包括:
[0104]
输入模块,用于步骤1建立的通信模型及步骤2建立的能效优化模型中基本参数的设置,包括信道衰落系数的分布、dt服务需要传输的信息量、信噪比、最大dt时隙、信道状态、最大发射功率、训练的相关参数包括训练组数、折扣因子、奖励初始值;
[0105]
约束模块,用于步骤2中源节点的发射功率约束符合所设置的dt服务的特性;具体包括约束每个时隙的传输功率要小于所设置的最大发射功率,规定在最后一个时隙需要传输完全部信息。
[0106]
测试模块,用于对所提出的算法进行测试并可视化;针对sdp和asdp算法所求结果即为测试结果;对于q-learning算法,需要单独使用测试模块进行测试;根据得到的结果进
行可视化,以分析算法的性能。
[0107]
用于上述的面向延迟容忍服务的高能效传输方法的高能效传输设备,包括:
[0108]
存储器,用于存储计算机程序;
[0109]
处理器,用于执行所述计算机程序时实现步骤1至3所述面向延迟容忍服务的高能效传输方法。
[0110]
一种计算机可读存储介质,所述计算机可读存储介质用来存储计算机程序,所述计算机程序被处理器执行时能够根据步骤1至3所述方法进行面向延迟容忍服务的高能效传输。
[0111]
相较于现有技术,本发明具有以下有益效果:
[0112]
1、针对离散信道状态使用sdp算法或asdp算法给出的dt服务高能效传输方案与传输功率上限相比传输相同信息情况下,总功率消耗明显下降。同时,当已知全部信道状态信息时,sdp算法非常接近传输功率下限,更接近最优解。
[0113]
2、针对连续信道状态,分别使用asdp算法或q-learning算法给出dt服务高能效传输方案,避免了维数灾难,实现了在连续信道状况下调节功率提高能源效率的目的。使用的两种算法与传输上限相比总功率消耗明显下降,与离散信道状态效果相似,asdp算法与凸优化得到的最优下限还有差距,不过q-learning算法随着snr的增加,逐渐接近凸优化得到的最优下限。
[0114]
综上,本发明传输功率消耗明显下降,提高了能源效率;功率分配速度快效率高,且准确性高,更利于现实应用。
附图说明
[0115]
图1是本发明点对点通信模型图。
[0116]
图2是本发明延迟容忍服务的功率分配模式图。
[0117]
图3是本发明sdp算法流程图。
[0118]
图4是本发明asdp算法流程图。
[0119]
图5是本发明q-learning算法流程图。
[0120]
图6是本发明离散信道下sdp与asdp算法传输功率与snr的关系图。
[0121]
图7是本发明离散信道下sdp与asdp算法相对于传输功率上限的百分比减小结果图。
[0122]
图8是本发明离散信道下sdp与asdp算法不同snr条件下传输功率和最大可容忍延迟之间的关系图。
[0123]
图9是本发明连续信道状态中asdp算法和q-learning算法传输功率与snr的关系图。
[0124]
图10是本发明连续信道状态中asdp算法和q-learning算法相对于传输功率上限的百分比减小结果图。
[0125]
图11是本发明连续信道状态中asdp算法和q-learning算法不同snr条件下传输功率和最大可容忍延迟之间的关系图。
具体实施方式
[0126]
下面将结合附图,对本发明的技术方案进行清楚、完整地描述。
[0127]
一种面向延迟容忍服务的高能效传输方法,具体包括以下步骤:
[0128]
步骤1、建立单天线点对点通信系统模型
[0129]
参见图1、图2,将两个装备了单天线的通信节点通过时分双工(tdd)的方式进行通信,在通信过程中信号同时受到高斯加性白噪声(additive white gauss noise,awgn)和乘性衰落的影响,不失一般性;假设节点间的乘性衰落是由于阴影衰落(大尺度衰落与小尺度衰落共同作用)引起的,同时,假设每个时隙内的信道衰落幅度保持不变,因此,第i个时隙中的接收信号可以表示为:
[0130][0131]
其中,p
t,i
是第i个时隙的传输功率,hi和zi分别为信道衰落系数和gauss噪声变量,yi和xi分别表示接收信号和发送信号;
[0132]
步骤2、根据步骤1的通信系统模型建立dt服务能效模型
[0133]
将通信能效表示为:
[0134][0135]
其中,c为信道速率,w为信道带宽,p
l
和p
t
分别为静态功率和传输功率;
[0136]
如果进一步定义τ为单位时隙的持续时间,则总信息量为φ=cτtw,这里t为时隙个数;同时,总静态功率为p
l总
=wtτp
l
,总动态功率为系统能效最终可以表示为:
[0137][0138]
对于特定业务,包括视频的点播、信息的收发、音乐的播放等,所需传输的总信息量φ为固定值;同时,对无线通信,静态功率wtτp
l
为固定值,将特定业务的能效最大问题可以等效为传输功率最小化问题,进行传输功率优化;
[0139]
将时隙长度τ和带宽w归一化,则通信业务的总信息量φ可表示为:
[0140][0141]
其中:
[0142][0143]hi
表示第i个时隙的信道衰落系数,为第i个时隙gauss白噪声的方差,i=1,2,3,

,8;同时,源节点的发射功率约束可以表达为:
[0144]
p
t,i
≤p
t,i,max
ꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0145][0146][0147]
0≤p
t,i
≤p
t,i,max
[0148]
其中,i=1,2,

,t;显然,式(7)是一个经典的凸优化问题,提供了dt服务的传输功率下限或能效上界;
[0149]
步骤3、将步骤2中的传输功率优化问题转变为马尔可夫决策过程(markov decision process,mdp)问题,引入强化学习算法得到高能效传输方法;利用源节点观测当前信道状态以及对未来时隙信道状态估计调整优化传输功率;
[0150]
3.1运用sdp传输功率优化算法或asdp传输功率优化算法对离散信道状态进行dt服务的高能效传输;
[0151]
3.1.1运用sdp传输功率优化算法对离散信道状态进行dt服务的高能效传输:参见图3
[0152]
通信节点传输的信息总量φ可以离散化为而离散信道状态ψ可以表示为(ψ1,


n2
);其中,n1、n2为预定义的整数;
[0153]
采用mdp四元组《k,m,h,υ》对dt服务传输过程中的状态、动作、奖励和状态转移概率进行定义;其中,k={κ1,κ2,

}是dt服务传输过程的状态集,m={m1,m2,

}是dt服务传输过程的动作集,h和υ分别为动作之后获得的奖励和状态转移概率;其中,状态集k中的状态κi由当前信道状态和通信节点传输的信息量构成,可以表示为:
[0154][0155]
其中,θ
φ
∈{0,1,

,n1},θc∈{1,2

,n2},i∈{1,

,(n1+1)*(n2)};而动作集m中的动作mj由通信节点在当前时隙中传输的信息量构成,可表示为:
[0156][0157]
其中,θm∈{0,1,

,n1},j={1,2,

,n1+1}。
[0158]
状态转移概率υ和动作之后获得的奖励h与动作m和状态κ有关,则在第t时隙从状态κ转移到状态κ

的概率υ
t
可以表示为:
[0159][0160][0161]
则高能效传输的mdp问题可以用sdp方程表示为:
[0162][0163][0164]
其中,u
t+1
(κi)为t+1时隙的状态值函数,l
t
(κi,mj)分别为t时隙的状态动作值函数;在最后一个时隙中需要将全部信息传输完成,于是在最后一个时隙的状态值函数和状态动作值函数可以表述为:
[0165]ut
(κi)=h(κi)
[0166]
l
t
(κi,mj)=h(κi,mj)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0167]
其中,状态动作值函数表示的是为使得累积得到的传输功率最小,在t时隙选择传输的最大信息量;而在实际通信中,状态值函数u
t
(κi)可以通过状态动作值函数l
t
(κi,mj)来计算,表示为:
[0168]ut
(κi)=argmax{max(l
t
(κi,mj)|mj∈m)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0169]
在第t时隙的最优动作选择可以表示为:
[0170]mt
=argmax{l
t
(κi,mj)|mj∈m}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0171]
在最后一个时隙的动作可以确定为:
[0172][0173]
同时,最后一个时隙的sdp方程可以表示为:
[0174][0175]
其中,对于式(10)、(12)和(17),所有的状态动作值函数l
t
(κi,mj)可用回溯算法计算;并且,每个状态下的最优动作选择通过式(15)来确定;在mdp问题框架下信道状态中的h为信道增益,见式(5),且服从均匀分布;
[0176]
3.1.2运用asdp传输功率优化算法对离散信道状态进行dt服务的高能效传输的方法为:
[0177]
参见图4,在离散信道中,通信中的信号同时受到awgn和乘性衰落影响,不失一般性,假设信道增益h服从瑞利分布,概率密度函数表现为:
[0178][0179]
根据信道增益h的概率密度函数得到传输功率或是信道状态的期望值,使用asdp算法,状态集为k和动作集为m,通信节点传输的信息总量离散化为m;此时t阶段查询表则有t*(n1+1)个元素,而状态转移概率υ可以表示为:
[0180][0181]
状态集不再考虑信道信息,故最后一个时隙状态值函数和状态动作值函数可以表
述为:
[0182]
u(κ)=e[h(κ)]
[0183][0184]
其中e[
·
]是关于信道增益h的期望,对于不是最后一个时隙的其他时隙,有:
[0185][0186][0187]
asdp根据当前时隙的信道增益来确定动作,得出:
[0188][0189]
其中:
[0190][0191][0192]
3.2运用asdp传输功率优化算法或q-learning算法,对连续信道状态进行dt服务的高能效传输;得到精确的状态值函数和动作值函数;
[0193]
3.2.1运用asdp传输功率优化算法,对连续信道状态进行dt服务的高能效传输:
[0194]
参见图4,在连续信道中,通信中的信号同时受到awgn和乘性衰落影响,不失一般性,假设信道增益h服从瑞利分布,概率密度函数表现为:
[0195][0196]
根据信道增益h的概率密度函数得到传输功率或是信道状态的期望值,使用asdp算法,状态集为k和动作集为m,通信节点传输的信息总量离散化为m;此时t阶段查询表则有t*(n1+1)个元素,而状态转移概率υ可以表示为:
[0197][0198]
状态集不再考虑信道信息,故最后一个时隙状态值函数和状态动作值函数可以表述为:
[0199]
u(κ)=e[h(κ)]
[0200]
l(κ,m)=e[h(κ,m)]
ꢀꢀꢀꢀꢀꢀꢀ
(26)
[0201]
其中e[
·
]是关于信道增益h的期望,对于不是最后一个时隙的其他时隙,有:
[0202][0203][0204]
asdp根据当前时隙的信道增益来确定动作,得出:
[0205][0206]
其中:
[0207][0208][0209]
3.2.2根据q-learning算法针对连续信道状态解决dt服务高能效传输:
[0210]
参见图5,确定状态值函数u
t
(κi)和状态动作值函数l
t
(κi,mj);在κi的状态下根据控制方法π选择动作mj,得到一组传输功率的样本:
[0211][0212]
状态动作值可估计为:
[0213][0214]
其中,m=1,2,

;式(25)可以改写为递归形式:
[0215][0216]
其中:
[0217][0218]
对多个传输功率样本量进行训练,得到收敛的时隙状态对应的q表,然后得到对应的传输方法,会收敛到一个精确的状态动作值函数l
π
(κi,mj);选择动作的方法,根据q表不同时隙的信道状态q-learning算法随机动作选择,经过多次训练,q表收敛,然后可以根据信道状态结合训练好的q表选择动作,使得总功率最小。
[0219]
仿真过程中传输时隙时长为1(s),所需传输业务的总信息量为1(bit),同时源节点的最大发射功率p
t,i,max
=2(watt)。
[0220]
仿真实验:为了比较方便,仿真过程中给出了传统贪婪方法所需功率作为比较标准。
[0221]
一、离散信道下dt业务传输方案结果及分析
[0222]
当信道增益hi服从取值为0.5或0.9的均匀离散分布时,可容忍延迟服务的传输功率性能。同时,为了比较方便,假设仿真过程中的信噪比(signal-noise-radio,snr)定义为:
[0223][0224]
图6是传输功率与信噪比(snr)之间的关系,其中带圆点的绿线表示的是在不同snr下传输全部信息所需功率的上限,带加号的黑线表示的是在不同snr下传输全部信息所需功率的下限。功率上限表示采用贪婪方法,在所有时隙都以最大功率传输信息时的传输功率,下限是在源节点具备所有所需信道状态信息条件下通过求解式(7)得到的功率最优解。带菱形的黄线和带三角的红线分别表示采用sdp和asdp时在不同snr下传输所有信息所
需要花费的功率。
[0225]
从图6中可以看到,传输所有信息所需要的功率随着snr的增加而降低,并且相对于asdp算法给出的传输方法,sdp算法给出的传输方法更接近下限,即表明在相同snr条件下传输相同信息时,sdp算法所需消耗的功率相对较少,更为接近最优的传输方法。但无论是sdp算法还是asdp算法都要低于传统贪婪方法所需要功率上限,即表明在相同snr条件下使用两种方法都会在一定程度上减少能源的消耗。上述结论符合对于不同方法的预期。
[0226]
再对图6进行具体的分析,发现sdp算法曲线在snr=7(db)时与传输功率下限几乎开始重合,并且sdp与asdp所需要的传输功率在逐渐接近,说明在snr在大于7(db)后sdp与asdp传输相同信息量所消耗的功率非常接近,并且随着snr的增大所需要消耗的功率不断趋近下限,即不断趋近最优传输方式,这可以说明,在离散信道条件下,当信道条件相对较好时可以使用近似统计动态规划方法,对于信道条件不好时,选择统计动态规划方法较好。
[0227]
图7中线条含义与图6相同。图7表示的示在不同信道状态时,运用sdp和asdp方法相对比于传输功率上限消耗功率减少的百分比。
[0228]
在信道状况不同的情况下,相同的算法相对于传输功率上限,提升功率的百分比基本相同。sdp算法相对于传输功率上限,传输功率减少量占比为88.8597%。asdp算法相对于传输功率上限,传输功率减少量占比为81.1787%。
[0229]
图8给出不同snr条件下传输功率和最大dt之间的关系,图8中标号的含义与图6中标号含义相同。
[0230]
从图8可以看出,除了传输功率上限不会随着最大dt时间的延长而改变,sdp和asdp以及传输功率下限无论信道状态好坏,都会随着最大dt时间的延长而有所下降,但趋势并不明显。这说明延长的dt时间在一定程度能够降低能耗,但并不是dt时间越长越好。进一步分析发现,sdp和asdp非常接近,但snr=2(db)和snr=8(db)相比较而言,snr=2(db)时,sdp传输全部信息所消耗的能量与asdp传输全部信息消耗的能量还未完全重合;而snr=8(db)时,sdp传输全部信息所消耗的能量与asdp几乎重合。这说明,在信道条件较为差的情况下,选择sdp较好;在信道条件较好的情况下,sdp和asdp都可以选择,对传输相同信息所消耗的能量相差不大。
[0231]
二、连续信道下dt业务传输方案结果及分析
[0232]
假设信道增益z服从σ=1的瑞利分布,且不同时隙的zi相互独立且同分布。于是可以得到传输功率与snr的关系图,如图9示:
[0233]
图9展示了连续信道状态下传输功率与snr的关系。通过分析可以知道在连续信道状态下,由于维数灾难,sdp调整传输功率的算法不可用,因此在图9中不体现通过sdp算法所需要的传输功率与snr之间的关系。图9中带空心圆圈的蓝色线条表示运用q-learning算法在不同snr条件下传输全部信息所需要的传输功率。图中其他线条表示的含义与图6相同。从趋势上看,图6与图9相似,即随着snr的增大,不同方法所选择的功率在逐渐趋近传输功率下限。可以看到asdp与q-learning算法得到的结果非常接近,但是还是能够看到q-learning算法要优于asdp,说明q-learning算法训练结果较好,尤其当信道状态较为差时,可以采用q-learning算法进行传输信息,从而达到降低能耗的目的。
[0234]
图10与图9中线条标号的含义相同。图10展示的是在连续信道中,q-learning算法,asdp算法在不同信道状态条件下,传输功率相比于传输功率上限占比情况。
[0235]
与离散信道状态相同,连续信道状态下,相同的算法在不同信道状态中,传输功率相对于传输功率上限的百分比减小结果也基本相同。其中,q-learning算法提供的传输方法,所需要的传输功率相对于传输功率上限减小了75.2392%。asdp算法提供的传输方法,所需要的传输功率相对于传输功率上限减小了58.4327%。
[0236]
图11给出的是在连续信道状态下,不同snr条件下传输功率和最大dt之间的关系,具体如下图所示。
[0237]
从图11中可以看到,趋势与图8趋势相近,除了传输功率上限,其他方法都随着最大dt时间的延长而下降,并最终趋于收敛。在图11中可以看到,当snr=8(db)时,在连续状态下最大dt时间降低能耗的性能并不显著。这就说明,在连续并且状态较好的信道中,增大dt时间并不能起到明显降低能耗的作用。进一步分析,可以发现q-learning算法相对于asdp算法来说,降低能耗的性能明显要优于asdp。这说明,在连续信道条件下,无论信道状态好坏,都应当选择q-learning算法,从而达到降低能耗的目的。
[0238]
综上,本发明提出了适用于离散信道条件下根据信道状态调节功率的sdp算法。为了进一步使节能模型适用于一般情况,于是引入适用于连续信道状态的asdp和q-learning算法,在连续信道条件下,避免了维数灾难,实现了在连续信道状况下调节功率提高能源效率的目的。为了更好的衡量模型的准确性,根据传统的贪婪方法得到了传输功率上限,同时根据源节点所知道的信道状态的全部信息得到了传输功率下限。仿真结果显示每种自适应调整功率的方法都在求解的传输功率上限和下限之间,即证明了算法的可靠性。仿真结果表明,最大dt服务在离散信道状态下以及信道状态较差的连续信道情况下可以一定程度上降低能耗,但也不是dt时延越长降低能耗越多,而对于连续信道状态下引入q-learning算法,结果表明在连续信道状态下可以很好的提高能源效率,这对于未来绿色通信技术的实现具有一定的参考价值。

技术特征:
1.一种面向延迟容忍服务的高能效传输方法,其特征在于,具体包括以下步骤:步骤1、建立单天线点对点通信系统模型;步骤2、根据步骤1的通信系统模型建立dt服务能效模型;步骤3、将步骤2中的传输功率优化问题转变为马尔可夫决策过程(markov decision process,mdp)问题,引入强化学习算法得到高能效传输方法;利用源节点观测当前信道状态以及对未来时隙信道状态估计调整优化传输功率。2.根据权利要求1所述的一种面向延迟容忍服务的高能效传输方法,其特征在于,所述步骤1的具体方法为:将两个装备了单天线的通信节点通过时分双工(tdd)的方式进行通信,在通信过程中信号同时受到高斯加性白噪声和乘性衰落的影响,不失一般性;假设节点间的乘性衰落是由于阴影衰落即大尺度衰落与小尺度衰落共同作用引起的,同时,假设每个时隙内的信道衰落幅度保持不变,则第i个时隙中的接收信号可以表示为:其中,p
t,i
是第i个时隙的传输功率,h
i
和z
i
分别为信道衰落系数和gauss噪声变量,y
i
和x
i
分别表示接收信号和发送信号。3.根据权利要求1所述的一种面向延迟容忍服务的高能效传输方法,其特征在于,所述步骤2的具体方法为:将通信能效表示为:其中,c为信道速率,w为信道带宽,p
l
和p
t
分别为静态功率和传输功率;进一步定义τ为单位时隙的持续时间,则总信息量为φ=cτtw,这里t为时隙个数;同时,总静态功率为p
l总
=wtτp
l
,总动态功率为系统能效最终可以表示为:对于特定业务,包括视频的点播、信息的收发、音乐的播放等,所需传输的总信息量φ为固定值;同时,对无线通信,静态功率wtτp
l
为固定值,将特定业务的能效最大问题可以等效为传输功率最小化问题,进行传输功率优化;将时隙长度τ和带宽w归一化,则通信业务的总信息量φ可表示为:其中:
h
i
表示第i个时隙的信道衰落系数,为第i个时隙gauss白噪声的方差,i=1,2,3,...,8;同时,源节点的发射功率约束可以表达为:p
t,i
≤p
t,i,max
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,i=1,2,

,t;显然,式(7)是一个经典的凸优化问题,提供了dt服务的传输功率下限或能效上界。4.根据权利要求1所述的一种面向延迟容忍服务的高能效传输方法,其特征在于,所述步骤3的具体方法为:3.1)运用sdp传输功率优化算法或asdp传输功率优化算法对离散信道状态进行dt服务的高能效传输;3.1.1)运用sdp传输功率优化算法对离散信道状态进行dt服务的高能效传输:通信节点传输的信息总量φ可以离散化为而离散信道状态ψ可以表示为其中,n1、n2为预定义的整数;采用mdp四元组<k,m,h,υ>对dt服务传输过程中的状态、动作、奖励和状态转移概率进行定义;其中,k={κ1,κ2,

}是dt服务传输过程的状态集,m={m1,m2,

}是dt服务传输过程的动作集,h和υ分别为动作之后获得的奖励和状态转移概率;其中,状态集k中的状态κ
i
由当前信道状态和通信节点传输的信息量构成,可以表示为:其中,θ
φ
∈{0,1,

,n1},θ
c
∈{1,2

,n2},i∈{1,

,(n1+1)*(n2)};而动作集m中的动作m
j
由通信节点在当前时隙中传输的信息量构成,可表示为:其中,θ
m
∈{0,1,

,n1},j={1,2,

,n1+1}。状态转移概率υ和动作之后获得的奖励h与动作m和状态κ有关,则在第t时隙从状态κ转移到状态κ

的概率υ
t
可以表示为:
则高能效传输的mdp问题可以用sdp方程表示为:则高能效传输的mdp问题可以用sdp方程表示为:其中,u
t+1

i
)为t+1时隙的状态值函数,l
t

i
,m
j
)分别为t时隙的状态动作值函数;在最后一个时隙中需要将全部信息传输完成,于是在最后一个时隙的状态值函数和状态动作值函数可以表述为:u
t

i
)=h(κ
i
)l
t

i
,m
j
)=h(κ
i
,m
j
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(13)其中,状态动作值函数表示的是为使得累积得到的传输功率最小,在t时隙选择传输的最大信息量;而在实际通信中,状态值函数u
t

i
)可以通过状态动作值函数l
t

i
,m
j
)来计算,表示为:u
t

i
)=argmax{max(l
t

i
,m
j
)|m
j
∈m)}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(14)在第t时隙的最优动作选择可以表示为:m
t
=argmax{l
t

i
,m
j
)|m
j
∈m}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(15)在最后一个时隙的动作可以确定为:同时,最后一个时隙的sdp方程可以表示为:其中,对于式(10)、(12)和(17),所有的状态动作值函数l
t

i
,m
j
)可用回溯算法计算;并且,每个状态下的最优动作选择通过式(15)来确定;在mdp问题框架下信道状态中的
h
为信道增益,见式(5),且服从均匀分布;3.1.2)运用asdp传输功率优化算法对离散信道状态进行dt服务的高能效传输:在离散信道中,通信中的信号同时受到awgn和乘性衰落影响,不失一般性,假设信道增益h服从瑞利分布,概率密度函数表现为:根据信道增益h的概率密度函数得到传输功率或是信道状态的期望值,使用asdp算法,状态集为k和动作集为m,通信节点传输的信息总量离散化为m;此时t阶段查询表则有t*(n1+1)个元素,而状态转移概率υ可以表示为:
状态集不再考虑信道信息,故最后一个时隙状态值函数和状态动作值函数可以表述为:u(κ)=e[h(κ)]l(κ,m)=e[h(κ,m)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(20)其中,e[
·
]是关于信道增益h的期望,对于不是最后一个时隙的其他时隙,有:]是关于信道增益h的期望,对于不是最后一个时隙的其他时隙,有:asdp根据当前时隙的信道增益来确定动作,得出:其中:其中:3.2)运用asdp传输功率优化算法或q-learning算法,对连续信道状态进行dt服务的高能效传输;得到精确的状态值函数和动作值函数;3.2.1)运用asdp传输功率优化算法,对连续信道状态进行dt服务的高能效传输:在连续信道中,通信中的信号同时受到awgn和乘性衰落影响,不失一般性,假设信道增益h服从瑞利分布,概率密度函数表现为:根据信道增益h的概率密度函数得到传输功率或是信道状态的期望值,使用asdp算法,状态集为k和动作集为m,通信节点传输的信息总量离散化为m;此时t阶段查询表则有t*(n1+1)个元素,而状态转移概率υ可以表示为:状态集不再考虑信道信息,故最后一个时隙状态值函数和状态动作值函数可以表述为:u(κ)=e[h(κ)]l(κ,m)=e[h(κ,m)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(26)其中,e[
·
]是关于信道增益h的期望,对于不是最后一个时隙的其他时隙,有:]是关于信道增益h的期望,对于不是最后一个时隙的其他时隙,有:asdp根据当前时隙的信道增益来确定动作,得出:
其中:其中:3.2.2)根据q-learning算法针对连续信道状态解决dt服务高能效传输:确定状态值函数u
t

i
)和状态动作值函数l
t

i
,m
j
);在κ
i
的状态下根据控制方法π选择动作m
j
,得到一组传输功率的样本:状态动作值可估计为:其中,m=1,2,...;式(25)可以改写为递归形式:其中:对多个传输功率样本量进行训练,得到收敛的时隙状态对应的q表,然后得到对应的传输方法,会收敛到一个精确的状态动作值函数lπ(κ
i
,m
j
);选择动作的方法,根据q表不同时隙的信道状态q-learning算法随机动作选择,经过多次训练,q表收敛,然后可以根据信道状态结合训练好的q表选择动作,使得总功率最小。5.实现权利要求1至4所述的面向延迟容忍服务的高能效传输方法的高能效传输系统,其特征在于,包括:输入模块,用于步骤1建立的通信模型及步骤2建立的能效优化模型中基本参数的设置,包括信道衰落系数的分布、dt服务需要传输的信息量、信噪比、最大dt时隙、信道状态、最大发射功率、训练的相关参数包括训练组数、折扣因子、奖励初始值;约束模块,用于步骤2中源节点的发射功率约束符合所设置的dt服务的特性;具体包括约束每个时隙的传输功率要小于所设置的最大发射功率,规定在最后一个时隙需要传输完全部信息。测试模块,用于对所提出的算法进行测试并可视化;针对sdp和asdp算法所求结果即为测试结果;对于q-learning算法,需要单独使用测试模块进行测试;根据得到的结果进行可视化,以分析算法的性能。6.用于权利要求1至4所述的面向延迟容忍服务的高能效传输方法的高能效传输设备,其特征在于,包括:存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现步骤1至3所述面向延迟容忍服务的高能效传输方法。7.一种计算机可读存储介质,所述计算机可读存储介质用来存储计算机程序,其特征在于,所述计算机程序被处理器执行时能够根据步骤1至3所述方法,进行面向延迟容忍服务的高能效传输。

技术总结
一种面向延迟容忍服务的高能效传输方法、系统、设备及介质,方法为:首先建立单天线点对点通信系统模型;然后根据通信系统模型建立DT服务能效模型;最后将传输功率优化问题转变为MDP问题,引入强化学习算法得到高能效传输方法;利用源节点观测当前信道状态以及对未来时隙信道状态估计调整优化传输功率;其系统、设备及介质根据面向延迟容忍服务的高能效传输方法进行面向延迟容忍服务的高能效传输;本发明方法可靠,仿真结果表明,最大DT服务在离散信道状态下以及信道状态较差的连续信道情况下可以一定程度上降低能耗,在连续信道状态下可以很好的提高能源效率,功率分配速度快效率高,且准确性高,更利于现实应用。更利于现实应用。更利于现实应用。


技术研发人员:朱锐 白朦梦 郭建新 王锋 褚鹏 王利平 陈雅蓉 竹杭杰
受保护的技术使用者:西京学院
技术研发日:2023.07.26
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐