适应不同信道特性的无线电接入网切片资源分配方法

未命名 10-08 阅读:99 评论:0


1.本发明涉及一种适应不同信道特性的无线电接入网切片资源分配方法,属于无线通信技术领域。


背景技术:

2.网络切片的实质是虚拟网络运营商(mvno,mobile virtual network operator)将物理资源抽象映射成虚拟资源,再把虚拟资源分配给服务提供商(sps,service providers)。这些需求以服务水平协议(sla,service level agreement)的形式在sps和租户之间确定,sla指定了关键的性能指标,如吞吐量、延迟、可靠性等。为了实现这些sla,网络切片将从核心网络引入到无线电接入网ran(radioaccess network)域。由于无线信道的资源耦合和随机性,在ran域中的网络切片仍然是一个具有挑战性的问题。大部分现有工作主要集中在ran的体系结构中,而对ran片的资源分配和优化的研究还在进行中。网络切片需要提供片之间的隔离来防止一个切片的拥塞影响其他切片的性能。
3.现有的大部分研究中,ran切片隔离只考虑了切片需求,虽然做到了聚合切片的性能保证,却没有考虑到每个用户的特点,这就会无法保证切片中用户的qos保证。
4.有鉴于此,确有必要提出一种适应不同信道特性的无线电接入网切片资源分配方法,以解决上述问题。


技术实现要素:

5.本发明的目的在于提供一种适应不同信道特性的无线电接入网切片资源分配方法,能够保证了切片之间的隔离,并满足了切片中所有用户的qos需求。
6.为实现上述目的,本发明提供了一种适应不同信道特性的无线电接入网切片资源分配方法,主要包括以下步骤:
7.步骤1、建立多基站蜂窝网络下行场景;
8.步骤2、基站收集切片最小速率需求用户最小速率需求用户能够忍受最大延迟阈值d
max
和不完全csi条件信息;
9.步骤3、初始化深度q学习dqn的权重θ和q(s,a;θ);
10.步骤4、初始化a
t
即资源的分配并计算此时用户速率、基站对用户的干扰和基站切片总吞吐量;
11.步骤5、基站根据此时状态s
t
和计算奖励r
t
并使用ε贪婪策略做出决策;
12.步骤6、更新环境的状态s
t+1
以及奖励r
t+1

13.步骤7、根据经验回放池计算出的损失函数l(θ),并更新权重θ,重复步骤5,直至损失函数l(θ)达到设置的收敛条件或者程序本身达到最大迭代次数t。
14.作为本发明的进一步改进,步骤1中,所述多基站蜂窝网络下行场景包括一组b={1,...,b,...}的基站bss,且相邻的bss之间会互相干扰,用户集表示为u={1...,u,...},用户的总数表示为u,总带宽w被划分为一组相同的子信道j={1,...j,...},其中j是子信
道的总数,每个子信道的带宽为rj表示为子信道j的带宽,切片总数为s,并将切片表示为s={1,...,s,...},每个切片s有一组用户ms={1,2,

,ms,

},其中ms是切片s中的第m个用户,ms是切片s中的总用户数,则∑
s∈sms
=u。
15.作为本发明的进一步改进,步骤2中还包括:
16.定义二进制变量若用户ms在基站b中请求切片s则为1,否则为0,为了保证用户只能够请求一个切片,引出约束c1:
[0017][0018]
定义二进制变量若在基站b将子信道j分配给用户ms则为1,否则为0,为了保证子信道在基站中只能够分配给一个用户,引出约束c2:
[0019][0020]
为了保证每个基站的发射功率不超过其最大发射功率引出约束c3:
[0021][0022]
作为本发明的进一步改进,步骤2中,考虑了基站中不完全的csi并计算此条件下用户ms的最差速率,不完全csi表述如下:
[0023][0024]
其中,表示估计的信道增益,表示估计信道增益的误差。
[0025]
作为本发明的进一步改进,步骤3中,在深度q学习dqn中,训练数据被表示为一个动作值,并被称为一个目标值,需要最小化的损失函数为:
[0026][0027]
其中,y
t
为目标值,θ表示神经网络的参数,代理通过更新θ来接近y
t
来学习动作值。
[0028]
作为本发明的进一步改进,步骤4中,计算子信道j上从基站b到用户ms的传输速率并表示为:
[0029][0030]
其中,表示在子信道j上基站b和用户ms之间的传输功率,表示在子信道j上基站b和用户ms之间的信道增益,系统总带宽为w。
[0031]
作为本发明的进一步改进,步骤4中还包括:每个子信道带宽相等,则每个子信道带宽为计算子信道j上基站b对用户ms的干扰并表示为:
[0032][0033]
将基站切片总吞吐量建模且目标是使得总吞吐量最大,并考虑约束条件,
[0034][0035][0036][0037][0038][0039][0040][0041]
其中,约束c1表示设计每个用户只能够请求一个切片,约束c2表示每个子信道在基站中只能够分配给一个用户,约束c3表示每个基站的发射功率不能超过其最大发射功率,约束c4保证了切片的qos需求,约束c5保证了用户的qos需求,约束c6表示用户满足延迟约束所需最小传输速率。
[0042]
作为本发明的进一步改进,步骤5中,采用深度强化学习来寻找最优动作,该网络输入为动作a
t
和状态s
t
,输出为动作的q值即qk(s
t
,a
t
);并采用目标神经网络计算下一个装状态s
t+1
的q值qk(s
t+!
,a
t
),并通过如下表达式更新:
[0043][0044]
其中,αk和γ分别是学习率和折扣因子,s
t+1
和r
t+1
表示下一状态和在状态s
t
下采取动作后得到的奖励,a表示状态s
t+1
下的可执行行动,a为可执行动作集,表示状态s
t+1
下动作集合a中的最大q值。
[0045]
作为本发明的进一步改进,步骤6中,切片优化问题能够描述为一个独立的马尔可夫决策过程,能够形式化为一个4元组的<s,a,π,r>,其中s是状态空间,a是动作空间,π是策略空间,r是直接奖励,定义马尔可夫决策过程中的状态集合s:将基站b与用户u之间的关联关系和信道增益设置为代理的状态输入,状态空间定义为:
[0046][0047]
其中,表示基站b与用户u若有关联则为1,否则为0。
[0048]
作为本发明的进一步改进,步骤6中,通过权衡因子δ来获得最终的奖励函数,所述权衡因子δ由局部效用utilityb和其他基站代理的平均效用的加权和组成:
[0049][0050]
其中,b是代理的总数。
[0051]
本发明的有益效果是:本发明在满足每个切片与用户的qos需求时,还确保了切片与用户之间的隔离。
附图说明
[0052]
图1是本发明适应不同信道特性的无线电接入网切片资源分配方法的网络模型图。
[0053]
图2是本发明适应不同信道特性的无线电接入网切片资源分配方法的ape-x体系图。
[0054]
图3是本发明适应不同信道特性的无线电接入网切片资源分配方法的系统模型图。
[0055]
图4是本发明适应不同信道特性的无线电接入网切片资源分配方法的dqn算法流程图。
具体实施方式
[0056]
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0057]
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
[0058]
另外,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0059]
如图1至图4所示,本发明揭示了一种适应不同信道特性的无线电接入网切片资源分配方法,包括以下步骤:
[0060]
步骤1、建立多基站蜂窝网络下行场景,具体地,该场景考虑一组b={1,...,b,...}的基站bss,且相邻的bss之间会互相干扰。用户集表示为u={1...,u,...},用户的总数表示为u。总带宽w被划分为一组相同的子信道j={1,...j,...},其中j是子信道的总数。因此,每个子信道的带宽为rj表示为子信道j的带宽。切片总数为s,并将切片表示为s={1,...,s,...}。每个切片s有一组用户ms={1,2,...,ms,...},其中ms是切片s中的第m个用户,ms是切片s中的总用户数。则∑
s∈sms
=u。
[0061]
步骤2、基站收集切片最小速率需求用户最小速率需求用户能够忍受最大延迟阈值d
max
和不完全csi条件信息。并根据所收集信息设置约束条件,具体地,
[0062]
定义二进制变量若用户ms在基站b中请求切片s则为1,否则为0。为了保证
用户只能够请求一个切片,引出约束c1:
[0063][0064]
定义二进制变量若在基站b将子信道j分配给用户ms则为1,否则为0。为了保证子信道在基站中只可以分配给一个用户,引出约束c2:
[0065][0066]
为了保证每个基站的发射功率不超过其最大发射功率引出约束c3:
[0067][0068]
由于基站中各种因素如用户的移动性、估计误差和反馈信道延迟等会导致csi的不确定性。完美的csi在基站中是几乎无法获得的。为此,我们考虑了基站中不完全的csi并计算此条件下用户ms的最差速率。不完全csi表述如下:
[0069][0070]
其中,表示估计的信道增益,表示估计信道增益的误差。估计的信道增益误差被困在有界区域内,则误差被困在有界区域内,则表示为:
[0071][0072]
其中,是一个小的常数,表示为信道的不确定度界。因此,在csi不确定性条件下,用户ms的最差速率可以表示为:
[0073][0074]
在切片层面为了保证每个切片的qos需求,每个切片s的总速率rs都应达到它的最低速率即:
[0075][0076]
在用户层面为了保证每个用户的qos需求,每个用户都应达到它的最低速率即:
[0077][0078]
计算用户ms的实际延迟。ran域中有两种类型的时延:传播时延和传输时延传播时延为基站b与用户ms之间的传播延迟,传输时延为信道j上基站b传输用户ms的
传输延迟。则用户ms的实际延迟表示为:
[0079][0080]
其中,表示为基站b和用户ms之间的距离且单位为米。c表示为光速,为数据包的大小,单位为比特。
[0081]
计算满足用户延迟需求所需最小速率。对于用户,我们希望在满足概率延迟要求的同时让其传输速率最大化,概率延迟要求如下式:
[0082]
pr(d
ms
>d
max
)<q,
[0083]
其中,d
max
是可以忍受的最大延迟阈值。q是延迟超过阈值的最大概率。
[0084]
接着我们引出了有效带宽函数:
[0085][0086]
其中,用户ms的平均数据包到达率假设为λu,l
avr
是数据包平均长度。当用户实际传输速率高于fu时,用户延迟du可以被限制在q内。
[0087]
步骤3、初始化深度q学习dqn的权重θ和q(s,a;θ)。具体地,dqn将神经网络应用于q学习。由神经网络近似的动作值函数称为q网络。在这个神经网络中,更新模型的权值,使模型通过计算训练数据的误差来接近训练数据。误差被定义为一个损失函数,并被最小化,使损失函数为零。即使得qk(s
t+!
,a
t
)与qk(s
t
,a
t
)之间的差值最小。在dqn中,训练数据被表示为一个动作值,并被称为一个目标值。因此,需要最小化的损失函数为:
[0088][0089]
其中,y
t
为目标值,θ表示神经网络的参数。代理通过更新θ来接近y
t
来学习动作值。
[0090]
步骤4、初始化a
t
即资源的分配并计算此时用户速率、基站对用户的干扰和基站切片总吞吐量。具体地,计算子信道j上从基站b到用户ms的传输速率并表示为:
[0091][0092]
其中,表示在子信道j上基站b和用户ms之间的传输功率。表示在子信道j上基站b和用户ms之间的信道增益。系统总带宽为w。每个子信道带宽相等,则每个子信道带宽为
[0093]
计算子信道j上基站b对用户ms的干扰并表示为:
[0094][0095]
将基站切片总吞吐量建模且目标是使得总吞吐量最大,并考虑约束条件。
[0096][0097][0098][0099][0100][0101][0102][0103]
其中,约束c1表示设计每个用户只可以请求一个切片,约束c2表示每个子信道在基站中只可以分配给一个用户,约束c3表示每个基站的发射功率不能超过其最大发射功率,约束c4保证了切片的qos需求,约束c5保证了用户的qos需求,约束c6表示用户满足延迟约束所需最小传输速率。
[0104]
步骤5、基站根据此时状态s
t
和计算奖励r
t
并使用ε贪婪策略做出决策。具体地,由于状态集与动作集的规模很大,采用深度强化学习来寻找最优动作,该网络输入为动作a
t
和状态s
t
,输出为动作的q值即qk(s
t
,a
t
);并采用目标神经网络计算下一个装状态s
t+1
的q值qk(s
t+!
,a
t
),并通过如下表达式更新:
[0105][0106]
其中,αk和γ分别是学习率和折扣因子。s
t+1
和r
t+1
表示下一状态和在状态s
t
下采取动作后得到的奖励。a表示状态s
t+1
下的可执行行动,a为可执行动作集,表示状态s
t+1
下动作集合a中的最大q值。在寻找最大值的过程中采用ε贪婪策略。在ε贪婪策略中,执行一个概率最高的动作值为1-ε的动作,并探索遵循ε概率均匀分布的随机动作。rl通过探索和开发来学习一个状态的最佳动作。
[0107]
步骤6、更新环境的状态s
t+1
以及奖励r
t+1
。将s
t
、a
t
、s
t+1
、r
t+1
这些参数值存起来,用来当作经验回放。学习者从累计的经验中随机抽取一定数量的样本学习并且向其余基站传输经验。具体地,切片优化问题可以描述为一个独立的马尔可夫决策过程mdp(markov decision process)。mdp可以形式化为一个4元组的<s,a,π,r>,其中s是状态空间,a是动作空间,π是策略空间,r是直接奖励。在每一步,切片代理采取一个动作a∈a根据当前策略π(a|s)及其观察s∈s,底层环境将产生立即奖励r,状态将过渡到一个新状态s
*
∈s。在我们的场景中,我们将定义mdp的三个组件即状态集合s,动作集合a,奖励集合r。
[0108]
定义mdp中的状态集合s:将基站b与用户u之间的关联关系和信道增益设置为代理的状态输入。状态空间定义为:
[0109][0110]
其中,表示基站b与用户u若有关联则为1,否则为0。
[0111]
定义mdp中的动作集合a:代理观察环境的状态信息,并在动作空间中选择一个动作。对于基站b,将其动作定义为基站和用户之间的子信道分配和功率分配。rb分配记为代表用户ms与子信道j相关联,否则基站b分配给子载波j的功率用pj,j∈r表示。
[0112]
定义mdp中的奖励集合r:奖励是向代理表面该行为对状态是积极还是消极的。本发明是以最大化总吞吐量,若基站内用户速率没有达到最小阈值则用户吞吐量将作为负奖励包含在总吞吐量中,则基站b的奖励定义为:
[0113][0114]
t(x)定义为:
[0115][0116]
其中,t(x)中的参数c是一个常数系数,用于控制曲线的倾角。
[0117]
上述公式表明,基站b的代理的目标是最大化基站b整体切片吞吐量。然而,由于各基站代理之间的相互影响,本地资源分配方案可能会对其他资源造成很大的干扰。因此,每个代理必须考虑自己的效用以及对其他代理的影响。我们引入了权衡因子δ来获得最终的奖励函数,它由局部效用utilityb和其他基站代理的平均效用的加权和组成:
[0118][0119]
其中,b是代理的总数。上述奖励并不是一个全局奖励,只代表了本地基站代理的奖励。它相当于用其他代理的平均效用替换局部代理的部分效用,替换部分的比例取决权衡因子δ∈(0,1),根据实际不同应用场景中设置。
[0120]
由于存在多基站代理学习,ape-x分布式学习在这里得到了应用。ape-x由学习者、参与者、经验池三部分组成,学习者学习的模型来自参与者收集的各种经验和策略。由于存在多个基站,基站首先收集基站内所有切片用户的需求和状态,并将其传递给基站对应的参与者。参与者根据学习者学习到的策略将输出的动作输出给基站的切片管理器。在学习过程中,奖励、状态和行为会作为经验被传递到经验池中。
[0121]
步骤s7、根据经验回放池计算出的损失函数l(θ),并更新权重θ,重复步骤5,直至损失函数l(θ)达到设置的收敛条件或者程序本身达到最大迭代次数t。
[0122]
综上所述,本发明定义了在多单元场景下的ran切片隔离的数学公式,在满足每个切片与用户的qos需求时,还确保了切片与用户之间的隔离。同时,本发明还考虑了不完善csi条件下资源分配的决策,利用drl来解决随即优化问题,克服了无线信道的随机性,目标是最大化基站切片总吞吐量还保证了个人用户的吞吐量需求。由于存在多基站训练学习,还引入了ape-x分布式学习体系加快学习速度。最后,本发明考虑了基站之间存在的干扰,
即每个基站的资源分配策略不仅取决于自身还取决于其他基站,更加符合实际应用场景。
[0123]
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

技术特征:
1.一种适应不同信道特性的无线电接入网切片资源分配方法,其特征在于,包括以下步骤:步骤1、建立多基站蜂窝网络下行场景;步骤2、基站收集切片最小速率需求用户最小速率需求用户能够忍受最大延迟阈值d
max
和不完全csi条件信息;步骤3、初始化深度q学习dqn的权重θ和q(s,a;θ);步骤4、初始化a
t
即资源的分配并计算此时用户速率、基站对用户的干扰和基站切片总吞吐量;步骤5、基站根据此时状态s
t
和计算奖励r
t
并使用ε贪婪策略做出决策;步骤6、更新环境的状态s
t+1
以及奖励r
t+1
;步骤7、根据经验回放池计算出的损失函数l(θ),并更新权重θ,重复步骤5,直至损失函数l(θ)达到设置的收敛条件或者程序本身达到最大迭代次数t。2.根据权利要求1所述的适应不同信道特性的无线电接入网切片资源分配方法,其特征在于:步骤1中,所述多基站蜂窝网络下行场景包括一组b={1,...,b,...}的基站bss,且相邻的bss之间会互相干扰,用户集表示为u={1...,u,...},用户的总数表示为u,总带宽w被划分为一组相同的子信道j={1,...j,...},其中j是子信道的总数,每个子信道的带宽为r
j
表示为子信道j的带宽,切片总数为s,并将切片表示为s={1,...,s,...},每个切片s有一组用户m
s
={1,2,...,m
s
,...},其中m
s
是切片s中的第m个用户,m
s
是切片s中的总用户数,则∑
s∈s
m
s
=u。3.根据权利要求1所述的适应不同信道特性的无线电接入网切片资源分配方法,其特征在于:步骤2中还包括:定义二进制变量若用户m
s
在基站b中请求切片s则为1,否则为0,为了保证用户只能够请求一个切片,引出约束c1:c1:定义二进制变量若在基站b将子信道j分配给用户m
s
则为1,否则为0,为了保证子信道在基站中只能够分配给一个用户,引出约束c2:c2:为了保证每个基站的发射功率不超过其最大发射功率引出约束c3:c3:4.根据权利要求3所述的适应不同信道特性的无线电接入网切片资源分配方法,其特征在于:步骤2中,考虑了基站中不完全的csi并计算此条件下用户m
s
的最差速率,不完全csi表述如下:
其中,表示估计的信道增益,表示估计信道增益的误差。5.根据权利要求1所述的适应不同信道特性的无线电接入网切片资源分配方法,其特征在于:步骤3中,在深度q学习dqn中,训练数据被表示为一个动作值,并被称为一个目标值,需要最小化的损失函数为:其中,y
t
为目标值,θ表示神经网络的参数,代理通过更新θ来接近y
t
来学习动作值。6.根据权利要求1所述的适应不同信道特性的无线电接入网切片资源分配方法,其特征在于:步骤4中,计算子信道j上从基站b到用户m
s
的传输速率并表示为:其中,表示在子信道j上基站b和用户m
s
之间的传输功率,表示在子信道j上基站b和用户m
s
之间的信道增益,系统总带宽为w。7.根据权利要求6所述的适应不同信道特性的无线电接入网切片资源分配方法,其特征在于:步骤4中还包括:每个子信道带宽相等,则每个子信道带宽为计算子信道j上基站b对用户m
s
的干扰并表示为:将基站切片总吞吐量建模且目标是使得总吞吐量最大,并考虑约束条件,c1:c2:c3:c4:c5:c6:
其中,约束c1表示设计每个用户只能够请求一个切片,约束c2表示每个子信道在基站中只能够分配给一个用户,约束c3表示每个基站的发射功率不能超过其最大发射功率,约束c4保证了切片的qos需求,约束c5保证了用户的qos需求,约束c6表示用户满足延迟约束所需最小传输速率。8.根据权利要求1所述的适应不同信道特性的无线电接入网切片资源分配方法,其特征在于:步骤5中,采用深度强化学习来寻找最优动作,该网络输入为动作a
t
和状态s
t
,输出为动作的q值即q
k
(s
t
,a
t
);并采用目标神经网络计算下一个装状态s
t+1
的q值q
k
(s
t+!
,a
t
),并通过如下表达式更新:其中,α
k
和γ分别是学习率和折扣因子,s
t+1
和r
t+1
表示下一状态和在状态s
t
下采取动作后得到的奖励,a表示状态s
t+1
下的可执行行动,a为可执行动作集,表示状态s
t+1
下动作集合a中的最大q值。9.根据权利要求1所述的适应不同信道特性的无线电接入网切片资源分配方法,其特征在于:步骤6中,切片优化问题能够描述为一个独立的马尔可夫决策过程,能够形式化为一个4元组的<s,a,π,r>,其中s是状态空间,a是动作空间,π是策略空间,r是直接奖励,定义马尔可夫决策过程中的状态集合s:将基站b与用户u之间的关联关系和信道增益设置为代理的状态输入,状态空间定义为:其中,表示基站b与用户u若有关联则为1,否则为0。10.根据权利要求9所述的适应不同信道特性的无线电接入网切片资源分配方法,其特征在于:步骤6中,通过权衡因子δ来获得最终的奖励函数,所述权衡因子δ由局部效用utility
b
和其他基站代理的平均效用的加权和组成:其中,b是代理的总数。

技术总结
本发明提供了一种适应不同信道特性的无线电接入网切片资源分配方法,包括以下步骤:建立多基站蜂窝网络下行场景;基站收集切片最小速率需求、用户最小速率需求、用户可以忍受最大延迟阈值和不完全CSI条件信息;初始化深度Q学习DQN的权重;初始化即资源的分配并计算此时用户速率、基站对用户的干扰和基站切片总吞吐量;基站根据此时状态和计算奖励并使用贪婪策略做出决策;更新环境的状态以及奖励;根据经验回放池计算出的损失函数,并更新权重,直至损失函数达到设置的收敛条件或者程序本身达到最大迭代次数。本发明在满足每个切片与用户的QoS需求时,还确保了切片与用户之间的隔离。隔离。隔离。


技术研发人员:孙君 王科
受保护的技术使用者:南京邮电大学
技术研发日:2023.06.21
技术公布日:2023/10/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐