基于DQN的多边缘节点系统联合计算卸载和资源分配方法

未命名 09-13 阅读:75 评论:0

基于dqn的多边缘节点系统联合计算卸载和资源分配方法
技术领域
1.本发明属于边缘计算技术领域,尤其涉及一种基于dqn的多边缘节点系统联合计算卸载和资源分配方法。


背景技术:

2.随着移动终端的普及和各种新兴移动应用的出现,如人脸识别、自动驾驶、ar等,移动网络中的数据流量急剧增加,且各种用户业务对服务时延、传输速率等提出了更高的要求,这对移动网络的计算能力带来了巨大的挑战。移动边缘计算(mobile edge computing,mec)是一种支持多种接入方式、就近为终端设备提供计算服务的技术。移动边缘计算将计算、存储、网络控制功能等从集中式的云计算平台下沉至更靠近用户的网络边缘侧,能够支持时延敏感型业务,降低设备能耗,提升网络性能。然而,在多边缘节点移动边缘计算网络中,到达各边缘节点的用户业务动态变化,且各边缘节点的频谱资源和计算资源的分布不均衡,因此需要研究高效的联合计算卸载和资源分配方法,以提高网络资源的利用率,满足网络中各种用户业务的服务需求。
3.传统的联合计算卸载和资源分配方法主要针对相对静态的系统场景,难以适应动态变化的mec系统环境。将机器学习中的深度强化学习方法应用到mec系统中的联合计算卸载和资源分配问题中,能够自适应地为动态到达的用户业务请求选择最佳的目标卸载边缘服务器和分配最佳的频谱资源和计算资源,在保证用户服务需求的前提下最大化系统性能。


技术实现要素:

4.本发明目的在于提供一种基于dqn的多边缘节点系统联合计算卸载和资源分配方法,以解决多边缘节点系统场景中用户业务请求的联合计算卸载和资源分配问题,在满足不同用户业务请求的服务时延上限要求以及系统资源约束的前提下,最大化系统的吞吐量。
5.为解决上述技术问题,本发明的具体技术方案如下:
6.步骤1、系统中心控制器构建深度q网络(deep q network,dqn)并对其进行初始化训练;
7.步骤2、系统中心控制器获取新到达用户业务请求的数据量和服务时延上限参数、系统中的无线信道状态参数、基站和边缘服务器侧的用户业务请求缓冲队长度参数以及各边缘节点可用的频谱资源块数量和计算资源块数量参数数据等历史数据,并将所获取的参数数据进行归一化处理;
8.步骤3、系统中心控制器将步骤2中归一化后的参数数据输入到初始化训练后的dqn网络中,dqn网络将为新到达的用户业务请求选择目标卸载边缘服务器,并预分配频谱和计算资源;
9.步骤4、系统中心控制器根据步骤3中所输出的目标卸载边缘服务器以及频谱和计
算资源预分配结果,计算新到达的用户业务请求在系统中预计经历的总服务时延,并根据总服务时延大小和新到达的用户业务请求的服务时延上限判断新到达的用户业务请求是否在系统中超时,若总服务时延>新到达的用户业务请求的服务时延上限,则新到达的用户业务请求在系统中超时;若总服务时延≤新到达的用户业务请求的服务时延上限,则新到达的用户业务请求在系统中未超时;
10.步骤5、若新到达的用户业务请求在系统中未超时,则系统将根据步骤3中所输出的目标卸载边缘服务器和频谱资源预分配结果,为新到达的用户业务请求分配频谱资源,并将新到达的用户业务请求数据卸载至目标卸载边缘服务器,目标卸载边缘服务器再根据步骤3中所输出的计算资源预分配结果,为该用户业务请求分配计算资源;若新到达的用户业务请求在系统中超时,系统将丢弃该用户业务请求。
11.优选的,步骤1中,系统中心控制器构建dqn网络并对其进行初始化训练,其步骤包括:
12.步骤1.1、构建dqn网络,初始化dqn网络中的记忆库、目标网络和预测网络的网络结构和参数;
13.步骤1.2、dqn网络的智能体与系统环境交互,生成dqn训练集;在生成训练集阶段,dqn智能体每次与系统环境交互时,得到一个四元组(s
t
,a
t
,r
t
,s
t+1
),其中s
t
表示当前时刻t系统环境的状态,其包括时刻t到达的用户业务请求i的特征信息、系统中的无线信道状态、基站和边缘服务器的缓冲队列长度以及各边缘节点可用的频谱资源块和计算资源块数量;a
t
表示dqn智能体获取状态s
t
后,根据ε-greedy策略选择出的一个联合计算卸载和资源分配决策(x
i,j
,bi,ci),其中x
i,j
是表示用户业务请求i与目标卸载边缘服务器j之间关联的一个二进制变量,其中i=1,2,

;j=1,2,

,n;n表示系统中边缘节点的数量,bi表示与用户业务请求i关联的本地基站为用户业务请求i分配的频谱资源块数量,ci表示用户业务请求i的目标卸载边缘服务器为用户业务请求i分配的计算资源块数量;r
t
表示dqn智能体执行a
t
后系统环境反馈的一个奖励值;s
t+1
表示系统的下一个状态;奖励值r
t
根据以下奖励函数计算获得:
[0014][0015]
mb<<nb,mc<<nc,
[0016]
其中,mb表示单个用户业务请求可分配到的最大频谱资源块数量,mc表示单个用户业务请求可分配到的最大计算资源块数量,nb表示系统中每个基站和每个边缘服务器总的频谱资源块数量,nc表示系统中每个基站和每个边缘服务器总的计算资源块数量,τi表示用户业务请求i在联合计算卸载和资源分配决策下所经历的总服务时延,τ
i,max
表示用户业务请求i的最大服务时延上限;
[0017]
步骤1.3、将dqn智能体与系统环境交互得到的四元组存入到记忆库中;若记忆库中四元组数量未超出记忆库的最大容量,直接将四元组存储到记忆库中;若超出记忆库最大容量,则删除最早存入记忆库中的四元组,存入新的四元组;
[0018]
步骤1.4、从记忆库中随机抽取一批大小固定的四元组样本数据输入到目标网络
和预测网络中,根据以下公式计算损失函数loss的值:
[0019][0020]
其中,r
t
表示状态s
t
下执行a
t
后系统环境反馈的一个奖励值;q(s
t
,a
t
,ω)表示状态s
t
下执行动作a
t
后dqn预测网络输出的q值大小,q值表示dqn智能体基于策略π在状态s
t
下采取动作a
t
的期望回报,由公式计算可得,表示期望,γ表示衰减因子,0≤γ≤1,l表示一个训练回合中处理用户业务请求的最大时间步数;s
t
是dqn智能体在t时刻的状态;a
t
是dqn智能体在t时刻的动作;a
*
表示状态s
t+1
下使得dqn目标网络输出最大q值的动作;表示状态s
t+1
下执行动作a
*
后dqn目标网络输出的最大q值;ω表示dqn网络中预测网络的网络参数;ω'表示dqn网络中目标网络的网络参数;
[0021]
步骤1.5、使用rmsprop梯度下降法,根据损失函数loss的值更新dqn预测网络的网络参数ω,dqn预测网络的网络参数每更新一次,计数器加一;
[0022]
步骤1.6、重复步骤1.4-步骤1.5,每当dqn预测网络的网络参数更新计数达到目标网络参数替换步长m的倍数时,跳转至步骤1.7;
[0023]
步骤1.7、将dqn预测网络的网络参数ω复制到目标网络的网络参数ω',使两个网络的参数完全相同;
[0024]
步骤1.8、重复步骤1.4-步骤1.7,直到损失函数loss的值收敛。
[0025]
优选的,步骤2根据以下公式对所获取的参数数据进行归一化处理:
[0026][0027]
式中,xk表示系统所获取的第k项参数,x
k,max
表示第k项参数的最大数值,x
k,min
表示第k项参数的最小数值,x'k表示经归一化处理后,第k项参数的数值,k表示不同参数的数量。
[0028]
优选的,步骤3具体包括以下步骤:
[0029]
步骤3.1、系统中心控制器将经过归一化处理后的用户业务请求特征以及系统环境状态参数的数据输入到初始化训练后的dqn网络;
[0030]
步骤3.2、dqn网络根据当前预测网络的网络参数,输出所有可能的联合计算卸载和资源分配决策的q值;
[0031]
步骤3.3、系统中心控制器为新到达的用户业务请求选择q值最高的联合计算卸载和资源分配决策。
[0032]
优选的,步骤4具体包括以下步骤:
[0033]
步骤4.1、根据步骤3中所输出的目标卸载边缘服务器以及频谱资源和计算资源预分配结果,计算新到达用户业务请求在系统中预计经历的总服务时延,其步骤如下:
[0034]
步骤4.1.1、传输侧
[0035]
在多边缘节点系统场景中,根据各边缘节点的可用资源状态和业务负载状态,用户业务请求有两种卸载策略,第一种卸载策略是直接卸载至本地边缘服务器处理,第二种卸载策略是卸载到非本地边缘服务器处理;
[0036]
采用第一种卸载策略,用户业务请求i在传输侧的服务时延等于其传输时延与排队时延之和;根据香农定理,在预分配的频谱资源情况下将用户业务请求i的业务数据传输至本地基站时可获得的最大传输速率为:
[0037][0038]
对应的传输时延为:
[0039][0040]
在传输侧的排队时延为:
[0041][0042]
其中,b表示单个频谱资源块的大小,pi表示用户业务请求i的业务数据发送功率,gi表示产生用户业务请求i的用户与基站间的信道增益,σ2表示信道的噪声功率,si表示用户业务请求i的业务数据大小,μi表示用户业务请求i的计算速率要求,表示本地基站最早释放的bi个频谱资源块的释放时间集合;
[0043]
采用第二种卸载策略,用户业务请求i在传输侧的服务时延等于在采用第一种卸载策略的服务时延的基础上加上将用户业务请求i的业务数据从本地基站卸载至目标卸载边缘服务器j之间的链路传输时延,其计算如下:
[0044][0045]
其中,rj表示本地基站和目标卸载边缘服务器j之间的链路传输速率;这里忽略数据的传播时延;
[0046]
步骤4.1.2、计算侧
[0047]
用户业务请求i的业务数据卸载至目标卸载边缘服务器后,其计算时延为:
[0048][0049]
在计算侧的排队时延为:
[0050][0051]
其中,c表示单个计算资源块的大小,表示目标卸载边缘服务器最早释放的ci个计算资源块的释放时间集合;因此,用户业务请求i在系统中的总服务时延为:
[0052][0053]
步骤4.2、如果在步骤3中输出的目标卸载边缘服务器以及预分配的频谱资源和计算资源情况下,新到达用户业务请求i预计经历的总服务时延大于其服务时延上限,则该用户业务请求超时;否则,该用户业务请求未超时。
[0054]
优选的,步骤5中新到达的用户业务请求在系统中未超时后具体包括以下步骤:
[0055]
步骤5.1、新到达的用户业务请求进入其本地基站传输侧的用户请求缓冲队列等待频谱资源的分配;
[0056]
步骤5.2、系统获取当前时刻本地基站的用户业务请求缓冲队列状态以及可用频谱资源状态;如果本地基站可用的空闲频谱资源充足,则基站根据步骤3中所输出的频谱资源预分配结果,直接为新到达的用户业务请求分配频谱资源;否则,新到达的用户业务请求将在缓冲队列中排队等待,直至本地基站释放出足够的可用空闲频谱资源;本地基站完成频谱资源分配后,更新其频谱资源状态;
[0057]
步骤5.3、新到达的用户业务请求获得分配的频谱资源后,对应的用户将通过上行链路将其业务数据传输至本地基站;
[0058]
步骤5.4、本地基站根据步骤3中所输出的目标卸载边缘服务器,将新到达的用户业务请求数据传送至该目标卸载边缘服务器;如果目标卸载边缘服务器是本地边缘服务器,则新到达的用户业务请求数据将直接由本地基站传送至其关联的本地边缘服务器;否则,新到达的用户业务请求数据将通过基站间的有线链路卸载至目标卸载边缘服务器;
[0059]
步骤5.5、新到达的用户业务请求进入目标卸载边缘服务器计算侧的用户业务请求缓冲队列中等待计算资源的分配;
[0060]
步骤5.6、目标卸载边缘服务器获取其当前时刻的用户业务请求缓冲队列状态和可用计算资源状态;如果目标卸载边缘服务器可用的空闲计算资源充足,则目标卸载边缘服务器将根据步骤3中所输出的计算资源预分配结果,直接为新到达的用户业务请求分配计算资源;否则,新到达的用户业务请求将在缓冲队列中排队等待,直至目标卸载边缘服务器释放出足够的可用空闲计算资源;目标卸载边缘服务器完成计算资源分配后,更新其计算资源状态
[0061]
本发明的基于dqn的多边缘节点系统联合计算卸载和资源分配方法,具有以下优点:
[0062]
1、针对多边缘节点协作系统场景,研究联合计算卸载和资源分配问题,根据系统中各边缘节点用户业务请求的动态变化以及可用频谱和计算资源的动态变化,自适应地为动态到达的用户业务请求选择最佳目标卸载边缘服务器和分配最佳频谱和计算资源,在满足多边缘节点系统用户业务请求的服务时延上限以及系统资源约束要求的前提下,最大化系统的吞吐量。
[0063]
2、多边缘节点系统场景下的联合计算卸载和资源分配问题不同于单边缘节点系统场景下的资源分配问题,其不仅仅需要考虑用户业务请求的频谱资源和计算资源联合分配问题,还需要考虑各边缘节点间的负载均衡,采用传统的优化方法难以实现为动态到达的用户业务请求在线选择目标卸载边缘服务器和分配资源。本发明提供了一种基于深度强化学习方法dqn的联合计算卸载和资源分配方法,能够更好地适应动态到达的用户业务需求和动态变化的mec系统环境,有效提升了系统吞吐量。
附图说明
[0064]
图1为本发明中dqn网络初始化训练步骤流程示意图。
[0065]
图2为本发明中用户业务请求接入控制步骤流程示意图。
[0066]
图3为本发明中将用户业务请求卸载至目标卸载边缘服务器计算处理的步骤流程
示意图。
[0067]
图4为本发明基于dqn的多边缘节点系统联合计算卸载和资源分配方法的流程示意图。
具体实施方式
[0068]
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于dqn的多边缘节点系统联合计算卸载和资源分配方法做进一步详细的描述。
[0069]
本发明实施例公开的一种基于dqn的多边缘节点系统联合计算卸载和资源分配方法,可应用于多边缘节点系统场景。在该系统场景中,各边缘节点由一个基站和一个关联边缘服务器组成,移动终端的用户业务请求动态到达系统,用户业务请求的业务数据通过上行无线链路传输至本地基站,再转送至目标卸载边缘服务器进行计算处理。系统中心控制器为每一个到达的用户业务请求选择目标卸载边缘服务器,并进行频谱资源和计算资源的预分配,使到达的用户业务请求可以在其服务时延上限内得到计算处理。系统中频谱资源以频谱资源块表征,假设系统中每个基站共有nb个带宽相等的频谱资源块,记为计算资源以计算资源块表征,假设系统中每个边缘服务器共有nc个cpu频率相等的计算资源块,记为
[0070]
本发明实施例的一种基于dqn的多边缘节点系统联合计算卸载和资源分配方法主要包含5个步骤:
[0071]
(1)系统中心控制器构建dqn网络并对其进行初始化训练,其步骤包括:
[0072]
1)构建dqn网络,初始化dqn网络中的记忆库、目标网络和预测网络的网络结构和参数;
[0073]
2)dqn网络的智能体与系统环境交互,生成dqn训练集。在生成训练集阶段,dqn智能体每次与系统环境交互时,得到一个四元组(s
t
,a
t
,r
t
,s
t+1
),其中s
t
表示当前时刻t系统环境的状态,其包括时刻t到达的用户业务请求i的特征信息、系统中的无线信道状态、基站和边缘服务器的缓冲队列长度以及各边缘节点可用的频谱资源块和计算资源块数量;a
t
表示dqn智能体获取状态s
t
后,根据ε-greedy策略选择出的一个联合计算卸载和资源分配决策(x
i,j
,bi,ci),其中x
i,j
是表示用户业务请求i(i=1,2,

)与目标卸载边缘服务器j(j=1,2,

,n)之间关联的一个二进制变量,n表示系统中边缘节点的数量,bi表示与用户业务请求i关联的本地基站为用户业务请求i分配的频谱资源块数量,ci表示用户业务请求i的目标卸载边缘服务器为用户业务请求i分配的计算资源块数量;r
t
表示dqn智能体执行a
t
后系统环境反馈的一个奖励值;s
t+1
表示系统的下一个状态。奖励值r
t
根据以下奖励函数计算获得:
[0074][0075]
mb<<nb,mc<<nc,
[0076]
其中,mb和mc分别表示单个用户业务请求可分配到的最大频谱资源块数量和计算资源块数量,nb和nc分别表示系统中每个基站和每个边缘服务器总的频谱资源块数量和计
算资源块数量,τi表示用户业务请求i在联合计算卸载和资源分配决策下所经历的总服务时延。
[0077]
3)将dqn智能体与系统环境交互得到的四元组存入到记忆库中。若记忆库中四元组数量未超出记忆库的最大容量,直接将四元组存储到记忆库中;否则,若超出记忆库最大容量,则删除最早存入记忆库中的四元组,存入新的四元组;
[0078]
4)从记忆库中随机抽取一批大小固定的四元组样本数据输入到目标网络和预测网络中,根据以下公式计算损失函数loss的值:
[0079][0080]
其中,r
t
表示状态s
t
下执行a
t
后系统环境反馈的一个奖励值;q(s
t
,a
t
,ω)表示状态s
t
下执行动作a
t
后dqn预测网络输出的q值大小,q值表示dqn智能体基于策略π在状态s
t
下采取动作a
t
的期望回报,由公式计算可得,表示期望,γ表示衰减因子,0≤γ≤1,l表示一个训练回合中处理用户业务请求的最大时间步数;s
t
是dqn智能体在t时刻的状态;a
t
是dqn智能体在t时刻的动作;a
*
表示状态s
t+1
下使得dqn目标网络输出最大q值的动作;表示状态s
t+1
下执行动作a
*
后dqn目标网络输出的最大q值;ω表示dqn网络中预测网络的网络参数;ω'表示dqn网络中目标网络的网络参数;
[0081]
5)使用rmsprop梯度下降法,根据损失函数loss的值更新dqn预测网络的网络参数ω,dqn预测网络的网络参数每更新一次,计数器加一;
[0082]
6)重复步骤4)-5),每当dqn预测网络的网络参数更新计数达到目标网络参数替换步长m的倍数时,跳转至步骤7);
[0083]
7)将dqn预测网络的网络参数ω复制到目标网络的网络参数ω',使两个网络的参数完全相同;
[0084]
8)重复步骤4)-7),直到损失函数loss的值收敛;
[0085]
具体操作详见图1的流程示意图。
[0086]
(2)系统中心控制器获取新到达用户业务请求的特征参数、系统中无线信道的状态参数以及各边缘节点的可用资源状态参数等历史数据,并将所获取的参数数据进行归一化处理,其步骤包括:
[0087]
1)系统中心控制器获取新到达用户业务请求的数据量和服务时延上限、系统中的无线信道状态、基站和边缘服务器侧的用户业务请求缓冲队长度以及各边缘节点可用的频谱资源块数量和计算资源块数量等历史数据;
[0088]
2)根据以下公式对所获取的各项参数的历史数据进行归一化处理:
[0089][0090]
式中,xk(k=1,2,3

)表示系统所获取的第k项参数,x
k,max
表示第k项参数的最大数值,x
k,min
表示第k项参数的最小数值,x'k表示经归一化处理后,第k项参数的数值。
[0091]
(3)系统中心控制器将归一化后的用户业务请求特征参数以及系统环境状态参数等数据输入到初始化训练后的dqn网络中,dqn网络将为新到达的用户业务请求选择目标卸
载边缘服务器,并预分配频谱和计算资源,其步骤包括:
[0092]
1)系统中心控制器将经过归一化处理后的用户业务请求特征以及系统环境状态参数等数据输入到初始化训练后的dqn网络;
[0093]
2)dqn网络根据当前预测网络的网络参数,输出所有可能的联合计算卸载和资源分配决策的q值;
[0094]
3)系统中心控制器为新到达的用户业务请求选择q值最高的联合计算卸载和资源分配决策。
[0095]
(4)系统中心控制器根据步骤(3)中所输出的目标卸载边缘服务器以及频谱资源和计算资源预分配结果,计算新到达用户业务请求在系统中预计经历的总服务时延,并根据总服务时延大小和新到达用户业务请求的服务时延上限,判断新到达用户业务请求在系统中是否超时,其步骤包括:
[0096]
1)根据步骤(3)中所输出的目标卸载边缘服务器以及频谱资源和计算资源预分配结果,计算新到达用户业务请求在系统中预计经历的总服务时延,其步骤如下:
[0097]
a传输侧
[0098]
在多边缘节点系统场景中,根据各边缘节点的可用资源状态和业务负载状态,用户业务请求有两种卸载策略:直接卸载至本地边缘服务器处理和卸载到非本地边缘服务器处理。
[0099]
采用第一种卸载策略,用户业务请求i在传输侧的服务时延等于其传输时延与排队时延之和。根据香农定理,在预分配的频谱资源情况下将用户业务请求i的业务数据传输至本地基站时可获得的最大传输速率为:
[0100][0101]
对应的传输时延为:
[0102][0103]
在传输侧的排队时延为:
[0104][0105]
其中,b表示单个频谱资源块的大小,pi表示用户业务请求i的业务数据发送功率,gi表示产生用户业务请求i的用户与基站间的信道增益,σ2表示信道的噪声功率,si表示用户业务请求i的业务数据大小,μi表示用户业务请求i的计算速率要求,表示本地基站最早释放的bi个频谱资源块的释放时间集合。
[0106]
采用第二种卸载策略,用户业务请求i在传输侧的服务时延等于在采用第一种卸载策略的服务时延的基础上加上将用户业务请求i的业务数据从本地基站卸载至目标卸载边缘服务器j之间的链路传输时延,其计算如下:
[0107]
[0108]
其中,rj表示本地基站和目标卸载边缘服务器j之间的链路传输速率。注:这里忽略数据的传播时延。
[0109]
b计算侧
[0110]
用户业务请求i的业务数据卸载至目标卸载边缘服务器后,其计算时延为:
[0111][0112]
在计算侧的排队时延为:
[0113][0114]
其中,c表示单个计算资源块的大小,表示目标卸载边缘服务器最早释放的ci个计算资源块的释放时间集合。因此,用户业务请求i在系统中的总服务时延为:
[0115][0116]
2)如果在步骤(3)中输出的目标卸载边缘服务器以及预分配的频谱资源和计算资源情况下,新到达用户业务请求i预计经历的总服务时延大于其服务时延上限,则该用户业务请求超时。否则,该用户业务请求未超时。
[0117]
具体操作详见图2的流程示意图。
[0118]
(5)如果新到达的用户业务请求在系统中未超时,则系统将根据步骤(3)中所输出的目标卸载边缘服务器以及频谱预分配结果,为新到达的用户业务请求分配频谱资源,并将新到达的用户业务请求数据卸载至目标卸载边缘服务器,目标卸载边缘服务器再根据步骤(3)中所输出的计算资源预分配结果,为该用户业务请求分配计算资源。若超时,系统将丢弃该用户业务请求,其步骤包括:
[0119]
1)新到达的用户业务请求进入其本地基站传输侧的用户请求缓冲队列等待频谱资源的分配;
[0120]
2)系统获取当前时刻本地基站的用户业务请求缓冲队列状态以及可用频谱资源状态。如果本地基站可用的空闲频谱资源充足,则基站根据步骤(3)中所输出的频谱资源预分配结果,直接为新到达的用户业务请求分配频谱资源;否则,新到达的用户业务请求将在缓冲队列中排队等待,直至本地基站释放出足够的可用空闲频谱资源。本地基站完成频谱资源分配后,更新其频谱资源状态。
[0121]
3)新到达的用户业务请求获得分配的频谱资源后,对应的用户将通过上行链路将其业务数据传输至本地基站。
[0122]
4)本地基站根据步骤(3)中所输出的目标卸载边缘服务器,将新到达的用户业务请求数据传送至该目标卸载边缘服务器。如果目标卸载边缘服务器是本地边缘服务器,则新到达的用户业务请求数据将直接由本地基站传送至其关联的本地边缘服务器;否则,新到达的用户业务请求数据将通过基站间的有线链路卸载至目标卸载边缘服务器。
[0123]
5)新到达的用户业务请求进入目标卸载边缘服务器计算侧的用户业务请求缓冲队列中等待计算资源的分配;
[0124]
6)目标卸载边缘服务器获取其当前时刻的用户业务请求缓冲队列状态和可用计算资源状态。如果目标卸载边缘服务器可用的空闲计算资源充足,则目标卸载边缘服务器
将根据步骤(3)中所输出的计算资源预分配结果,直接为新到达的用户业务请求分配计算资源;否则,新到达的用户业务请求将在缓冲队列中排队等待,直至目标卸载边缘服务器释放出足够的可用空闲计算资源。目标卸载边缘服务器完成计算资源分配后,更新其计算资源状态。
[0125]
具体操作详见图3的流程示意图。
[0126]
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本技术的权利要求范围内的实施例都属于本发明所保护的范围内。

技术特征:
1.一种基于dqn的多边缘节点系统联合计算卸载和资源分配方法,其特征在于,包括如下步骤:步骤1、系统中心控制器构建dqn网络并对其进行初始化训练;步骤2、系统中心控制器获取新到达用户业务请求的数据量和服务时延上限参数、系统中的无线信道状态参数、基站和边缘服务器侧的用户业务请求缓冲队长度参数以及各边缘节点可用的频谱资源块数量和计算资源块数量参数数据,并将所获取的参数数据进行归一化处理;步骤3、系统中心控制器将步骤2中归一化后的参数数据输入到初始化训练后的dqn网络中,dqn网络将为新到达的用户业务请求选择目标卸载边缘服务器,并预分配频谱和计算资源;步骤4、系统中心控制器根据步骤3中所输出的目标卸载边缘服务器以及频谱和计算资源预分配结果,计算新到达的用户业务请求在系统中预计经历的总服务时延,并根据总服务时延大小和新到达的用户业务请求的服务时延上限判断新到达的用户业务请求是否在系统中超时,若总服务时延>新到达的用户业务请求的服务时延上限,则新到达的用户业务请求在系统中超时;若总服务时延≤新到达的用户业务请求的服务时延上限,则新到达的用户业务请求在系统中未超时;步骤5、若新到达的用户业务请求在系统中未超时,则系统将根据步骤3中所输出的目标卸载边缘服务器和频谱资源预分配结果,为新到达的用户业务请求分配频谱资源,并将新到达的用户业务请求数据卸载至目标卸载边缘服务器,目标卸载边缘服务器再根据步骤3中所输出的计算资源预分配结果,为该用户业务请求分配计算资源;若新到达的用户业务请求在系统中超时,系统将丢弃该用户业务请求。2.根据权利要求1所述的基于dqn的多边缘节点系统联合计算卸载和资源分配方法,其特征在于,步骤1具体包括以下步骤:步骤1.1、构建dqn网络,初始化dqn网络中的记忆库、目标网络和预测网络的网络结构和参数;步骤1.2、dqn网络的智能体与系统环境交互,生成dqn训练集;在生成训练集阶段,dqn智能体每次与系统环境交互时,得到一个四元组(s
t
,a
t
,r
t
,s
t+1
),其中s
t
表示当前时刻t系统环境的状态,其包括时刻t到达的用户业务请求i的特征信息、系统中的无线信道状态、基站和边缘服务器的缓冲队列长度以及各边缘节点可用的频谱资源块和计算资源块数量;a
t
表示dqn智能体获取状态s
t
后,根据ε-greedy策略选择出的一个联合计算卸载和资源分配决策(x
i,j
,b
i
,c
i
),其中x
i,j
是表示用户业务请求i与目标卸载边缘服务器j之间关联的一个二进制变量,其中i=1,2,

;j=1,2,

,n;n表示系统中边缘节点的数量,b
i
表示与用户业务请求i关联的本地基站为用户业务请求i分配的频谱资源块数量,c
i
表示用户业务请求i的目标卸载边缘服务器为用户业务请求i分配的计算资源块数量;r
t
表示dqn智能体执行a
t
后系统环境反馈的一个奖励值;s
t+1
表示系统的下一个状态;奖励值r
t
根据以下奖励函数计算获得:
m
b
<<n
b
,m
c
<<n
c
,其中,m
b
表示单个用户业务请求可分配到的最大频谱资源块数量,m
c
表示单个用户业务请求可分配到的最大计算资源块数量,n
b
表示系统中每个基站和每个边缘服务器总的频谱资源块数量,n
c
表示系统中每个基站和每个边缘服务器总的计算资源块数量,τ
i
表示用户业务请求i在联合计算卸载和资源分配决策下所经历的总服务时延,τ
i,max
表示用户业务请求i的最大服务时延上限;步骤1.3、将dqn智能体与系统环境交互得到的四元组存入到记忆库中;若记忆库中四元组数量未超出记忆库的最大容量,直接将四元组存储到记忆库中;若超出记忆库最大容量,则删除最早存入记忆库中的四元组,存入新的四元组;步骤1.4、从记忆库中随机抽取一批大小固定的四元组样本数据输入到目标网络和预测网络中,根据以下公式计算损失函数loss的值:其中,r
t
表示状态s
t
下执行a
t
后系统环境反馈的一个奖励值;q(s
t
,a
t
,ω)表示状态s
t
下执行动作a
t
后dqn预测网络输出的q值大小,q值表示dqn智能体基于策略π在状态s
t
下采取动作a
t
的期望回报,由公式计算可得,表示期望,γ表示衰减因子,0≤γ≤1,l表示一个训练回合中处理用户业务请求的最大时间步数;s
t
是dqn智能体在t时刻的状态;a
t
是dqn智能体在t时刻的动作;a
*
表示状态s
t+1
下使得dqn目标网络输出最大q值的动作;表示状态s
t+1
下执行动作a
*
后dqn目标网络输出的最大q值;ω表示dqn网络中预测网络的网络参数;ω'表示dqn网络中目标网络的网络参数;步骤1.5、使用rmsprop梯度下降法,根据损失函数loss的值更新dqn预测网络的网络参数ω,dqn预测网络的网络参数每更新一次,计数器加一;步骤1.6、重复步骤1.4-步骤1.5,每当dqn预测网络的网络参数更新计数达到目标网络参数替换步长m的倍数时,跳转至步骤1.7;步骤1.7、将dqn预测网络的网络参数ω复制到目标网络的网络参数ω',使两个网络的参数完全相同;步骤1.8、重复步骤1.4-步骤1.7,直到损失函数loss的值收敛。3.根据权利要求2所述的基于dqn的多边缘节点系统联合计算卸载和资源分配方法,其特征在于,步骤2根据以下公式对所获取的参数数据进行归一化处理:式中,x
k
表示系统所获取的第k项参数,x
k,max
表示第k项参数的最大数值,x
k,min
表示第k项参数的最小数值,x'
k
表示经归一化处理后,第k项参数的数值,k表示不同参数的数量。
4.根据权利要求3所述的基于dqn的多边缘节点系统联合计算卸载和资源分配方法,其特征在于,步骤3具体包括以下步骤:步骤3.1、系统中心控制器将经过归一化处理后的用户业务请求特征以及系统环境状态参数的数据输入到初始化训练后的dqn网络;步骤3.2、dqn网络根据当前预测网络的网络参数,输出所有可能的联合计算卸载和资源分配决策的q值;步骤3.3、系统中心控制器为新到达的用户业务请求选择q值最高的联合计算卸载和资源分配决策。5.根据权利要求4所述的基于dqn的多边缘节点系统联合计算卸载和资源分配方法,其特征在于,步骤4具体包括以下步骤:步骤4.1、根据步骤3中所输出的目标卸载边缘服务器以及频谱资源和计算资源预分配结果,计算新到达用户业务请求在系统中预计经历的总服务时延,其步骤如下:步骤4.1.1、传输侧在多边缘节点系统场景中,根据各边缘节点的可用资源状态和业务负载状态,用户业务请求有两种卸载策略,第一种卸载策略是直接卸载至本地边缘服务器处理,第二种卸载策略是卸载到非本地边缘服务器处理;采用第一种卸载策略,用户业务请求i在传输侧的服务时延等于其传输时延与排队时延之和;根据香农定理,在预分配的频谱资源情况下将用户业务请求i的业务数据传输至本地基站时可获得的最大传输速率为:对应的传输时延为:在传输侧的排队时延为:其中,b表示单个频谱资源块的大小,p
i
表示用户业务请求i的业务数据发送功率,g
i
表示产生用户业务请求i的用户与基站间的信道增益,σ2表示信道的噪声功率,s
i
表示用户业务请求i的业务数据大小,μ
i
表示用户业务请求i的计算速率要求,表示本地基站最早释放的b
i
个频谱资源块的释放时间集合;采用第二种卸载策略,用户业务请求i在传输侧的服务时延等于在采用第一种卸载策略的服务时延的基础上加上将用户业务请求i的业务数据从本地基站卸载至目标卸载边缘服务器j之间的链路传输时延,其计算如下:其中,r
j
表示本地基站和目标卸载边缘服务器j之间的链路传输速率;这里忽略数据的传播时延;
步骤4.1.2、计算侧用户业务请求i的业务数据卸载至目标卸载边缘服务器后,其计算时延为:在计算侧的排队时延为:其中,c表示单个计算资源块的大小,表示目标卸载边缘服务器最早释放的c
i
个计算资源块的释放时间集合;因此,用户业务请求i在系统中的总服务时延为:步骤4.2、如果在步骤3中输出的目标卸载边缘服务器以及预分配的频谱资源和计算资源情况下,新到达用户业务请求i预计经历的总服务时延大于其服务时延上限,则该用户业务请求超时;否则,该用户业务请求未超时。6.根据权利要求5所述的基于dqn的多边缘节点系统联合计算卸载和资源分配方法,其特征在于,步骤5中新到达的用户业务请求在系统中未超时后具体包括以下步骤:步骤5.1、新到达的用户业务请求进入其本地基站传输侧的用户请求缓冲队列等待频谱资源的分配;步骤5.2、系统获取当前时刻本地基站的用户业务请求缓冲队列状态以及可用频谱资源状态;如果本地基站可用的空闲频谱资源充足,则基站根据步骤3中所输出的频谱资源预分配结果,直接为新到达的用户业务请求分配频谱资源;否则,新到达的用户业务请求将在缓冲队列中排队等待,直至本地基站释放出足够的可用空闲频谱资源;本地基站完成频谱资源分配后,更新其频谱资源状态;步骤5.3、新到达的用户业务请求获得分配的频谱资源后,对应的用户将通过上行链路将其业务数据传输至本地基站;步骤5.4、本地基站根据步骤3中所输出的目标卸载边缘服务器,将新到达的用户业务请求数据传送至该目标卸载边缘服务器;如果目标卸载边缘服务器是本地边缘服务器,则新到达的用户业务请求数据将直接由本地基站传送至其关联的本地边缘服务器;否则,新到达的用户业务请求数据将通过基站间的有线链路卸载至目标卸载边缘服务器;步骤5.5、新到达的用户业务请求进入目标卸载边缘服务器计算侧的用户业务请求缓冲队列中等待计算资源的分配;步骤5.6、目标卸载边缘服务器获取其当前时刻的用户业务请求缓冲队列状态和可用计算资源状态;如果目标卸载边缘服务器可用的空闲计算资源充足,则目标卸载边缘服务器将根据步骤3中所输出的计算资源预分配结果,直接为新到达的用户业务请求分配计算资源;否则,新到达的用户业务请求将在缓冲队列中排队等待,直至目标卸载边缘服务器释放出足够的可用空闲计算资源;目标卸载边缘服务器完成计算资源分配后,更新其计算资源状态。

技术总结
本发明公开了一种基于DQN的多边缘节点系统联合计算卸载和资源分配方法,包括如下步骤:1、系统中心控制器构建DQN网络并对其进行初始化训练;2、系统中心控制器获取新到达的用户业务请求特征参数和系统可用资源状态参数等历史数据,并将所获取的参数数据进行归一化处理;3、DQN网络为新到达的用户业务请求选择目标卸载边缘服务器,并预分配频谱和计算资源;4、系统中心控制器判断新到达的用户业务请求在系统中是否超时;5、系统将未超时的新到达的用户业务请求卸载至目标边缘服务器计算处理。本发明的目标是在满足多边缘节点系统中用户业务请求的服务时延上限要求以及系统频谱资源和计算资源约束的前提下,最大化系统吞吐量。量。量。


技术研发人员:郑军 余丽 姜书瑞 燕锋 赵庶源
受保护的技术使用者:东南大学
技术研发日:2023.04.06
技术公布日:2023/9/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐