一种移动边缘计算多用户计算卸载方法与流程

未命名 08-02 阅读:70 评论:0


1.本发明涉及移动边缘计算系统应用领域,具体地说是一种移动边缘计算多用户计算卸载方法。


背景技术:

2.近年来,随着移动通信技术的飞速发展以及智能移动设备的不断普及,人脸识别、语音识别等、虚拟现实等新型业务应用不断涌现。这类移动应用往往具有计算量大,延迟敏感、电量需求高等特点。然而移动设备受其物理尺寸限制,其计算能力和电池容量通常较为有限。这导致其在运行应用时难以满足应用低时延的需求,其消耗大量电量而影响设备使用时间。
3.移动边缘计算(mobile edge computing,mec)在移动网络的边缘提供计算、存储和网络资源,通过将计算任务卸载到距离用户更近的边缘服务器上处理,能够有效地降低计算任务的处理时延和能耗。由于mec服务器资源有限,需要制定合理的计算卸载决策和资源分配方案,以充分利用mec中有限的资源降低用户时延与能耗,满足多用户需求。
4.对于虚拟现实、增强现实等一类应用程序来说,可以分为多个子任务执行,子任务之间往往具有复杂的依赖关系,不同的子任务可以根据合理的计算卸载决策和资源分配方案在边缘服务器或者设备本地执行从而提高应用程序执行效率。因此,只有指定合理的计算任务卸载决策,合理分配mec系统中计算和通信资源,才能提高mec系统性能,发挥边缘计算优势,满足用户需求。


技术实现要素:

5.本发明的技术任务是针对以上不足之处,提供一种移动边缘计算多用户计算卸载方法,能够解决移动边缘计算中依赖性任务的计算卸载决策问题,可以有效减少任务执行时延。
6.本发明解决其技术问题所采用的技术方案是:
7.一种移动边缘计算多用户计算卸载方法,建立任务卸载相关模型,包括系统模型、本地计算模型、通信模型、边缘计算模型,优化目标;考虑到任务间存在的依赖关系,根据所建立的任务卸载相关模型,建立mdp模型,通过基于actor-critic的多智能体深度强化学习的计算卸载决策算法得到任务的对应的卸载决策;
8.各用户设备执行各自的卸载决策,进行计算卸载。
9.本方法基于系统模型,计算模型,通信模型,通过基于actor-critic的卸载决策方法充分利用有限计算和通信资源,从而降低多用户任务的时延与能耗,提高用户体验。
10.在actor-critic多智能体深度强化学习方法中,每个智能体都包含actor网络和critic网络,actor负责选择动作执行,以探索不同状态,critic则负责对所做动作进行评估,并指导actor的下一步动作,actor会根据critic的评估,调整自己选择动作的概率分布。actor和critic都各有在线网络和目标网络两部分:actor在线网络可以模拟当前的策
略,即根据智能体的状态输出动作,并与环境交互,获得当前奖励,以及下一步的状态值;actor目标网络的输出动作不会进行实际执行,而是协助critic的参数更新。critic在线网络可以根据所有智能体的当前状态和actor在线网络输出的动作对动作进行评估;critic目标网络会根据所有智能体的下一个状态和actor目标网络输出的动作对actor目标网络的输出进行评估。
11.优选的,所述构建系统模型,假设mec系统中有一个边缘服务器,每个用户有一个应用程序需要执行,且应用程序由多个存在依赖关系的任务(子任务)构成,任务可以在本地执行,或卸载到边缘服务器上执行;考虑到周期性时隙系统,各用户设备在每个时隙进行计算卸载决策指定;
12.多个用户设备表示为:
[0013][0014]
其中每个用户设备的任务表示为:
[0015][0016]
i为其中一个用户设备,ni表示用户设备i的应用程序的任务数量;
[0017]
应用程序的各个任务的计算卸载决策表示为:
[0018]
a={a1,a2,

,ai,

,an},i∈{1,2,

,n}
[0019][0020]
其中,a
i,j
=0表示任务在本地进行计算,表示任务卸载数据到mec服务器上进行计算。
[0021]
进一步的,所述构建本地计算模型,
[0022]
任务的本地计算时延定义为:
[0023][0024]
同样地,设备产生的能耗为:
[0025][0026]
其中,ζi为用户设备i单个cpu周期所产生的能耗,u
i,j
为任务的计算量,f
il
为用户设备本地计算能力。
[0027]
进一步的,所述构建通信模型,
[0028]
若计算任务进行计算卸载,其上行数据传输速率为:
[0029][0030]
其中,w表示系统的无线信道带宽,pi表示用户设备i的传输功率,gi表示接入信道增益,ii表示传输过程中的干扰,表示高斯白噪声;
[0031]
任务的传输时延表示为:
[0032][0033]
任务i进行计算卸载时的传输能耗为:
[0034][0035]
其中,表示用户设备i的传输功率。
[0036]
进一步的,所述构建边缘计算模型,
[0037]
若计算任务进行计算卸载,其在边缘服务器上的计算时延为:
[0038][0039]
其中,fo为边缘服务器的计算能力,假设边缘服务器对所有卸载任务平均分配计算能力,所有卸载到服务器的任务获得相同的计算资源。
[0040]
进一步的,所述构建优化目标,
[0041]
用户任务的时延为:
[0042][0043]
对于在本地计算的任务(a
i,j
=0)来说,计算时延等于本地计算的时延;
[0044]
对于进行计算卸载的计算任务(a
i,j
=1)来说,整个卸载过程分为三步:上传任务相关数据,在边缘服务器上执行任务,返回计算结果;因为计算结果的传输数据量通常远小于上传任务传输数据量,因此忽略返回结果时的开销;
[0045]
用户任务产生的能耗为:
[0046][0047]
如果任务在本地计算(a
i,j
=0),任务的能耗等于本地计算的能耗,如果任务进行计算卸载(a
i,j
=0),任务的能耗只包括卸载时的数据传输能耗;
[0048]
因为应用程序是由多个存在前后依赖关系的任务组成,所以应用程序的执行总时延等于任务依赖关系中最后一个任务的完成时间,
[0049]
用户设备i的任务j的完成时间可以这样递归计算得出:
[0050][0051]
其中pred(j)表示任务j的前驱任务集合,即当该集合中所有任务执行完成后,任务j才可执行;特殊地,表示没有前驱任务,此时
[0052]
第t个时隙已完成的任务集合表示为则第t个时隙整个应用程序的执行时延可表示为:
[0053][0054]
当所有的ni个任务都执行完毕后,应用程序的总执行时延为:
[0055][0056]
为了综合考虑任务卸载决策的时延和能耗,将优化目标设为最小化所有应用的时延和能耗的加权和,表示为:
[0057][0058]
进一步的,所述建立mdp模型,
[0059]
mdp模型中的状态定义为每一个任务的卸载决策以及任务的调度顺序,时隙t时的用户设备i的状态表示为:
[0060][0061]
mdp模型中的动作定义为相邻状态的改变,即单个任务的卸载决策的改变,时隙t时的动作表示为:
[0062][0063]
其中,i表示要改变决策的用户设备任务,a
i,j
,bi为用户任务j的新决策以及任务调度顺序;
[0064]
mdp模型中的奖励函数设置为前一步决策对应的目标函数值减去新决策对应的目标函数值,表示为
[0065][0066]
其中,o(s
t
),o(s
t+1
)表示时隙t,t+1时状态对应的目标函数值,这是由所有任务的卸载决策共同决定以及任务调度顺序的。
[0067]
进一步的,所述基于actor-critic的计算卸载决策算法,
[0068]
actor-critic多智能体强化学习算法如下:
[0069]
1)、随机初始化n个智能体actor在线网络参数θa与目标网络参数critic在线网络参数θc与网络参数:
[0070][0071][0072]
2)、初始化经验回放区定义其容量为用于存放遍历过的状态,动作和奖励;
[0073]
3)、初始化第一次迭代的初始状态s1;
[0074]
4)、重复从步骤4.1)到4.6):
[0075]
4.1)、对于每个智能体以1-ε的概率选择actor在线网络输出的确定动作:
[0076][0077]
剩余ε的概率随机选择任意动作
[0078]
4.2)、执行动作a
t
,获得新状态s
t+1
,计算奖励r
t

[0079]
将这一步的数据(s
t
,a
t
,r
t
,s
t+1
)存入经验回放区中,进入下一步
[0080]
从经验回放区中随机采样m批交互数据,每批数据为(sk,ak,rk,s
′k);将每个智能
体的的状态值输入各智能体对应actor目标神经网络,得到动作将得到的动作与状态分别输入各智能体的critic目标网络,得到目标网络输出的评价值,用表示第i个智能体目标网络输出的评价值;将状态sk,ak分别输入各智能体对应的critic的在线网络,得到其输出的评价值,用表示第i个智能体在线网络输出的评价值;
[0081]
4.3)、设第i个智能体的第k个经验求得的目标评价值为:
[0082][0083]
其中γ为自己设置的参数;
[0084]
4.4)、critic目标网络的损失函数为:
[0085][0086]
目标为最小化损失函数,通过基于梯度下降法更新critic在线网络的参数
[0087]
4.5)、计算actor在线网络的策略梯度:
[0088][0089]
基于梯度上升法更新actor在线网络的参数
[0090]
4.6)、更新智能体的actor目标网络和critic目标网络,τ为自设参数:
[0091][0092][0093]
本发明还要求保护一种移动边缘计算多用户计算卸载装置,包括:至少一个存储器和至少一个处理器;
[0094]
所述至少一个存储器,用于存储机器可读程序;
[0095]
所述至少一个处理器,用于调用所述机器可读程序,执行上述的移动边缘计算多用户计算卸载方法。
[0096]
本发明还要求保护一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的移动边缘计算多用户计算卸载方法。
[0097]
本发明的一种移动边缘计算多用户计算卸载方法与现有技术相比,具有以下有益效果:
[0098]
本方法考虑了多用户设备中各任务间依赖关系,并且综合考虑多个用户之间的影响,可以充分利用有限计算和通信资源,从而降低多用户任务的时延与能耗,提高多用户整体体验。
附图说明
[0099]
图1是本发明实施例提供的应用程序任务依赖关系示意图。
具体实施方式
[0100]
下面结合附图和具体实施例对本发明作进一步说明。
[0101]
一种移动边缘计算多用户计算卸载方法,建立任务卸载相关模型,包括系统模型、本地计算模型、通信模型、边缘计算模型,优化目标;考虑到任务间存在的依赖关系,根据所建立的任务卸载相关模型,建立mdp模型,通过基于actor-critic的多智能体深度强化学习的计算卸载决策算法得到任务的对应的卸载决策;各用户设备执行各自的卸载决策,进行计算卸载。
[0102]
本方法基于系统模型,计算模型,通信模型,通过基于actor-critic的卸载决策方法充分利用有限计算和通信资源,从而降低多用户任务的时延与能耗,提高用户体验。
[0103]
具体实现如下:
[0104]
s1:所述构建系统模型,
[0105]
假设mec系统中有一个边缘服务器,每个用户有一个应用程序需要执行,且应用程序由多个存在依赖关系的任务(子任务)构成,任务可以在本地执行,或卸载到边缘服务器上执行;考虑到周期性时隙系统,各用户设备在每个时隙进行计算卸载决策指定;
[0106]
多个用户设备表示为:
[0107][0108]
其中每个用户设备的任务表示为:
[0109][0110]
i为其中一个用户设备,ni表示用户设备i的应用程序的任务数量;
[0111]
应用程序的各个任务的计算卸载决策表示为:
[0112]
a={a1,a2,

,ai,

,an},i∈{1,2,

,n}
[0113][0114]
其中,a
i,j
=0表示任务在本地进行计算,表示任务卸载数据到mec服务器上进行计算。
[0115]
s2:构建本地计算模型:
[0116]
任务的本地计算时延定义为:
[0117][0118]
同样地,设备产生的能耗为:
[0119][0120]
其中,ζi为用户设备i单个cpu周期所产生的能耗,u
i,j
为任务的计算量,f
il
为用户设备本地计算能力。
[0121]
s3:构建通信模型
[0122]
若计算任务进行计算卸载,其上行数据传输速率为:
[0123][0124]
其中,w表示系统的无线信道带宽,pi表示用户设备i的传输功率,gi表示接入信道增益,ii表示传输过程中的干扰,表示高斯白噪声;
[0125]
任务的传输时延表示为:
[0126][0127]
任务i进行计算卸载时的传输能耗为:
[0128][0129]
其中,表示用户设备i的传输功率。
[0130]
s4:构建边缘计算模型:
[0131]
若计算任务进行计算卸载,其在边缘服务器上的计算时延为:
[0132][0133]
其中,fo为边缘服务器的计算能力,假设边缘服务器对所有卸载任务平均分配计算能力,所有卸载到服务器的任务获得相同的计算资源。
[0134]
s5:构建优化目标
[0135]
用户任务的时延为:
[0136][0137]
对于在本地计算的任务(a
i,j
=0)来说,计算时延等于本地计算的时延;
[0138]
对于进行计算卸载的计算任务(a
i,j
=1)来说,整个卸载过程分为三步:上传任务相关数据,在边缘服务器上执行任务,返回计算结果;因为计算结果的传输数据量通常远小于上传任务传输数据量,因此忽略返回结果时的开销。
[0139]
用户任务产生的能耗为:
[0140][0141]
如果任务在本地计算(a
i,j
=0),任务的能耗等于本地计算的能耗,如果任务进行计算卸载(a
i,j
=0),任务的能耗只包括卸载时的数据传输能耗;
[0142]
因为应用程序是由多个存在前后依赖关系的任务组成,所以应用程序的执行总时延等于任务依赖关系中最后一个任务的完成时间。
[0143]
用户设备i的任务j的完成时间可以这样递归计算得出:
[0144]
[0145]
其中pred(j)表示任务j的前驱任务集合,即当该集合中所有任务执行完成后,任务j才可执行;特殊地,表示没有前驱任务,此时
[0146]
第t个时隙已完成的任务集合表示为则第t个时隙整个应用程序的执行时延可表示为:
[0147][0148]
当所有的ni个任务都执行完毕后,应用程序的总执行时延为:
[0149][0150]
为了综合考虑任务卸载决策的时延和能耗,将优化目标设为最小化所有应用的时延和能耗的加权和,表示为:
[0151][0152]
s6:建立mdp模型:
[0153]
mdp模型中的状态定义为每一个任务的卸载决策以及任务的调度顺序,时隙t时的用户设备i的状态表示为:
[0154][0155]
mdp模型中的动作定义为相邻状态的改变,即单个任务的卸载决策的改变,时隙t时的动作表示为:
[0156][0157]
其中,i表示要改变决策的用户设备任务,a
i,j
,bi为用户任务j的新决策以及任务调度顺序;
[0158]
mdp模型中的奖励函数设置为前一步决策对应的目标函数值减去新决策对应的目标函数值,表示为
[0159][0160]
其中,o(s
t
),o(s
t+1
)表示时隙t,t+1时状态对应的目标函数值,这是由所有任务的卸载决策共同决定以及任务调度顺序的。
[0161]
s7:基于actor-critic的计算卸载决策算法
[0162]
因为当用户设备数量有多个时,状态空间维度会很高,问题规模会很大,因此无法再使用传统的强化学习方法来解决此高维问题,因此需要引入人工神经网络,利用神经网络拟合状态值函数,可采用基于actor-critic的多智能体深度强化学习方法来解决该多用户计算卸载问题。
[0163]
为了使算法学习过程更稳定,更快收敛,在actor-critic多智能体深度强化学习方法中,每个智能体都包含actor网络和critic网络,actor负责选择动作执行,以探索不同状态,critic则负责对所做动作进行评估,并指导actor的下一步动作,actor会根据critic的评估,调整自己选择动作的概率分布。actor和critic都各有在线网络和目标网络两部分:actor在线网络可以模拟当前的策略,即根据智能体的状态输出动作,并与环境交互,获
得当前奖励,以及下一步的状态值;actor目标网络的输出动作不会进行实际执行,而是协助critic的参数更新。critic在线网络可以根据所有智能体的当前状态和actor在线网络输出的动作对动作进行评估;critic目标网络会根据所有智能体的下一个状态和actor目标网络输出的动作对actor目标网络的输出进行评估。
[0164]
actor-critic多智能体强化学习算法如下:
[0165]
1)、随机初始化n个智能体actor在线网络参数θa与目标网络参数critic在线网络参数θc与网络参数:
[0166][0167][0168]
2)、初始化经验回放区定义其容量为用于存放遍历过的状态,动作和奖励;
[0169]
3)、初始化第一次迭代的初始状态s1;
[0170]
4)、重复从步骤4.1)到4.6):
[0171]
4.1)、对于每个智能体以1-ε的概率选择actor在线网络输出的确定动作:
[0172][0173]
剩余ε的概率随机选择任意动作
[0174]
4.2)、执行动作a
t
,获得新状态s
t+1
,计算奖励r
t

[0175]
将这一步的数据(s
t
,a
t
,r
t
,s
t+1
)存入经验回放区中,进入下一步
[0176]
从经验回放区中随机采样m批交互数据,每批数据为(sk,ak,rk,s
′k);将每个智能体的的状态值输入各智能体对应actor目标神经网络,得到动作将得到的动作与状态分别输入各智能体的critic目标网络,得到目标网络输出的评价值,用表示第i个智能体目标网络输出的评价值;将状态sk,ak分别输入各智能体对应的critic的在线网络,得到其输出的评价值,用表示第i个智能体在线网络输出的评价值;
[0177]
4.3)、设第i个智能体的第k个经验求得的目标评价值为:
[0178][0179]
其中γ为自己设置的参数;
[0180]
4.4)、critic目标网络的损失函数为:
[0181][0182]
目标为最小化损失函数,通过基于梯度下降法更新critic在线网络的参数
[0183]
4.5)、计算actor在线网络的策略梯度:
[0184][0185]
基于梯度上升法更新actor在线网络的参数
[0186]
4.6)、更新智能体的actor目标网络和critic目标网络,τ为自设参数:
[0187][0188][0189]
本发明实施例还提供一种移动边缘计算多用户计算卸载装置,包括:至少一个存储器和至少一个处理器;
[0190]
所述至少一个存储器,用于存储机器可读程序;
[0191]
所述至少一个处理器,用于调用所述机器可读程序,执行上述实施例所述的移动边缘计算多用户计算卸载方法。
[0192]
本发明实施例还提供一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述实施例中所述的移动边缘计算多用户计算卸载方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。
[0193]
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
[0194]
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd+rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上下载程序代码。
[0195]
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
[0196]
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的cpu等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
[0197]
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

技术特征:
1.一种移动边缘计算多用户计算卸载方法,其特征在于,建立任务卸载相关模型,包括系统模型、本地计算模型、通信模型、边缘计算模型,优化目标;根据所建立的任务卸载相关模型,建立mdp模型,通过基于actor-critic的多智能体深度强化学习的计算卸载决策算法得到任务的对应的卸载决策;各用户设备执行各自的卸载决策,进行计算卸载。2.根据权利要求1所述的一种移动边缘计算多用户计算卸载方法,其特征在于,所述构建系统模型,假设mec系统中有一个边缘服务器,每个用户有一个应用程序需要执行,且应用程序由多个存在依赖关系的子任务构成,任务可以在本地执行,或卸载到边缘服务器上执行;各用户设备在每个时隙进行计算卸载决策指定;多个用户设备表示为:其中每个用户设备的任务表示为:i为其中一个用户设备,n
i
表示用户设备i的应用程序的任务数量;应用程序的各个任务的计算卸载决策表示为:a={a1,a2,...,a
i
,...,a
n
},i∈{1,2,...,n}其中,a
i,j
=0表示任务在本地进行计算,表示任务卸载数据到mec服务器上进行计算。3.根据权利要求2所述的一种移动边缘计算多用户计算卸载方法,其特征在于,所述构建本地计算模型,任务的本地计算时延定义为:同样地,设备产生的能耗为:其中,ζ
i
为用户设备i单个cpu周期所产生的能耗,u
i,j
为任务的计算量,f
il
为用户设备本地计算能力。4.根据权利要求3所述的一种移动边缘计算多用户计算卸载方法,其特征在于,所述构建通信模型,若计算任务进行计算卸载,其上行数据传输速率为:其中,w表示系统的无线信道带宽,p
i
表示用户设备i的传输功率,g
i
表示接入信道增益,
i
i
表示传输过程中的干扰,表示高斯白噪声;任务的传输时延表示为:任务i进行计算卸载时的传输能耗为:其中,表示用户设备i的传输功率。5.根据权利要求4所述的一种移动边缘计算多用户计算卸载方法,其特征在于,所述构建边缘计算模型,若计算任务进行计算卸载,其在边缘服务器上的计算时延为:其中,f
o
为边缘服务器的计算能力,假设边缘服务器对所有卸载任务平均分配计算能力,所有卸载到服务器的任务获得相同的计算资源。6.根据权利要求5所述的一种移动边缘计算多用户计算卸载方法,其特征在于,所述构建优化目标,用户任务的时延为:对于在本地计算的任务(a
i,j
=0)来说,计算时延等于本地计算的时延;对于进行计算卸载的计算任务(a
i,j
=1)来说,整个卸载过程分为三步:上传任务相关数据,在边缘服务器上执行任务,返回计算结果;用户任务产生的能耗为:如果任务在本地计算(a
i,j
=0),任务的能耗等于本地计算的能耗,如果任务进行计算卸载(a
i,j
=0),任务的能耗只包括卸载时的数据传输能耗;应用程序的执行总时延等于任务依赖关系中最后一个任务的完成时间,用户设备i的任务j的完成时间可以这样递归计算得出:其中pred(j)表示任务j的前驱任务集合,即当该集合中所有任务执行完成后,任务j才可执行;特殊地,表示没有前驱任务,此时第t个时隙已完成的任务集合表示为则第t个时隙整个应用程序的执行时延可表示为:
当所有的n
i
个任务都执行完毕后,应用程序的总执行时延为:为了综合考虑任务卸载决策的时延和能耗,将优化目标设为最小化所有应用的时延和能耗的加权和,表示为:7.根据权利要求6所述的一种移动边缘计算多用户计算卸载方法,其特征在于,所述建立mdp模型,mdp模型中的状态定义为每一个任务的卸载决策以及任务的调度顺序,时隙t时的用户设备i的状态表示为:mdp模型中的动作定义为相邻状态的改变,即单个任务的卸载决策的改变,时隙t时的动作表示为:其中,i表示要改变决策的用户设备任务,a
i,j
,b
i
为用户任务j的新决策以及任务调度顺序;mdp模型中的奖励函数设置为前一步决策对应的目标函数值减去新决策对应的目标函数值,表示为其中,o(s
t
),o(s
t+1
)表示时隙t,t+1时状态对应的目标函数值,这是由所有任务的卸载决策共同决定以及任务调度顺序的。8.根据权利要求7所述的一种移动边缘计算多用户计算卸载方法,其特征在于,所述基于actor-critic的计算卸载决策算法,actor-critic多智能体强化学习算法如下:1)、随机初始化n个智能体actor在线网络参数θ
a
与目标网络参数critic在线网络参数θ
c
与网络参数:与网络参数:2)、初始化经验回放区定义其容量为用于存放遍历过的状态,动作和奖励;3)、初始化第一次迭代的初始状态s1;4)、重复从步骤4.1)到4.6):4.1)、对于每个智能体以1-ε的概率选择actor在线网络输出的确定动作:
剩余ε的概率随机选择任意动作4.2)、执行动作a
t
,获得新状态s
t+1
,计算奖励r
t
,将这一步的数据(s
t
,a
t
,r
t
,s
t+1
)存入经验回放区中,进入下一步从经验回放区中随机采样m批交互数据,每批数据为(s
k
,a
k
,r
k
,s

k
);将每个智能体的的状态值输入各智能体对应actor目标神经网络,得到动作将得到的动作与状态分别输入各智能体的critic目标网络,得到目标网络输出的评价值,用表示第i个智能体目标网络输出的评价值;将状态s
k
,a
k
分别输入各智能体对应的critic的在线网络,得到其输出的评价值,用表示第i个智能体在线网络输出的评价值;4.3)、设第i个智能体的第k个经验求得的目标评价值为:其中γ为自己设置的参数;4.4)、critic目标网络的损失函数为:目标为最小化损失函数,通过基于梯度下降法更新critic在线网络的参数4.5)、计算actor在线网络的策略梯度:基于梯度上升法更新actor在线网络的参数4.6)、更新智能体的actor目标网络和critic目标网络,τ为自设参数:4.6)、更新智能体的actor目标网络和critic目标网络,τ为自设参数:9.一种移动边缘计算多用户计算卸载装置,其特征在于包括:至少一个存储器和至少一个处理器;所述至少一个存储器,用于存储机器可读程序;所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至8任一所述的方法。10.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至8任一所述的方法。

技术总结
本发明公开了一种移动边缘计算多用户计算卸载方法,属于移动边缘计算系统应用领域,建立任务卸载相关模型,包括系统模型、本地计算模型、通信模型、边缘计算模型,优化目标;根据所建立的任务卸载相关模型,建立MDP模型,通过基于Actor-Critic的多智能体深度强化学习的计算卸载决策算法得到任务的对应的卸载决策;各用户设备执行各自的卸载决策,进行计算卸载。本发明能够解决移动边缘计算中依赖性任务的计算卸载决策问题,可以有效减少任务执行时延。时延。时延。


技术研发人员:赵越
受保护的技术使用者:浪潮通信信息系统有限公司
技术研发日:2023.04.12
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐