一种基于深度强化学习的边缘盒子资源调度方法

未命名 09-29 阅读：82 评论：0

1.本发明涉及计算机科学技术领域，具体为一种基于深度强化学习的边缘盒子资源调度方法。

背景技术：

2.在需要高质量通信的高密场景中，如足球比赛中，如何实现设备与基站的快速通信，是目前的一个研究热点；mec是一种面向物联网设备的新型计算范式，旨在提供云端计算服务并降低用户设备(userequipment，ue)的时延和能耗，提高数据处理效率；mec将边缘云服务器部署在小型基站或无线接入点上可以为ue提供计算卸载服务以有效降低时延，但这种部署方式使得ue与基站之间的有效通信距离受到限制；uav因具有机动性高、易灵活部署等优点使其成为一种备受关注的新型移动边缘计算接入方式。
3.近年来，许多学者开始研究基于uav的通信系统，大量的传统优化算法已经被应用于解决uav辅助mec系统中的计算卸载问题，wang等人提出了一种针对uav辅助mec网络的任务卸载框架，为了延长uav的运行时间和相关网络的寿命，将其分解为区域划分和uav轨迹优化两个独立的子问题来最小化uav的总能耗，将第一个子问题建模为半离散最优输运问题，并通过迭代算法来实现最优解，uav轨迹优化问题被建模为旅行商问题，但其所提出的解决方案并不适合应用于动态场景中。
4.尽管已经有了广泛的研究和应用，但如何构建uav辅助的mec系统，如何提供低时延高性能的计算服务，以及如何在存在环境障碍的情况下动态选择合适的通信链路在uav辅助的mec系统中尤为重要。

技术实现要素：

5.针对现有技术中存在的问题，本发明提供了一种基于深度强化学习的边缘盒子资源调度方法，包括以下步骤：
6.在三维笛卡尔坐标系中，将配有摄像头的b-uav作为底层终端，将配有mec服务器的uav作为t-uav，将t-uav部署在b-uav上方，构建双层uav辅助的mec系统模型；其中t-uav在固定高度h飞行，b-uav在低于固定高度h的高度飞行，且t-uav和b-uav在水平方向随机移动；b-uav用于在足球和足球运动员之间进行采集信息，t-uav用于为b-uav提供通信和计算卸载服务；
7.综合考虑td-error值高的经验和立即回报值高的经验两种评估指标，采用复合优先级抽样机制，构建ddpg-cper卸载算法；
8.基于ddpg-cper卸载算法对双层uav辅助的mec系统模型进行训练，训练包括联合优化b-uav调度、t-uav移动性和资源分配；训练用于提高双层uav辅助的mec系统模型对经验样本的利用率，加快网络的收敛速度，实现系统时延的最小化；
9.利用训练后的双层uav辅助的mec系统模型对数据提供云端计算服务并降低用户设备ue的时延和能耗，提高边缘盒子资源调度的效率，将在足球和足球运动员之间采集的
信息传输到基站。
10.进一步的，所述构建双层uav辅助的mec系统模型，具体包括以下步骤：
11.在三维笛卡尔坐标系中，将采集信息的b-uav作为底层终端，针对b-uav采集信息时算力不够，将数据传到传统基站时间较长的问题，把配有mec服务器的uav作为t-uav，部署在b-uav上方，为b-uav提供通信和计算卸载服务；配备mec服务器的t-uav和b-uav分别在固定高度h飞行，并在水平方向随机移动，t-uav为b-uav提供通信和计算卸载服务；
12.将整个系统周期t划分为i个时隙，每个b-uav在时隙i产生随机大小的计算任务dk(i)，i∈1,2,...,i；b-uav随机选择一部分任务进行本地处理，一部分卸载到t-uav进行计算处理，该系统运行于等时隙周期，t-uav提供通信和计算服务给所有的b-uav，但在一个时隙内只有一个b-uav能够被提供服务；
13.为了优化无线网络信道传输效果，t-uav通过改变自身位置以及与b-uav之间的距离来寻求更好的信道增益，同时减少遮挡物对信号传输的干扰；由于mec服务器比b-uav具有更大的计算能力，b-uav将其计算密集型和延迟敏感型的任务卸载给t-uav，以便b-uav能降低能耗成本，加快计算速度，获得较低的延迟。
14.进一步的，所述构建双层uav辅助的mec系统模型，还包括构建通信模型，具体包括以下步骤：
15.设多个b-uav与t-uav的通信过程采用等时隙划分，其中每个时隙有且只有一个b-uav与t-uav保持通信，在高度h的二维平面区域范围内，t-uav可以自由飞行移动，系统将通信周期t平均划分为i个时隙，i∈1,2,...,i，t-uav在第i个时隙的起始坐标和终止坐标分别表示为q(i)＝[x(i),y(i)]
t
∈r2×1，q(i+1)＝[x(i+1),y(i+1)]
t
∈r2×1，编号为k的b-uav k∈{1,2,...,k}坐标表示为pk(i)＝[xk(i),yk(i)]
t
∈r2×1；
[0016]
在uav辅助的网络中，由于t-uav高度远高于b-uav高度，uav通信链路的视距信道比其他信道受到的损伤更小，因此los信道为t-uav和b-uav之间的所有无线信道选择，t-uav与b-uavk在时隙i的视距链路下的信道增益可表示为：
[0017][0018]
式中，α0表示在参考距离d＝1m时，发射功率为1w的信道增益，dk(i)表示t-uav与b-uav k之间的欧几里德距离；
[0019]
由于t-uav的飞行周期被平均分为i个时隙，并且每个时隙之间的间隔非常短，设在每个时隙中t-uav保持悬停状态，而b-uav则以相对较低的速度移动，b-uav和t-uav通过时分多址接入方式接入，保证每个时隙的b-uav都能获得全部的计算资源和通信带宽，由于无线传输速率可能受障碍物遮挡影响，可用以下公式表示：
[0020][0021]
式中，b代表b-uav和t-uav之间的信号带宽，p
up
为b-uav上传链路的上传功率，噪声功率用σ2表示，因遮挡造成的非视距传输功率损耗表示为p
nlos
，t-uav和b-uav之间在时隙i是否存在遮挡由fk(i)表示，0表示没有遮挡，1表示有遮挡。
[0022]
进一步的，所述构建双层uav辅助的mec系统模型，还包括构建计算模型，具体包括
以下步骤：
[0023]
在uav辅助的mec系统里面，部分卸载策略用于在每个时隙中b-uav的任务，设在第i个时隙，b-uavk将一部分任务卸载到mec服务器上，这部分卸载任务占b-uav总任务量的比例表示为rk(i)∈[0,1]，则编号为k的b-uav本地计算的任务比例为1-rk(i)，b-uav k在时隙i处理任务数据量大小表示为dk(i)，1比特数据所需的cpu周期数用s表示，b-uav计算能力表示为，则编号为k的b-uav在时隙i内的本地计算延迟表示如下：
[0024][0025]
设t-uav的质量为m
t-uav
,在第i个时隙，t-uav以一定速度v(i)∈[0,v
max
]和角度β(i)∈[0,2π]从起始位置q(i)经过时间t
fly
飞到悬停位置q(i+1)，q(i+1)＝[x(i)+v(i)t
fly
cosβ(i),y(i)+v(i)t
fly
sinβ(i)]
t
，则本次飞行消耗的能量可以表示为:
[0026][0027]
mec服务器所提供的计算结果一般来说非常小，在进行下行链路传输时，其对传输时延和能耗的影响可忽略不计；mec服务器的处理延迟由两部分组成，其中一部分为传输时延，计算方法如下：
[0028][0029]
另一部分是在mec服务器上计算卸载任务的时延，设挂载在t-uav上的mec服务器的cpu计算能力用f
t-uav
表示，则这部分时延可以表示为：
[0030][0031]
在第i时隙将任务卸载到服务器所消耗的能量包括来自传输计算任务的能耗和mec服务器执行卸载任务的能耗这两部分，在mec服务器上执行计算时的功率为：
[0032][0033]
mec服务器在第i时隙的计算能耗表示如下：
[0034][0035]
进一步的，所述构建双层uav辅助的mec系统模型，还包括对双层uav辅助的mec系统模型的优化，具体包括以下步骤：
[0036]
为了确保有效利用在b-uav和t-uav上的计算资源，考虑到t-uav和b-uav的移动性，通过联合优化b-uav调度、t-uav移动性和资源分配以尽可能地提高b-uav在所有时隙内的最小处理时延；其中优化目标表述如下：
[0037][0038][0039]
t
max
＝max{t
local,k
(i),t
t-uav,k
(i)+t
tr,k
(i)}；
[0040][0041][0042][0043][0044][0045][0046][0047][0048]
其中，上述公式共同限制：限制t-uav在每个时隙只能向一个b-uav提供计算卸载服务决策、限制计算任务卸载比的取值必须在规定范围内、规定b-uav和t-uav只能在规定区域内移动、t-uav和b-uav之间的遮挡情况、确保t-uav在所有时隙的能耗不会超过最大电池容量、在整个通信周期内所有b-uav需要完成的任务大小、每个b-uav的计算延迟必须小于最大容忍延迟。
[0049]
进一步的，所述构建ddpg-cper卸载算法，其中ddpg-cper卸载算法的具体流程包括：
[0050]
计算agent在当前状态下的td-error：
[0051]
δ
t
＝r
t+1
+γqπ(s
t+1
,a
t+1
)-qπ(s
t
,a
t
)；
[0052]
式中，q
π
(s
t
,a
t
)表示agent在当前状态s
t
下根据策略π选择动作a
t
后的预期回报期望值：
[0053]
qπ(s
t
,a
t
)＝eπ[r
t+1
+γqπ(s
t+1
,a
t+1
)|s
t
＝s,a
t
＝a]；
[0054]
定义经验样本在立即回报标准中的优先级和td-error标准中的优先级：
[0055]
yi＝r
t
+ε
[0056]
yj＝|δ
t
|+ε；
[0057]
式中，yi表示经验在立即回报标准中的优先级，yj表示经验在td-error标准中的优先级，经验样本在当前状态下采取动作后获得的立即回报表示为r
t
，ε的作用是确保每个转移信息的优先级都非零；
[0058]
将经验样本分别按照在立即回报标准中的优先级yi和td-error标准中的优先级yj进行升序排序得到rank(i)和rank(j)，再对经验样本进行复合平均排序：
[0059][0060]
计算复合的优先级：
[0061][0062]
式中，参数α用于确定算法中优先级的相对重要性，其取值范围为[0,1]，当α＝0表示采用均匀采样的方法；
[0063]
定义采样经验的概率为：
[0064][0065]
式中，n为经验的数量。
[0066]
进一步的，所述构建ddpg-cper卸载算法，具体包括：
[0067]
在uav辅助的mec场景中，对b-uav调度、t-uav的移动性和计算任务分配进行联合优化，采用rl对系统状态进行预测，状态空间表示为：
[0068]
si＝(e
battery
(i),q(i),p1(i),...,pk(i),
[0069]
d1(i),...,dk(i),f1(i),...fk(i))；
[0070]
其中，e
battery
(i)表示在第i时隙t-uav的剩余电量，e
battery
(i)表示t-uav在第i时隙所处的位置，被t-uav服务的b-uavk在时隙i的位置信息表示为pk(i),系统仍需完成的剩余任务规模表示为d
remain
(i),b-uavk内部的任务量dk(i)是随机生成的，用布尔值fk(i)记录b-uavk和t-uav之间的无线通信链路的可用性和稳定性，判断是否有信号遮挡的情况；
[0071]
agent根据当前状态和观察到的环境选择动作，动作空间表示为：
[0072]ai
＝(k(i),β(i),v(i),rk(i))；
[0073]
其中，k(i)∈[0,k]表示t-uav提供服务的b-uav编号，β(i)∈[0,2π]为t-uav在飞行时所能到达的角度范围，t-uav的飞行速度和任务计算卸载比率分别用v(i)∈[0,v
max
]和rk(i)∈[0,1]表示；
[0074]
根据优化目标假设奖励函数如下：
[0075]ri
＝r(si,ai)＝-τ
delay
(i)；
[0076]
其中，τ
delay
(i)＝max{t
local,k
(i),t
uav,k
(i),t
tr,k
(i)}；
[0077]
为了更有效地训练dnn，使用状态归一化算法对观察到的状态进行预处理，然后将其馈送到ddpg-cper卸载算法中。
[0078]
与现有技术相比，本发明提供的一种基于深度强化学习的边缘盒子资源调度方法，其有益效果是：
[0079]
在存在环境障碍的场景下，本发明构建了动态信道下任务卸载问题模型，通过联合优化b-uav调度、t-uav机动性和资源分配求解以最小化最大处理时延；考虑到系统状态空间的复杂性，本发明提出了一种ddpg-cper的卸载算法来解决uav辅助mec系统中的卸载决策问题；相较于传统的ddpg经验回放机制采用的随机采样方式，本方法综合考虑了td-error值高的经验和立即回报值高的经验两种评估指标，采用复合优先级的抽样机制来更高效地利用经验样本，能够加快训练收敛速度，更好地降低系统的处理时延。
附图说明
[0080]
图1为本发明实施例提供的双层uav辅助的mec系统模型的示意图；
[0081]
图2为本发明实施例提供ddpg-cper算法框架的示意图；
[0082]
图3为本发明实施例提供的不同学习率下ddpg-cper卸载算法的收敛表现的示意图；
[0083]
图4为本发明实施例提供的不同折扣因子对ddpg-cper收敛性能的影响的示意图；
[0084]
图5为本发明实施例提供的不同探索参数设置对ddpg-cper收敛性能的影响的示意图；
[0085]
图6为本发明实施例提供的ddpg-cper与基线算法性能对比的示意图；
[0086]
图7为本发明实施例提供的不同任务大小情况下算法性能对比的示意图；
[0087]
图8为本发明实施例提供的不同b-uav数量下算法性能对比的示意图。
具体实施方式
[0088]
下面结合附图1-8，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。
[0089]
实施例1：本发明提供的一种基于深度强化学习的边缘盒子资源调度方法，具体包括：
[0090]
1.系统模型
[0091]
如图1所示，本发明考虑的是在三维笛卡尔坐标系中，由单个t-uav和k个b-uav组成的mec系统，将在足球和足球运动员之间进行采集信息的b-uav作为底层终端，针对b-uav采集信息时算力不够，将数据传到传统基站时间较长的问题，把配有mec服务器的uav作为t-uav，部署在b-uav上方，为b-uav提供通信和计算卸载服务；配备mec服务器的t-uav和b-uav分别在固定高度h飞行，并在水平方向随机移动，t-uav为b-uav提供通信和计算卸载服务；将整个系统周期t划分为i个时隙，i∈1,2,...,i，每个b-uav在时隙i产生随机大小的计算任务dk(i)；b-uav可以随机选择一部分任务进行本地处理，一部分卸载到t-uav进行计算处理.该系统运行于等时隙周期，t-uav提供通信和计算服务给所有的b-uav，但在一个时隙内只有一个b-uav能够被提供服务；为了优化无线网络信道传输效果，t-uav通过改变自身位置以及与b-uav之间的距离来寻求更好的信道增益，同时也会尽可能减少遮挡物对信号传输的干扰；由于mec服务器比b-uav具有更大的计算能力，因此，b-uav可以将其计算密集型和延迟敏感型的任务卸载给t-uav，以便b-uav能降低能耗成本，加快计算速度，获得较低的延迟。
[0092]
1.1通信模型
[0093]
假设多个b-uav与t-uav的通信过程采用等时隙划分，其中每个时隙有且只有一个b-uav与t-uav保持通信；在高度h的二维平面区域范围内，t-uav可以自由飞行移动；系统将通信周期t平均划分为i个时隙，i∈1,2,...,i，t-uav在第i个时隙的起始坐标和终止坐标分别表示为q(i)＝[x(i),y(i)]
t
∈r2×1，q(i+1)＝[x(i+1),y(i+1)]
t
∈r2×1，编号为k的b-uav k∈{1,2,...,k}坐标表示为pk(i)＝[xk(i),yk(i)]
t
∈r2×1。
[0094]
在uav辅助的网络中，由于t-uav高度远高于b-uav高度，uav通信链路的视距信道比其他信道受到的损伤更小，因此los(line-of-sight)信道为t-uav和b-uav之间的所有无线信道选择，t-uav与b-uavk在时隙i的视距链路下的信道增益可表示为：
[0095][0096]
α0表示在参考距离d＝1m时，发射功率为1w的信道增益，dk(i)表示t-uav与b-uavk之间的欧几里德距离。
[0097]
由于t-uav的飞行周期被平均分为i个时隙，并且每个时隙之间的间隔非常短，因此可以假设在每个时隙中t-uav保持悬停状态，而b-uav则以相对较低的速度移动；b-uav和t-uav通过时分多址接入方式接入，保证每个时隙的b-uav都能获得全部的计算资源和通信带宽；由于无线传输速率可能受障碍物遮挡影响，因此可用以下公式表示：
[0098][0099]
b代表b-uav和t-uav之间的信号带宽，p
up
为b-uav上传链路的上传功率，噪声功率用σ2表示，因遮挡造成的非视距(non line ofsight，nlos)传输功率损耗表示为p
nlos
，t-uav和b-uav之间在时隙i是否存在遮挡由fk(i)表示，0表示没有遮挡，1表示有遮挡。
[0100]
1.2计算模型
[0101]
在uav辅助的mec系统里面，部分卸载策略用于在每个时隙中b-uav的任务；设在第i个时隙，b-uavk将一部分任务卸载到mec服务器上，这部分卸载任务占b-uav总任务量的比例表示为rk(i)∈[0,1]，则编号为k的b-uav本地计算的任务比例为1-rk(i)，b-uav k在时隙i处理任务数据量大小表示为dk(i)，1比特数据所需的cpu周期数用s表示，b-uav计算能力表示为，则编号为k的b-uav在时隙i内的本地计算延迟表示如下：
[0102][0103]
设t-uav的质量为m
t-uav
,在第i个时隙，t-uav以一定速度v(i)∈[0,v
max
]和角度β(i)∈[0,2π]从起始位置q(i)经过时间t
fly
飞到悬停位置q(i+1)，q(i+1)＝[x(i)+v(i)t
fly
cosβ(i),y(i)+v(i)t
fly
sinβ(i)]
t
，则本次飞行消耗的能量表示为:
[0104]efly
(i)＝φ||v(i)||2ꢀꢀ
(4)
[0105]
由于mec服务器所提供的计算结果一般来说非常小，因此，在进行下行链路传输时，其对传输时延和能耗的影响可忽略不计。mec服务器的处理延迟由两部分组成，其中一部分为传输时延，计算方法如下：
[0106][0107]
另一部分是在mec服务器上计算卸载任务的时延，假设挂载在t-uav上的mec服务器的cpu计算能力用f
t-uav
表示，则这部分时延可以表示为：
[0108][0109]
同样，在第i时隙将任务卸载到服务器所消耗的能量包括来自传输计算任务的能耗和mec服务器执行卸载任务的能耗这两部分.在mec服务器上执行计算时的功率为：
[0110][0111]
故，mec服务器在第i时隙的计算能耗表示如下：
[0112][0113]
1.3优化问题
[0114]
基于上述构建的双层uav协助mec系统模型，得出了研究的优化目标；为了确保有效利用在b-uav和t-uav上的计算资源，考虑到t-uav和b-uav的移动性，通过联合优化b-uav调度、t-uav移动性和资源分配以尽可能地提高b-uav在所有时隙内的最小处理时延；优化目标表述如下：
[0115][0116][0117]
t
max
＝max{t
local,k
(i),t
t-uav,k
(i)+t
tr,k
(i)}
ꢀꢀ
(11)
[0118][0119][0120][0121][0122][0123][0124][0125][0126]
其中，约束(10)(11)(12)限制t-uav在每个时隙只能向一个b-uav提供计算卸载服务决策，(13)限制计算任务卸载比的取值必须在规定范围内，约束(14)和(15)规定b-uav和t-uav只能在规定区域内移动，(16)表示t-uav和b-uav之间的遮挡情况，采用约束(17)确保t-uav在所有时隙的能耗不会超过最大电池容量，(18)表示在整个通信周期内所有b-uav需要完成的任务大小，约束(19)表示每个b-uav的计算延迟必须小于最大容忍延迟。
[0127]
2ddpg-cper卸载算法
[0128]
2.1ddpg-cper算法
[0129]
ddpg算法的经验回放采样机制为随机采样，这种采样方式忽视了经验样本重要性的差异对agent学习的影响，因此未能高效利用高重要性的经验样本以促进网络训练效率；已有的优先经验回放机制虽然提高了样本的采样效率，加快了训练收敛速度，但要计算样本集中所有样本的td-error并进行排序，增加了算法的复杂度，且该方法没有考虑到立即
回报值较高的经验，其重要性也高于其他经验样本，同样应该被高效利用。
[0130]
因此，本发明提出了一种名为ddpg-cper的算法，该算法综合考虑了td-error值高的经验和立即回报值高的经验两种评估指标，采用复合优先级抽样机制。与传统的ddpg算法和基于优先经验回放的ddpg算法相比，能明显提高经验样本的利用率，并加快网络的收敛速度。通过综合考虑这两种评估指标，能够更好地联合优化b-uav调度、t-uav移动性和资源分配，最终实现系统时延的最小化。图2为ddpg-cper算法架构图。
[0131]
ddpg-cper算法的具体流程如下：
[0132]
(1)计算agent在当前状态下的td-error：
[0133]
δ
t
＝r
t+1
+γq
π
(s
t+1
,a
t+1
)-q
π
(s
t
,a
t
)
ꢀꢀ
(20)
[0134]
其中，q
π
(s
t
,a
t
)表示agent在当前状态s
t
下根据策略π选择动作a
t
后的预期回报期望值：
[0135]qπ
(s
t
,a
t
)＝e
π
[r
t+1
+γq
π
(s
t+1
,a
t+1
)|s
t
＝s,a
t
＝a]
ꢀꢀ
(21)
[0136]
(2)定义经验样本在立即回报标准中的优先级和td-error标准中的优先级：
[0137][0138]
yi表示经验在立即回报标准中的优先级，yj表示经验在td-error标准中的优先级，经验样本在当前状态下采取动作后获得的立即回报表示为r
t
，ε的作用是确保每个转移信息的优先级都非零。
[0139]
(3)将经验样本分别按照在立即回报标准中的优先级yi和td-error标准中的优先级yj进行升序排序得到rank(i)和rank(j)，再对经验样本进行复合平均排序：
[0140][0141]
(4)计算复合的优先级：
[0142][0143]
其中，参数α用于确定算法中优先级的相对重要性，其取值范围为[0,1]，当α＝0表示采用均匀采样的方法。
[0144]
(5)定义采样经验的概率为：
[0145][0146]
其中，n为经验的数量。
[0147]
2.2ddpg-cper卸载算法
[0148]
在uav辅助的mec场景中，对b-uav调度、t-uav的移动性和计算任务分配进行了联合优化，采用rl对系统状态进行预测，状态空间可表示为：
[0149]
[0150]
其中，e
battery
(i)表示在第i时隙t-uav的剩余电量，e
battery
(i)表示t-uav在第i时隙所处的位置，被t-uav服务的b-uavk在时隙i的位置信息表示为pk(i),系统仍需完成的剩余任务规模表示为d
remain
(i),b-uavk内部的任务量dk(i)是随机生成的，用布尔值fk(i)记录b-uavk和t-uav之间的无线通信链路的可用性和稳定性，判断是否有信号遮挡的情况。
[0151]
agent根据当前状态和观察到的环境选择动作，动作空间可以表示为：
[0152]ai
＝(k(i),β(i),v(i),rk(i))(27)
[0153]
其中，k(i)∈[0,k]表示t-uav提供服务的b-uav编号，β(i)∈[0,2π]为t-uav在飞行时所能到达的角度范围，t-uav的飞行速度和任务计算卸载比率分别用v(i)∈[0,v
max
]和rk(i)∈[0,1]表示。
[0154]
根据优化目标(10)可以假设奖励函数如下：
[0155]ri
＝r(si,ai)＝-τ
delay(i)ꢀꢀ
(28)
[0156]
其中，τ
delay
(i)＝max{t
local,k
(i),t
uav,k
(i),t
tr,k
(i)}。
[0157]
为了更有效地训练dnn，使用状态归一化算法对观察到的状态进行预处理，然后将其馈送到ddpg-cper卸载算法中。ddpg-cper卸载算法流程如算法1所示：
[0158]
算法1ddpg-cper卸载算法
[0159]
1)require：总训练episode数e；训练样本数据长度i；critic网络学习率α
critic
；actor网络学习率α
actor
；折扣因子γ；软更新因子τ；经验池大小bm；mini-batch大小n；具有平均值μe＝n0和标准差σ
e,i
＝σe高斯分布的行为噪声n
[0160]
2)分别随机初始化actor网络θ
μ
和critic网络θq的权重
[0161]
3)初始化actor目标网络的权重：θ
μ
←
θ
μ'
，初始化critic目标网络的权重：θq←
θ
q'
[0162]
4)初始化经验池
[0163]
5)foreepisode＝1,2,...,e do
[0164]
6)初始化t-uav辅助的mec系统仿真参数，获得初始观测状态s1[0165]
7)for i＝1,2,...,i
max do
[0166]
8)根据现有的策略和探索的干扰，状态si归一化成输入
[0167]
9)为actor网络输出的动作添加高斯噪声：
[0168]
10)agent执行动作ai，得到回报ri和后继状态s
i+1
，并计算td-error
[0169]
11)下一时刻的状态s
i+1
归一化成
[0170]
12)if经验池存储空间剩余then
[0171]
13)存储元组到经验池bm中
[0172]
14)把经验按照经验优先级yi＝ri+ε小到大进行排序，得到rank(i)
[0173]
15)把经验按照优先级yj＝|δi|+ε进行从大到小排序，得到rank(j)
[0174]
16)对经验进行复合平均排序并得到u(k)＝rank(i)/rank(j)且计算经验的优先级yk＝(1/u(k))
α
，经验采样概率pk＝yk/∑eyn，其中e为经验的数目
[0175]
17)else
[0176]
18)以概率pk采样数目为m的转换经验并存储到经验回放池bm[0177]
19)endif
[0178]
20)从经验池bm中，根据采样概率pk抽取小批量样本
[0179]
21)计算预测q值：
[0180]
22)通过最小化损失函数更新critic网络参数：
[0181][0182]
23)策略梯度更新actor网络
[0183]
24)软更新actor网络和critic网络
[0184]
25)end for
[0185]
26)end for
[0186]
3仿真实验和分析
[0187]
3.1仿真设置
[0188]
在uav辅助的mec系统仿真实验中，根据现实足球比赛场景，设定t-uav服务的作业场地大小为l
×
w＝100
×
100m2，t-uav的飞行高度设定为h＝50m，b-uav固定飞行高度为6m，b-uav设备数量预设为n＝11，t-uav飞行速度为v＝15m/s，将t-uav的初始位置初始化为场地中心；其他仿真参数的详细设置见表1：
[0189]
表1仿真参数设置
[0190][0191]
3.2仿真结果分析
[0192]
本发明首先对算法中一些重要的超参数进行了分析验证，图3展示了ddpg-cper卸
载算法在不同学习率下的收敛表现，分别用α
actor
和α
critic
表示actor网络和critic网络的学习率，虽然当α
actor
＝0.1，α
critic
＝0.2和α
actor
＝0.001，α
critic
＝0.002时，所提算法在最终阶段都能成功收敛，但当α
actor
＝0.1，α
critic
＝0.2时比α
actor
＝0.001，α
critic
＝0.002时的收敛效果更好；这是因为学习率较高会导致算法在训练过程中的参数更新步长过大，因而容易陷入局部最优；另外当α
actor
＝0.00001，α
critic
＝0.00002时，所提算法最终未能收敛，原因是学习率设置过低会导致算法在训练过程中参数更新速度过慢，因此需要更多的迭代次数来达到收敛；故本发明将学习率设置为α
actor
＝0.001，α
critic
＝0.002。
[0193]
根据图4的实验结果可以看出，折扣因子γ的不同取值对算法收敛性的影响各不相同，这是因为在不同时隙的系统环境变化很大，周期性地采集数据不能充分代表长期数据；当γ＝0.001时，ddpg-cper卸载算法的收敛性能表现最佳；因此，本发明将折扣因子取值为0.001。
[0194]
通过图5可以看出，较高的探索率σe不一定总是能够带来更好的性能表现，这是因为较大的探索率会导致随机噪声分布空间增大，使得agent能够更广泛地探索空间范围；当探索率较低时，算法可能会被困在局部最优解，因为此时算法只能探索到较小的空间范围，导致算法性能下降；通过实验发现，相较于其他值，当探索率设置为σe＝0.01时，算法的收敛性能更佳；因此，以σe＝0.01作为后续实验的基准。
[0195]
3.3性能比较
[0196]
为了进一步验证本发明所提出的ddpg-cper卸载算法的优越性，采用五种基准方法进行比较，它们分别描述如下：
[0197]
(1)完全卸载算法(offloading-only)：将b-uav的所有任务卸载到t-uav上的mec服务器进行计算；
[0198]
(2)完全本地算法(local-only)：所有计算任务都由b-uav在本地执行，t-uav不参与任务处理；
[0199]
(3)基于连续动作空间的actor-critic卸载算法(ac)：为了消除状态变化带来的干扰，对ac卸载算法进行了状态归一化的操作，以保证与ddpg-cper卸载算法比较的公平性；
[0200]
(4)基于ddpg的卸载算法(ddpg)：将传统的ddpg卸载算法同样采用状态归一化进行预处理以进行公平性比较；
[0201]
(5)基于离散动作空间的dqn的卸载算法(dqn)：在agent选择动作时，等分割所选动作取值区间，为了公平地与ddpg-cper卸载算法、ddpg卸载算法、ac卸载算法进行比较，dqn卸载算法也对获取的状态进行了预处理；
[0202]
根据图6可以看出不同算法之间的性能差异，ac卸载算法在迭代次数增加时未能达到收敛状态，而dqn卸载算法、ddpg卸载算法、ddpg-cper卸载算法都能够收敛；原因是ac算法的actor网络和critic网络存在依赖关系，而critic网络的难以收敛则会导致ac算法不收敛；与此相比，dqn卸载算法，ddpg卸载算法和ddpg-cper卸载算法的双重网络结构则可以找到最佳卸载策略。
[0203]
图7展示了ddpg-cper卸载算法在不同任务规模下的性能总是优于其他几种基准算法；由于dqn卸载算法的动作空间是离散的，因此无法完全探索动作空间，从而导致难以找到最优卸载策略；相比之下，ddpg-cper卸载算法和ddpg卸载算法能够探索整个连续动作
空间并采取更精准的动作，从而得出最优策略；相较于传统的ddpg卸载算法，ddpg-cper卸载算法能够显著地提高奖励值并加快训练速度，从而大大减少处理时延；offloading only算法和local processing only算法无法有效地利用系统的计算资源，因此，对于相同的任务规模，ddpg-cper卸载算法具有更低的处理延迟。
[0204]
图8展示了不同b-uav数量下算法之间的性能差异，可以看出，因为离散动作空间的值函数对于不同b-uav数量的场景下有很大变化，所以dqn卸载算法波动很大，而ddpg-cper卸载算法和ddpg卸载算法可以输出多维的连续动作，保证了ddpg-cper卸载算法和ddpg卸载算法的收敛性和稳定性.此外，在传统的ddpg卸载算法基础上进行了优化的ddpg-cper卸载算法实现了最大的reward，即最小的处理时延，这是因为ddpg-cper卸载算法平衡了立即回报值和td-error两种评价指标，提高了样本利用率，加快网络收敛速度，从而更快地得到最优控制策略。
[0205]
综合来看，与现有技术相比，本发明提供的一种基于深度强化学习的边缘盒子资源调度方法，具有以下的有益效果：
[0206]
(1)本发明建立了由一个搭载边缘服务器的t-uav和多个b-uav组成的双层uav辅助mec系统.t-uav为b-uav提供通信和计算卸载服务，并建立了相应的通信模型和计算模型。
[0207]
(2)在存在环境障碍的场景下，本发明构建了动态信道下任务卸载问题模型，通过联合优化b-uav调度、t-uav机动性和资源分配求解以最小化最大处理时延；考虑到系统状态空间的复杂性，本发明提出了一种ddpg-cper的卸载算法来解决uav辅助mec系统中的卸载决策问题；相较于传统的ddpg经验回放机制采用的随机采样方式，本方法综合考虑了td-error值高的经验和立即回报值高的经验两种评估指标，采用复合优先级的抽样机制来更高效地利用经验样本，能够加快训练收敛速度，更好地降低系统的处理时延。
[0208]
(3)仿真实验结果表明，在不同参数和通信条件下，本发明所提出的ddpg-cper卸载算法可有效应对存在障碍的复杂环境场景下的任务卸载问题，在处理延迟方面比ddpg等基线算法表现得更加出色。
[0209]
尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0210]
显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

技术特征：
1.一种基于深度强化学习的边缘盒子资源调度方法，其特征在于，包括以下步骤：在三维笛卡尔坐标系中，将配有摄像头的b-uav作为底层终端，将配有mec服务器的uav作为t-uav，将t-uav部署在b-uav上方，构建双层uav辅助的mec系统模型；其中t-uav在固定高度h飞行，b-uav在低于固定高度h的高度飞行，且t-uav和b-uav在水平方向随机移动；b-uav用于在足球和足球运动员之间进行采集信息，t-uav用于为b-uav提供通信和计算卸载服务；综合考虑td-error值高的经验和立即回报值高的经验两种评估指标，采用复合优先级抽样机制，构建ddpg-cper卸载算法；基于ddpg-cper卸载算法对双层uav辅助的mec系统模型进行训练，训练包括联合优化b-uav调度、t-uav移动性和资源分配；训练用于提高双层uav辅助的mec系统模型对经验样本的利用率，加快网络的收敛速度，实现系统时延的最小化；利用训练后的双层uav辅助的mec系统模型对数据提供云端计算服务并降低用户设备ue的时延和能耗，提高边缘盒子资源调度的效率，将在足球和足球运动员之间采集的信息传输到基站。2.如权利要求1所述的一种基于深度强化学习的边缘盒子资源调度方法，其特征在于，所述构建双层uav辅助的mec系统模型，具体包括以下步骤：在三维笛卡尔坐标系中，将采集信息的b-uav作为底层终端，针对b-uav采集信息时算力不够，将数据传到传统基站时间较长的问题，把配有mec服务器的uav作为t-uav，部署在b-uav上方，为b-uav提供通信和计算卸载服务；t-uav在固定高度h飞行，b-uav分在低于固定高度h的高度飞行，且t-uav和b-uav在水平方向随机移动，t-uav为b-uav提供通信和计算卸载服务；将整个系统周期t划分为i个时隙，每个b-uav在时隙i产生随机大小的计算任务d
k
(i)，i∈1,2,...,i；b-uav随机选择一部分任务进行本地处理，一部分卸载到t-uav进行计算处理，该系统运行于等时隙周期，t-uav提供通信和计算服务给所有的b-uav，但在一个时隙内只有一个b-uav能够被提供服务；为了优化无线网络信道传输效果，t-uav通过改变自身位置以及与b-uav之间的距离来寻求更好的信道增益，同时减少遮挡物对信号传输的干扰；由于mec服务器比b-uav具有更大的计算能力，b-uav将其计算密集型和延迟敏感型的任务卸载给t-uav，以便b-uav能降低能耗成本，加快计算速度，获得较低的延迟。3.如权利要求2所述的一种基于深度强化学习的边缘盒子资源调度方法，其特征在于，所述构建双层uav辅助的mec系统模型，还包括构建通信模型，具体包括以下步骤：设多个b-uav与t-uav的通信过程采用等时隙划分，其中每个时隙有且只有一个b-uav与t-uav保持通信，在高度h的二维平面区域范围内，t-uav可以自由飞行移动，系统将通信周期t平均划分为i个时隙，i∈1,2,...,i，t-uav在第i个时隙的起始坐标和终止坐标分别表示为q(i)＝[x(i),y(i)]
t
∈r2×1，q(i+1)＝[x(i+1),y(i+1)]
t
∈r2×1，编号为k的b-uav k∈{1,2,...,k}坐标表示为p
k
(i)＝[x
k
(i),y
k
(i)]
t
∈r2×1；在uav辅助的网络中，由于t-uav高度远高于b-uav高度，uav通信链路的视距信道比其他信道受到的损伤更小，因此los信道为t-uav和b-uav之间的所有无线信道选择，t-uav与b-uavk在时隙i的视距链路下的信道增益可表示为：
式中，α0表示在参考距离d＝1m时，发射功率为1w的信道增益，d
k
(i)表示t-uav与b-uavk之间的欧几里德距离；由于t-uav的飞行周期被平均分为i个时隙，并且每个时隙之间的间隔非常短，设在每个时隙中t-uav保持悬停状态，而b-uav则以相对较低的速度移动，b-uav和t-uav通过时分多址接入方式接入，保证每个时隙的b-uav都能获得全部的计算资源和通信带宽，由于无线传输速率可能受障碍物遮挡影响，可用以下公式表示：式中，b代表b-uav和t-uav之间的信号带宽，p
up
为b-uav上传链路的上传功率，噪声功率用σ2表示，因遮挡造成的非视距传输功率损耗表示为p
nlos
，t-uav和b-uav之间在时隙i是否存在遮挡由f
k
(i)表示，0表示没有遮挡，1表示有遮挡。4.如权利要求3所述的一种基于深度强化学习的边缘盒子资源调度方法，其特征在于，所述构建双层uav辅助的mec系统模型，还包括构建计算模型，具体包括以下步骤：在uav辅助的mec系统里面，部分卸载策略用于在每个时隙中b-uav的任务，设在第i个时隙，b-uavk将一部分任务卸载到mec服务器上，这部分卸载任务占b-uav总任务量的比例表示为r
k
(i)∈[0,1]，则编号为k的b-uav本地计算的任务比例为1-r
k
(i)，b-uavk在时隙i处理任务数据量大小表示为d
k
(i)，1比特数据所需的cpu周期数用s表示，b-uav计算能力表示为f
b-uav
，则编号为k的b-uav在时隙i内的本地计算延迟表示如下：设t-uav的质量为m
t-uav
,在第i个时隙，t-uav以一定速度v(i)∈[0,v
max
]和角度β(i)∈[0,2π]从起始位置q(i)经过时间t
fly
飞到悬停位置q(i+1)，q(i+1)＝[x(i)+v(i)t
fly
cosβ(i),y(i)+v(i)t
fly
sinβ(i)]
t
，则本次飞行消耗的能量可以表示为:e
fly
(i)＝φ||v(i)||2；mec服务器所提供的计算结果一般来说非常小，在进行下行链路传输时，其对传输时延和能耗的影响可忽略不计；mec服务器的处理延迟由两部分组成，其中一部分为传输时延，计算方法如下：另一部分是在mec服务器上计算卸载任务的时延，设挂载在t-uav上的mec服务器的cpu计算能力用f
t-uav
表示，则这部分时延可以表示为：在第i时隙将任务卸载到服务器所消耗的能量包括来自传输计算任务的能耗和mec服
务器执行卸载任务的能耗这两部分，在mec服务器上执行计算时的功率为：mec服务器在第i时隙的计算能耗表示如下：5.如权利要求4所述的一种基于深度强化学习的边缘盒子资源调度方法，其特征在于，所述构建双层uav辅助的mec系统模型，还包括对双层uav辅助的mec系统模型的优化，具体包括以下步骤：为了确保有效利用在b-uav和t-uav上的计算资源，考虑到t-uav和b-uav的移动性，通过联合优化b-uav调度、t-uav移动性和资源分配以尽可能地提高b-uav在所有时隙内的最小处理时延；其中优化目标表述如下：小处理时延；其中优化目标表述如下：t
max
＝max{t
local,k
(i),t
t-uav,k
(i)+t
tr,k
(i)}；(i)}；(i)}；(i)}；(i)}；(i)}；(i)}；(i)}；其中，上述公式共同限制：限制t-uav在每个时隙只能向一个b-uav提供计算卸载服务决策、限制计算任务卸载比的取值必须在规定范围内、规定b-uav和t-uav只能在规定区域内移动、t-uav和b-uav之间的遮挡情况、确保t-uav在所有时隙的能耗不会超过最大电池容量、在整个通信周期内所有b-uav需要完成的任务大小、每个b-uav的计算延迟必须小于最大容忍延迟。6.如权利要求1所述的一种基于深度强化学习的边缘盒子资源调度方法，其特征在于，所述构建ddpg-cper卸载算法，其中ddpg-cper卸载算法的具体流程包括：计算agent在当前状态下的td-error：δ
t
＝r
t+1
+γq
π
(s
t+1
,a
t+1
)-q
π
(s
t
,a
t
)；式中，q
π
(s
t
,a
t
)表示agent在当前状态s
t
下根据策略π选择动作a
t
后的预期回报期望值：
q
π
(s
t
,a
t
)＝e
π
[r
t+1
+γq
π
(s
t+1
,a
t+1
)|s
t
＝s,a
t
＝a]；定义经验样本在立即回报标准中的优先级和td-error标准中的优先级：式中，y
i
表示经验在立即回报标准中的优先级，y
j
表示经验在td-error标准中的优先级，经验样本在当前状态下采取动作后获得的立即回报表示为r
t
，ε的作用是确保每个转移信息的优先级都非零；将经验样本分别按照在立即回报标准中的优先级y
i
和td-error标准中的优先级y
j
进行升序排序得到rank(i)和rank(j)，再对经验样本进行复合平均排序：计算复合的优先级：式中，参数α用于确定算法中优先级的相对重要性，其取值范围为[0,1]，当α＝0表示采用均匀采样的方法；定义采样经验的概率为：式中，n为经验的数量。7.如权利要求6所述的一种基于深度强化学习的边缘盒子资源调度方法，其特征在于，所述构建ddpg-cper卸载算法，具体包括：在uav辅助的mec场景中，对b-uav调度、t-uav的移动性和计算任务分配进行联合优化，采用rl对系统状态进行预测，状态空间表示为：其中，e
battery
(i)表示在第i时隙t-uav的剩余电量，q(i)表示t-uav在第i时隙所处的位置，被t-uav服务的b-uavk在时隙i的位置信息表示为p
k
(i),系统仍需完成的剩余任务规模表示为d
remain
(i),b-uavk内部的任务量d
k
(i)是随机生成的，用布尔值f
k
(i)记录b-uavk和t-uav之间的无线通信链路的可用性和稳定性，判断是否有信号遮挡的情况；agent根据当前状态和观察到的环境选择动作，动作空间表示为：a
i
＝(k(i),β(i),v(i),r
k
(i))；其中，k(i)∈[0,k]表示t-uav提供服务的b-uav编号，β(i)∈[0,2π]为t-uav在飞行时所能到达的角度范围，t-uav的飞行速度和任务计算卸载比率分别用v(i)∈[0,v
max
]和r
k
(i)∈[0,1]表示；根据优化目标假设奖励函数如下：r
i
＝r(s
i
,a
i
)＝-τ
delay
(i)；
其中，τ
delay
(i)＝max{t
local,k
(i),t
uav,k
(i),t
tr,k
(i)}；为了更有效地训练dnn，使用状态归一化算法对观察到的状态进行预处理，然后将其馈送到ddpg-cper卸载算法中。

技术总结
本发明公开了一种基于深度强化学习的边缘盒子资源调度方法，涉及计算机科学技术领域，包括布置多个B-UAV作为底层终端，UAV作为T-UAV，将T-UAV部署在B-UAV上方，构建双层UAV辅助的MEC系统模型；综合考虑TD-error值高的经验和立即回报值高的经验两种评估指标，采用复合优先级抽样机制，构建DDPG-CPER卸载算法；基于DDPG-CPER卸载算法对双层UAV辅助的MEC系统模型进行训练，训练包括联合优化B-UAV调度、T-UAV移动性和资源分配，提高经验样本的利用率，加快网络的收敛速度，实现系统时延的最小化；利用训练后的双层UAV辅助的MEC系统模型对数据提供云端计算服务并降低用户设备UE的时延和能耗，提高数据处理效率；综合来看，本发明能够加快训练收敛速度，更好地降低系统的处理时延。时延。时延。

技术研发人员：杨雪徐飞王森苏维亚张磊赵前奔
受保护的技术使用者：西安工业大学
技术研发日：2023.06.29
技术公布日：2023/9/23

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种智能核酸检测分析系统的制作方法 下一篇：一种复合谐振型机械式直流断路器及其使用方法

一种基于深度强化学习的边缘盒子资源调度方法

版权声明

评论

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度强化学习的边缘盒子资源调度方法

版权声明

相关文章

评论

航空之家

相关推荐

文章排行

最近发表

标签列表