一种基于SAC的动态服务编排方法、装置及边缘服务器与流程

未命名 10-08 阅读：94 评论：0

一种基于sac的动态服务编排方法、装置及边缘服务器
技术领域
1.本发明涉及领域，具体来说，涉及一种基于sac的动态服务编排方法、装置及边缘服务器。

背景技术：

2.由于智能移动设备和5g/b5g网络技术的快速发展，物联网(iot)技术的应用正在迅速普及。工业物联网(iiot)是一种由物联网与工业制造系统的融合的新场景。工业物联网范式有可能显着提高一个行业的生产力、吞吐量和响应时间，推动包括制造、食品、医疗保健、农业等在内的各个行业的快速增长。同时，工业机器和网络规模的增加，刺激了工业过程的过度自动化和智能化，产生了海量的大数据。由于工业物联网设备的处理能力和电池寿命有限，计算密集型服务必须在具有足够能力的服务器上执行，这些服务器通常部署在云计算服务器中。尽管这种范式适用于传统应用程序，但来自云的通信延迟成为工业物联网应用的重要阻碍，工业物联网应用程序经常需要快速响应和移动协助。并且将数据发送到远程云服务器也增加了数据机密性和隐私泄露的风险。
3.近年来，移动边缘计算(mec)的提出为学术界和产业界提供了一种有效的解决方案，它提供类似云的服务，包括工业物联网设备和云服务器之间的辅助处理和存储。由于边缘离数据源更近，边缘计算可以显著提高工业物联网应用程序处理的服务质量(qos)。尽管如此，边缘计算仍然面临着在动态和异构工业物联网环境中提供服务时如何实现高效资源分配的挑战。边缘智能(ei)使机器学习算法部署到边缘成为可能，它集成了人工智能(ai)和边缘计算技术，结合软件定义网络(sdn)控制器的全球意识和网络功能虚拟化(nfv)灵活的资源分配能力，边缘将获得动态工业物联网业务的自适应部署和智能调度能力，为工业企业实现高效率、低延迟的工业生产服务保证。实现的高效的sfc编排对于工业物联网服务交付是必不可少的，基于nfv技术运营商为物联网设备定义了业务功能链(sfc)中的一系列虚拟网络功能(vnfs)，这些虚拟网络功能按照顺序连接和处理，以灵活处理海量异构物联网业务
[i]
。在nfv赋能的网络中，nfv协调器将vnf映射到边缘物理节点(例如虚拟机)进行处理，sdn控制器将流量引导遍历每个vnf以提供不同的服务。尽管这种动态sfc编排问题一直是学术界和产业界关注的焦点，但是要广泛的应用到大规模的工业物联网中仍然需要克服一下挑战：
[0004]
1)现有方法大多是采用离线训练模型，并且基于不真实的先验知识(例如，服务流量到达模式)和精心设计的模型。将它们应用到未知场景中，可能仍然需要专家手动调整。
[0005]
2)最近的研究没有考虑工业物联网服务的独特属性，仍然将工业物联网服务作为传统服务处理，导致不适合实际工业物联网服务请求的解决方案。例如，工业物联网服务更经常需要特定的延迟约束而不是纯粹的延迟最小化，并且具有延迟约束的服务编排仍需要进一步研究。
[0006]
3)近年来，深度强化学习(drl)算法越来越多地用于资源分配，但它仍然面临着在连续空间场景中寻找最优策略、样本效率差、稳定困难、缺乏探索等诸多挑战等等。这些挑
战严重限制了drl在实际任务中的适用性。
[0007]
本文提供的背景描述用于总体上呈现本公开的上下文的目的。除非本文另外指示，在该章节中描述的资料不是该申请的权利要求的现有技术并且不要通过包括在该章节内来承认其成为现有技术。

技术实现要素：

[0008]
针对相关技术中的上述技术问题，本发明提出了一种基于sac的动态服务编排方法，其包括如下步骤：
[0009]
s1，接收工业物联网设备和终端用户请求sfc；
[0010]
s2，使用基于最大熵框架的软演员评论家深度强化学习sac学习最佳sfc部署和流量路由策略，所述sac的目标函数包括通过优化部署和流量控制策略来最小化平均端到端延迟；所述端到端延迟包括vnf处理延迟、数据传输延迟和链路传播延迟；
[0011]
s3，将所述最佳sfc部署和流量路由策略发送nfv编排器和sdn控制器，使得nfv编排器和sdn控制器进行服务的具体实现，将服务提供给工业物联网设备和终端用户。
[0012]
具体的，所述步骤s2中使用改进sac替换sac，所述改进sac算法在训练期间使用了判别机制，在奖励高于ω
·
max(reward)，则输出参数将仅使用当前训练集中的参数进行更新，其中ω控制过度拟合的灵活性水平。
[0013]
具体的，所述vnfs处理延迟由任务处理的总计算需求与实例化节点分配的处理能力的比率计算；
[0014]
具体的，所述数据传输延迟由数据量大小除以链路可用带宽决定；
[0015]
具体的，所述链路传播延迟由下式确定：
[0016][0017]
其中δd是两个节点之间的物理距离，c是由物理链路介质确定的信号传播速度，l为链路集合，s为所有可访问服务的集合。
[0018]
具体的，所述sac的马可夫链的奖励函数使用两个延迟标准，惩罚r
t
如下式所示：
[0019][0020]
其中是所有vnf处理延迟的总和，是服务端到端延迟，包括vnf处理延迟和链路延迟，n是网络拓扑规模，d
sard
为硬截止时间，为软截止时间。
[0021]
第二方面，本发明的另一个实施例公开了一种基于sac的动态服务编排装置，其包括如下单元：
[0022]
sfc请求接收单元，用于接收工业物联网设备和终端用户请求sfc；
[0023]
最佳sfc部署和流量路由策略学习单元，用于使用基于最大熵框架的软演员评论家深度强化学习sac学习最佳sfc部署和流量路由策略，所述sac的目标函数包括通过优化部署和流量控制策略来最小化平均端到端延迟；所述端到端延迟包括vnf处理延迟、数据传输延迟和链路传播延迟；
[0024]
部署单元，用于将所述最佳sfc部署和流量路由策略发送nfv编排器和sdn控制器，使得nfv编排器和sdn控制器进行服务的具体实现，将服务提供给工业物联网设备和终端用户。
[0025]
具体的，所述最佳sfc部署和流量路由策略学习单元中使用改进sac替换sac，改进sac算法，所述改进sac算法在训练期间使用了判别机制，在奖励高于ω
·
max(reward)，则输出参数将仅使用当前训练集中的参数进行更新，其中ω控制过度拟合的灵活性水平。
[0026]
具体的，所述sac的马可夫链的奖励函数使用两个延迟标准，惩罚r
t
如下式所示：
[0027][0028]
其中是所有vnf处理延迟的总和，是服务端到端延迟，包括vnf处理延迟和链路延迟，n是网络拓扑规模，d
sard
为硬截止时间，为软截止时间。
[0029]
第三方面，本发明的另一个实施例公开了一种边缘服务器，其包括处理单元、存储单元，所述处理单元用于实现上述的于sac的动态服务编排方法，或者还包括上述的于sac的动态服务编排装置。
[0030]
第四方面，本发明的另一个实施例公开了一种非易失性存储器，所述非易失性存储器上存储有指令，其特征在于：所述指令被处理器执行时，用于实现上述的一种基于sac的动态服务编排方法。
[0031]
本发明的基于sac的动态服务编排方法，综合考虑工业物联网服务请求的独特特征，考虑了端到端延迟约束，将此优化问题建模为马尔可夫决策过程。然后通过基于最大熵框架的优化软演员评论家(sac)深度强化学习方法解决上述马尔可夫决策问题，本发明为了解决sac的性能，还将sac算法进一步优化，在提高算法探索能力的同时保证较好的模型输出。仿真结果表明，与现有的传统深度强化学习方法相比，优化的sac方法可以在延迟保证的情况下显着提高吞吐量和可扩展性，并适应不同的场景。
附图说明
[0032]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0033]
图1是本发明实施例提供的一种基于sac的动态服务编排方法流程图；
[0034]
图2是本发明实施例提供的一种基于sac的工业物联网sfc编排架构示意图；
[0035]
图3是本发明实施例提供的sac算法架构图；
[0036]
图4是本发明实施例提供的不同学习率的学习曲线；
[0037]
图5是本发明实施例提供的不同ω系数的学习曲线；
[0038]
图6是本发明实施例提供的一种基于sac的动态服务编排装置示意图；
[0039]
图7是本发明实施例提供的一种基于sac的动态服务编排设备示意图。
具体实施方式
[0040]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。
[0041]
实施例一
[0042]
参考图1，本实施例公开了一种基于sac的动态服务编排方法，其包括如下步骤：
[0043]
s1，接收工业物联网设备和终端用户请求sfc；
[0044]
工业物联网需要低延迟甚至实时的服务交付，以确保工厂的有序生产和机器之间的协作。本实施例公开了一种基于sac的工业物联网sfc编排架构，结合ai方法实现sfc智能编排，保障工业物联网的低时延服务交付。参考图2，图2示出了本实施例的工业物联网sfc编排架构，所述架构主要包括三层：
[0045]
智能设备层：智能设备层由工业物联网的各种智能设备和传感器组成。由于处理能力有限，它将无法在本地处理的数据和任务发送到边缘或云平台。
[0046]
边缘智能层：sfc编排器，包括sdn控制器、nfv编排器和ai模块，部署在边缘智能层，其一般部署在mec边缘服务器中。ai模块负责sfc编排决策，nfv编排器负责sfc的执行，sdn控制器负责全局感知和流量路由。
[0047]
云平台层：如果在边缘无法保证业务的qos和资源需求，则在云平台上实现sfc编排。
[0048]
本实施例的ai模块采用深度强化学习drl，所述drl代理用于根据用户的qos和资源利用率学习最佳的sfc部署和流量控制策略。
[0049]
具体的，本实施例的步骤s1还包括：sfc编排器验证所述请求sfc的请求节点是否有效，在所述请求节点有效时，执行步骤s2；
[0050]
在所述请求节点无效时，如请求节点的sfc请求是恶意攻击，则丢弃所述sfc请求。
[0051]
s2，使用基于最大熵框架的软演员评论家深度强化学习sac学习最佳sfc部署和流量路由策略，所述sac的目标函数包括通过优化部署和流量控制策略来最小化平均端到端延迟；所述端到端延迟包括vnf处理延迟、数据传输延迟和链路传播延迟；
[0052]
所述vnfs处理延迟由任务处理的总计算需求与实例化节点分配的处理能力的比率计算；
[0053]
所述数据传输延迟由数据量大小除以链路可用带宽决定；
[0054]
所述链路传播延迟由下式确定：
[0055][0056]
其中δd是两个节点之间的物理距离，c是由物理链路介质确定的信号传播速度，l为链路集合，s为所有可访问服务的集合。
[0057]
具体的，所述sac的马可夫链的奖励函数使用两个延迟标准，惩罚r
t
如下式所示：
[0058][0059]
其中是所有vnf处理延迟的总和，是服务端到端延迟，包括vnf处理延迟和链路延迟，n是网络拓扑规模，d
sard
为硬截止时间，为软截止时间；
[0060]
具体的，本实施例对sac算法进行改进形成改进sac算法，所述改进sac算法在训练期间使用了判别机制，在奖励高于ω
·
max(reward)，则输出参数将仅使用当前训练集中的参数进行更新，其中ω控制过度拟合的灵活性水平。
[0061]
在现实工业物联网场景中，流量作为几个简短的流进入网络的入口节点，例如来自用户或传感器的服务请求。任何节点都可以充当入口节点。每个sfc用表示，其中表示服务s中vnf f的计算需求，即总cpu周期，ωs表示s的传输数据大小，θs为服务s的最大延迟容忍度。网络可能提供各种服务s∈s，其中s是所有可访问服务的集合。集合f包含所有服务的所有可用vnf，每个sfc由向量f＝《f1,...,fj》指定的vnf链组成。此外，为了确保高服务质量，必须满足针对每项服务的一组qos要求。sfc的所有vnf都有独立的流程，可以在许多不同的节点上实例化。如果一条服务中的流量以指定的顺序遍历s中的所有vnf并遵守qos约束，例如给定的服务期限θs，将被认定该条服务流是成功的。底层网络g＝《v,e》由物理节点v和节点之间的链接e组成。每个节点v∈v都配置计算能力本实施例仅考虑单个通用资源，即cpu处理能力。每个链路e∈e在两个方向上共享一个最大数据速率它双向连接两个节点。sfc的vnf将被映射到底层网络进行处理，定义了两个决策变量和如果来自服务s的vnf f映射到物理节点v∈v，则二进制变量等于1；否则，等于0(vnf部署)。类似地，如果来自服务s的虚拟链路l映射到物理链路e∈e，则变量等于1，否则等于0(流量调度)。
[0062]
本实施例为vnf部署和流量调度问题提供了一个优化模型，该模型考虑了上述问题，并试图在保持服务qos和遵守资源约束的情况下减少端到端业务延迟。本实施例考虑了sfc-dop中端到端延迟的三个部分，包括vnf处理延迟、数据传输延迟和链路传播延迟。vnfs处理延迟由任务处理的总计算需求与实例化节点分配的处理能力的比率计算：
[0063][0064]
其中表示服务s的vnf f是否嵌入到物理节点v进行处理，是sfc中vnf f的计算需求(即总cpu周期数)，是节点v分配给处理s中vnf f的计算能力。|f|表示vnf的总数。总服务延迟是所有vnf的总和。
[0065]
数据传输延迟由数据量大小除以链路可用带宽决定：
[0066][0067]
其中表示第j-1个vnf和第j个vnf之间的虚拟链路l是否映射到物理链路e，ωs表示sfcs传输的数据大小，是物理链路e分配给传输sfc的流量的带宽大小。
[0068]
本实施例使用真实世界的拓扑结构进行仿真，链路传播延迟由下式确定：
[0069][0070]
其中δd是两个节点之间的物理距离，可以直接从网络拓扑中收集，c是由物理链路介质确定的信号传播速度。
[0071]
因此，服务端到端延迟表示为:
[0072][0073]
目标函数o表示为(5)，通过优化部署和流量控制策略来最小化平均服务端到端延迟，这些策略通过drl动作学习，如下一节中所定义。而(6)-(12)提供了考虑该优化问题的约束：
[0074][0075][0076][0077][0078][0079][0080][0081]
[0082]
服务提供商和用户之间的服务级别协议(sla)要求所有服务都需要在预期时间内完成，如(6)中指定的那样。为了防止资源过度利用，映射到物理节点上的vnf的计算要求应小于相关节点的剩余cpu处理能力，因此，(7)确保了对资源使用的限制。同理，分配给叠加在物理链路e上的虚拟链路l的带宽不应超过边缘的带宽容量，(8)保证链路的带宽利用约束。(9)要求s的所有vnf按照预定顺序安装在可用和协作的物理节点上。然而，给定服务的每个vnf实例只能在一个物理节点上实例化，这由(10)保证。与此类似，一对vnf之间的每个虚拟链路都需要嵌入到物理链路上，如(11)中所定义。(12)强加流量守恒要求，规定所有节点的进出流量必须相等，其中l
pq
和e
uv
表示虚拟链路和物理链路，其进出vnf或节点为p和q或u和v，反之亦然。
[0083]
对于所有sfc，sfc-dop专注于链接vnf并引导流量在到达目的地之前通过预定义的vnf，以满足相关it资源(如cpu和存储)的延迟要求。假设工业物联网服务请求以离散的时间步长出现并随时间变化。在所述sfc编排架构中，当工业物联网服务请求到达时，它们要么被拒绝，要么被接受，然后在处理后离开。
[0084]
本实施例使用马尔可夫决策过程来建模上述drl的优化过程。
[0085]
mdp模型构成了基于drl的任务的基础设置，可用于在底层网络随机变化的动态设置中提供直观的建模，基于drl基本组成部分可以表征为三元组《s(t),a(t),r(t)》，其中s(t)表示sfc-dop在时间t的状态空间。注意，sfc-dop包括涉及离散操作(例如放置vnf)和连续活动(例如流量控制)的复杂决策。a(t)表示必须包含时隙t的vnf部署和调度流量的操作空间。r(t)表示指导基于drl的任务学习方向的奖励函数。
[0086]
状态集：设s(t)＝《s,g》表示网络系统在时间t的当前状态，其中状态集：设s(t)＝《s,g》表示网络系统在时间t的当前状态，其中表示服务请求及其具体的qos要求，g＝《v,e》为底层网络资源状态，由节点和链路容量组成。
[0087]
动作集：集合其中表示流到达节点v并请求服务s的vnf f在节点v'处处理的概率。在上文中定义了流量引导操作，但vnf部署可以从流量调度方法中提取出来，将其保留为隐藏操作。这意味着如果流量需要在节点v中处理，则vnf必须首先部署在节点v上，因此仍然符合(5)中定义的优化策略。drl将选择并执行概率最高的动作。
[0088]
奖励函数：drl驱动的代理的主要目标是最大化长期奖励其中r
t
是当前时间t的即时奖励。本实施例旨在保证低服务延迟约束。因此，使用两个延迟标准，即1)hard-deadline：服务端到端延迟越小，奖励越高(r
t
∈[-1,1])，如果服务延迟超过hard-deadline，无论超过多少，该服务都会被丢弃，并设置惩罚r
t
＝-1：
[0089][0090]
2)soft-deadline-exp：当端到端延迟小于软截止时间时，延迟效用最大(r
t
＝1)，并且随着延迟的增加逐渐减小，直到超过硬截止时间
其中是所有vnf处理延迟的总和，是服务端到端延迟，包括vnf处理延迟和链路延迟，n是网络拓扑规模)。如果延迟超过，则此服务流将被丢弃并设置惩罚奖励r
t
＝-1。
[0091]
为了克服第前述中讨论的当前基于drl的方法的缺点，本实施例利用sac算法来解决上述mdp问题。
[0092]
传统的drl智能体旨在找到最优策略π(a|s)以在遵守该策略的同时最大化未来的预期奖励：
[0093][0094]
其中s
t
，a
t
和r
t
分别表示相对于时间步长t的状态、动作和一步奖励。s
t+1
，a
t+1
是t+1时刻的状态和动作，γ∈[0,1]是平衡现在和未来潜在奖励的折扣因子，e[
·
]是预期的长期奖励。
[0095]
与单一目标drl算法相比，sac算法的奖励函数引入了一个新的熵项h(π(a|s))＝-logπ(a|s)来鼓励代理的探索。其贝尔曼迭代提供软价值函数为：
[0096][0097]
其中α是调节所选最优策略随机性的可调熵温度，π
φ
(a
t
|s
t
)表示具有网络参数φ的当前策略。
[0098]
而critic网络负责通过判断策略是否足够好来指导动作网络的学习，如图3所示。为了减少训练过程中的不稳定迭代，引入目标评价网络。因此，q和目标q'的均方误差(mse)可用于确定平评价网络q的更新，如下所示：
[0099][0100]
其中θ是q网络的参数，经验池中来自经验池的mini-batch样本用《s
t
，
[0101]at
，r
t
，r
t+1
》
←
m表示。之后，目标评价网络q’的参数从θ执行软更新：
[0102][0103]
策略网络π也称为图3中的动作网络，其参数φ更新基于：
[0104][0105]
其中d
kl
是kl散度，z(s
t
)是对数分配函数，用于归一化对策略梯度没有贡献的分布。
[0106]
sac算法的体系结构如图3所示。具体来说，参与者根据状态s
t
中的当前策略选择并执行动作，并使用参数化的dnn来近似策π
φ
(a|s)。在获得即时奖励r
t
和后续状态s
t+1
之后，经验元组《s
t
,a
t
,r
t
,s
t+1
》然后存储在回放记忆m中。评论家从记忆池中随机选择批次来训练dnn减少样本之间的时间相关性。在训练阶段，分别使用损失函数和l(θ)更新actor的参数和critic的参数，这些参数将使用随机梯度下降法进行反向传播。目标critic网络参数以固定步骤从critic网络执行软更新。
[0107]
在sac算法中，奖励函数中加入了一个熵项h(π(a|s))＝-logπ(a|s)以保证智能体
可以持续探索。同时，它还带来了一个称为熵系数α的新参数，用于管理算法探索和开发之间的权衡。参考文献1(haarnoja,t.,zhou,a.,hartikainen,k.,tucker,g.,ha,s.,tan,j.,kumar,v.,zhu,h.,gupta,a.,abbeel,p.,et al.:soft actor-critic algorithms and applications.arxiv preprint arxiv:1812.05905(2018))提出了给定目标熵φ的自动学习α机制。首先比较相同环境设置下固定和自动学习α的学习曲线，使sac达到最佳性能。
[0108]
如图4所示，自学习α和目标熵φ为-1的sac可以获得快速收敛和最佳奖励性能，φ由-dim(a)计算，而目标熵为0.01和0.01的固定学习率不如最佳值。相反，ddpg在学习曲线上更稳定，但由于确定性策略，可以获得更小(几乎是sac的一半)的累积奖励。图4中的结果表明，最大化探索机制确实可以导致更优化的策略。
[0109]
在训练过程中，与ddpg不同，虽然sac总体上具有更好的累积奖励，但它有时会突然跌落到甚至低于ddpg的水平，如图4所示。这是由于sac对更高整体性能的探索，但如果在错误的时间停止，可能会输出次优甚至不可行的结果。由于动态网络请求，这些探索是不可控的，因此很难选择恰到好处的训练周期。
[0110]
为了避免这种情况，本实施例改进了sac算法(opt-sac)，如算法1的第16-18行所示，在训练期间使用了判别机制。改进的sac算法跟踪到目前为止的最高奖励，并记录一组单独的网络参数以供输出。如果奖励高于ω
·
max(reward)，则输出参数将仅使用当前训练集中的参数进行更新，其中ω控制过度拟合的灵活性水平。这种机制不影响sac算法的探索，但是当探索出一个次优策略时，模型不会输出，保证输出的参数是当前最优的。
[0111]
为了找到最好的ω，比较了ω设置为0.8到1的性能。学习曲线如图5所示，opt-sac甚至比原来的sac更稳定，避免了学习曲线突然下降。结果表明，ω在0.95达到最佳性能(即，成功流量＝91.0419％，平均端到端延迟＝26.9657ms)并且比原始sac好得多(即成功流＝88.0926％和平均端到端延迟＝27.2244ms)，因此在后续实验中，ω设置为0.95，改进后的sac算法称为opt-sac。
[0112]
算法1
[0113]
algorithm 1 opt-sac based sfc-dop algorithm
[0114]
require:environment state s(t)；
[0115]
ensure:optimal strategies a(t)；
[0116]
1:initialize network parameters:θ,θ；
[0117]
2:for each episode do
[0118]
3:for each environment step do
[0119]
4://***generate training data***//
[0120]
5:choose optimal action a
t
←
π
φ
(
·
|s
t
)；
[0121]
6:observe next state s
t+1
and reward rt
←
take action at；
[0122]
7:update replay memory buffer:m
←
{s
t
,a
t
,r
t
,s
t+1
}∪m；
[0123]
8:end for
[0124]
9:for each gradient step do do
[0125]
10://***training neural networks***//
[0126]
11:randomly draw a sample from m for training；
[0127]
12:update the parametersθof q network according to(16)；
[0128]
13:soft update the parametersof the target q
′
according to(17)；
[0129]
14:update the policy networkπparametersφaccording to(18)；
[0130]
15://***output the feasible training model***//
[0131]
16:if training reward r
t
≥ω
·
max(reward)then
[0132]
17:update output parametersφ,θ,
[0133]
18:end if
[0134]
19:return to step 3to output the current optimal action at；
[0135]
20:end for
[0136]
21:end for
[0137]
s3，将所述最佳sfc部署和流量路由策略发送nfv编排器和sdn控制器，使得nfv编排器和sdn控制器进行服务的具体实现，将服务提供给工业物联网设备和终端用户。
[0138]
本实施例的基于sac的动态服务编排方法，综合考虑工业物联网服务请求的独特特征，考虑了端到端延迟约束，将此优化问题建模为马尔可夫决策过程。然后通过基于最大熵框架的优化软演员评论家(sac)深度强化学习方法解决上述马尔可夫决策问题，本实施例为了解决sac的性能，还将sac算法进一步优化，在提高算法探索能力的同时保证较好的模型输出。仿真结果表明，与现有的传统深度强化学习方法相比，优化的sac方法可以在延迟保证的情况下显着提高吞吐量和可扩展性，并适应不同的场景。
[0139]
实施例二
[0140]
参考图6，本实施例公开了一种基于sac的动态服务编排装置，其包括如下单元：
[0141]
sfc请求接收单元，用于接收工业物联网设备和终端用户请求sfc；
[0142]
最佳sfc部署和流量路由策略学习单元，用于使用基于最大熵框架的软演员评论家深度强化学习sac学习最佳sfc部署和流量路由策略，所述sac的目标函数包括通过优化部署和流量控制策略来最小化平均端到端延迟；所述端到端延迟包括vnf处理延迟、数据传输延迟和链路传播延迟；
[0143]
部署单元，用于将所述最佳sfc部署和流量路由策略发送nfv编排器和sdn控制器，使得nfv编排器和sdn控制器进行服务的具体实现，将服务提供给工业物联网设备和终端用户。
[0144]
所述最佳sfc部署和流量路由策略学习单元中使用改进sac替换sac，改进sac算法，所述改进sac算法在训练期间使用了判别机制，在奖励高于ω
·
max(reward)，则输出参数将仅使用当前训练集中的参数进行更新，其中ω控制过度拟合的灵活性水平。
[0145]
所述sac的马可夫链的奖励函数使用两个延迟标准，惩罚r
t
如下式所示：
[0146][0147]
其中是所有vnf处理延迟的总和，是服务端到端延迟，包括vnf处理延
迟和链路延迟，n是网络拓扑规模，d
sard
为硬截止时间，为软截止时间。
[0148]
实施例三
[0149]
本实施例公开了一种边缘服务器，其包括处理单元、存储单元，所述处理单元用于实现如示例一所述的方法，或者还包括如实施例二所述的装置。
[0150]
实施例四
[0151]
参考图7，图7是本实施例的一种基于sac的动态服务编排设备的结构示意图。该实施例的基于sac的动态服务编排设备20包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述方法实施例中的步骤。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
[0152]
示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于sac的动态服务编排设备20中的执行过程。例如，所述计算机程序可以被分割成实施例二中的各个模块,各模块具体功能请参考上述实施例所述的装置的工作过程，在此不再赘述。
[0153]
所述基于sac的动态服务编排设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是基于sac的动态服务编排设备20的示例，并不构成对基于sac的动态服务编排设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于sac的动态服务编排设备20还可以包括输入输出设备、网络接入设备、总线等。
[0154]
所述处理器21可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述基于sac的动态服务编排设备20的控制中心，利用各种接口和线路连接整个基于sac的动态服务编排设备20的各个部分。
[0155]
所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述基于sac的动态服务编排设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0156]
其中，所述基于sac的动态服务编排设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。
基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0157]
需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来
[0158]
实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0159]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种基于sac的动态服务编排方法，其包括如下步骤：s1，接收工业物联网设备和终端用户请求sfc；s2，使用基于最大熵框架的软演员评论家深度强化学习sac学习最佳sfc部署和流量路由策略，所述sac的目标函数包括通过优化部署和流量控制策略来最小化平均端到端延迟；所述端到端延迟包括vnf处理延迟、数据传输延迟和链路传播延迟；s3，将所述最佳sfc部署和流量路由策略发送nfv编排器和sdn控制器，使得nfv编排器和sdn控制器进行服务的具体实现，将服务提供给工业物联网设备和终端用户。2.根据权利要求1所述的方法，所述步骤s2中使用改进sac替换sac，所述改进sac算法在训练期间使用了判别机制，在奖励高于ω
·
max(reward)，则输出参数将仅使用当前训练集中的参数进行更新，其中ω控制过度拟合的灵活性水平。3.根据权利要求1所述的方法，所述vnfs处理延迟由任务处理的总计算需求与实例化节点分配的处理能力的比率计算。4.根据权利要求1所述的方法，所述数据传输延迟由数据量大小除以链路可用带宽决定。5.根据权利要求1所述的方法，所述链路传播延迟由下式确定：其中δ
d
是两个节点之间的物理距离，c是由物理链路介质确定的信号传播速度，l为链路的集合，s为所有可访问服务的集合。6.根据权利要求1所述的方法，所述sac的马可夫链的奖励函数使用两个延迟标准，惩罚r
t
如下式所示：其中是所有vnf处理延迟的总和，是服务端到端延迟，包括vnf处理延迟和链路延迟，n是网络拓扑规模，d
sard
为硬截止时间，为软截止时间。7.一种基于sac的动态服务编排装置，其包括如下单元：sfc请求接收单元，用于接收工业物联网设备和终端用户请求sfc；最佳sfc部署和流量路由策略学习单元，用于使用基于最大熵框架的软演员评论家深度强化学习sac学习最佳sfc部署和流量路由策略，所述sac的目标函数包括通过优化部署和流量控制策略来最小化平均端到端延迟；所述端到端延迟包括vnf处理延迟、数据传输延迟和链路传播延迟；部署单元，用于将所述最佳sfc部署和流量路由策略发送nfv编排器和sdn控制器，使得nfv编排器和sdn控制器进行服务的具体实现，将服务提供给工业物联网设备和终端用户。
8.根据权利要求7所述的装置，所述最佳sfc部署和流量路由策略学习单元中使用改进sac替换sac，改进sac算法，所述改进sac算法在训练期间使用了判别机制，在奖励高于ω
·
max(reward)，则输出参数将仅使用当前训练集中的参数进行更新，其中ω控制过度拟合的灵活性水平。9.根据权利要求7所述的装置，所述sac的马可夫链的奖励函数使用两个延迟标准，惩罚r
t
如下式所示：其中是所有vnf处理延迟的总和，是服务端到端延迟，包括vnf处理延迟和链路延迟，n是网络拓扑规模，d
sard
为硬截止时间，为软截止时间。10.一种边缘服务器，其包括处理单元、存储单元，所述处理单元用于实现如权利要求1-6任一项所述的方法，或者还包括如权利要求7-9中任一项所述的装置。

技术总结
本发明提供了一种基于SAC的动态服务编排方法，其包括如下步骤：S1，接收工业物联网设备和终端用户请求SFC；S2，使用基于最大熵框架的软演员评论家深度强化学习SAC学习最佳SFC部署和流量路由策略，所述SAC的目标函数包括通过优化部署和流量控制策略来最小化平均端到端延迟；所述端到端延迟包括VNF处理延迟、数据传输延迟和链路传播延迟；S3，将所述最佳SFC部署和流量路由策略发送NFV编排器和SDN控制器，使得NFV编排器和SDN控制器进行服务的具体实现，将服务提供给工业物联网设备和然后通过基于SAC解决马尔可夫决策问题，本发明进一步优化SAC算法，在提高算法探索能力的同时保证较好的模型输出。好的模型输出。好的模型输出。

技术研发人员：任腾吴辰颢黄忠炜高敏涵
受保护的技术使用者：谦行智慧（珠海）科技有限公司
技术研发日：2023.06.20
技术公布日：2023/10/5

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：电子纸上色调整方法、装置、设备及介质与流程 下一篇：一种电池的寿命评估方法、装置、计算机设备和存储介质与流程

一种基于SAC的动态服务编排方法、装置及边缘服务器与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于SAC的动态服务编排方法、装置及边缘服务器与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表