在边缘服务器的基于注意力机制的视频流传输系统及方法

未命名 10-26 阅读:83 评论:0


1.本发明属于视频处理技术领域,特别涉及在边缘服务器的基于注意力机制的视频流传输系统及方法。


背景技术:

2.视频流目前占移动数据总流量的66%,消耗大量网络资源。cdns(内容分发网络,即尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输得更快、更稳定)允许用户从最近的服务器接收视频流,同时利用dash这种自适应比特率流技术,可以无缝地适应不断变化的网络条件,并以最小的暂停或缓冲提供高质量的播放。但是由于视频清晰度的提高和实时互动需求的增加,即使边缘服务器能够为本地用户提供近端服务,也很难在动态环境中容纳大量的移动用户,并且在用户量大、网络波动情况等动态环境中很难保证用户的长期qoe(体验质量,quality of experience,是指用户对设备、网络和系统、应用或业务的质量和性能的主观感受)。
3.视频系统的服务优化往往需要从以下几个方面考虑:1.如何为用户选择合适的边缘服务器,即用户分配问题;2.如何给用户选择合适的视频比特率。现有的技术都是将这两个子问题分开解决,得到最终的优化效果。例如,解决为了移动边缘计算中的用户分配问题,提出一个深度强化学习(drl)框架,从用户传入的服务请求中预测资源利用率,从而估算出边缘服务器在特定情况下所能容纳的用户数量的延迟阈值。pensieve提出了基于客户端视频播放器收集的观察结果的比特率选择强化学习。但是由于网络状态的动态变化,两个子问题最优解的合并不能保证是全局最优解。
4.现有的这些利用单边缘服务器强化学习方法将两个子问题分别解决,然而,分别解决这些问题并不合适,这体现在以下两个方面。一是这两个子问题是相互关联的,比特率选择高度依赖于边缘服务器和移动用户之间的网络连接,而用户分配中的服务器分配也是由每个终端用户的qoe决定的,这间接反映在比特率选择过程中。如果先找到一个子问题的最优解,再找到另一个子问题的最优解,最后的合并不能得到全局最优解。第二个问题是,即使计算出了最优解,也是暂时的,因为用户的数量、行为、网络状态等都是动态变化的。同时,由于边缘服务器直接给就近端的用户进行服务,使用单边缘服务器强化学习的方法不能适应整体的环境变化。
5.基于此,本发明提出了一个端到端的综合解决方案,针对相互关联的子两个子问题,利用强化学习使边缘服务器通过与环境的互动获得奖励值。由于环境是动态变化的,采用多边缘服务器强化学习(marl)的框架,每个边缘服务器通过与环境互动获得奖励值来学习改进自己的策略,从而使整体得到环境中的最优策略。


技术实现要素:

6.针对现有技术存在的不足,本发明提供一种在边缘服务器的基于注意力机制的视频流传输系统及方法,针对边缘服务器为用户提供视频服务来达到用户最大qoe中的用户
分配和比特率分配问题,利用分布式操作和集中控制的方式实现边缘服务器之间的服务协作,将用户分配和比特率自适应结合在一个综合优化目标中,使用户长期qoe最大。
7.为了解决上述技术问题,本发明采用的技术方案是:
8.首先,本发明提供一种在边缘服务器的基于注意力机制的视频流传输系统,包括用户端和边缘服务器端,边缘服务器端采用一个端到端的基于注意力机制的多边缘服务器强化学习网路模型,每个边缘服务器结构相同,都采用深度确定性策略梯度ddpg网络结构,所述用户端包括多个用户分组,每个分组的用户包含的信息包括用户状态信息和动作信息,
9.所述边缘服务器包括演员网络和评论家网络,所述演员网络包括多个演员,用于确定输入到模型的状态和从模型中采取的动作,其中输入的状态包括用户的信息和边缘服务器的信息;
10.所述评论家网络包括多个评论家和注意力模块,用于评估所选择的行动,在评估动作时,多边缘服务器联合评估,每个边缘服务器的评论家获取注意力模块提取的其他边缘服务器的状态和动作信息,获得客观的动作评价。
11.进一步的,边缘服务器的演员所确定的动作为矩阵,列号为用户索引,行数为2,分别代表分配给用户的边缘服务器索引和分配给用户的视频比特率;
12.边缘服务器的评论家在评估所选择的行动时,将用户的长期体验质量qoe和租用服务器的数量视为奖励函数,并在奖励函数中加入一个惩罚函数,一旦分配给边缘服务器的用户占用的资源超过最大资源量,就会对结果进行惩罚;评估后,每个边缘服务器根据评估预测下一步行动。
13.进一步的,所述注意力模块在工作时,每个边缘服务器向其他边缘服务器查询有关其观察和行动的信息,并将此信息整合到其奖励函数的估计中,具体的:为了计算边缘服务器ei的q值函数评论家获得所有索引为i∈1...n的边缘服务器状态s=(s1,...si...,sn)和动作a=(a1,...ai...,an);是边缘服务器ei选择动作a以及其他边缘服务器的贡献,公式如下:
[0014][0015]
其中,si是每个边缘服务器的输入状态,ai是边缘服务器ei的动作,fi是两层多层感知器mlp,gi是一层mlp嵌入函数,来自其他边缘服务器的贡献xi是每个边缘服务器价值的加权和,具体计算公式如(2):
[0016][0017]
其中,值vj是索引为j的边缘服务器的嵌入函数,即用一个嵌入函数编码,然后通过共享矩阵v进行线性变换;注意力权重αj考虑了边缘服务器ei和边缘服务器ej的相关性,即根据两个边缘服务器之间的距离和服务区域内用户的重叠率计算,具体的实现方式为:注意权重αj使用双线性映射将嵌入函数li与li=gi(si,ai)进行比较,并将这两个嵌入之间的相似度值传递到softmax中,然后根据这两个矩阵的维数对匹配进行缩放,以防止梯度消失;
[0018]
最后,所述系统的目标函数是:
[0019][0020]
其中,i是边缘服务器ei的索引,s是批量大小,θi是第i个边缘服务器策略的参数,μi是边缘服务器ei采取的策略,是用户j对边缘服务器ei的状态集,是计算q值函数的梯度。
[0021]
然后,本发明提供一种在边缘服务器的基于注意力机制的视频流传输方法,使用如前所述的在边缘服务器的基于注意力机制的视频流传输系统实现,包括以下步骤:
[0022]
步骤s1、用户将视频流需求发送给边缘服务器,边缘服务器接收到用户请求;
[0023]
步骤s2、边缘服务器的演员网络接收输入的状态信息,输出所有可能的动作;
[0024]
步骤s3、服务器的评论家网络接受所有边缘服务器状态和演员输出的动作,同时,接收所有边缘服务器的状态集s,通过注意力机制和奖励函数计算出每个动作的对应价值;
[0025]
步骤s4、输出价值集合,选择最大价值的动作集合,训练结束;
[0026]
步骤s5、训练完成之后用测试集测试训练好的演员网络;
[0027]
步骤s6、对于用户输入的视频流需求,根据所有边缘服务器的动作对应价值,选取整体价值最大的方法策略进行视频流传输。
[0028]
进一步的,步骤s2中,每个边缘服务器在自己的覆盖区域,获取边缘服务器的输入状态si,包括该用户最近接收到的视频比特率、用户与该边缘服务器之间的往返时间、用户当前的吞吐率、用户与该边缘服务器之间的距离,以及该边缘服务器的分配资源;每个边缘服务器的输入状态si组合为状态集s,在步骤s3中,si被馈送到每个边缘服务器自己的参与者网络中以获得每个边缘服务器的预测动作ai,将噪声n添加到动作ai后,将其存储为动作的实际发生,在每个边缘服务器预测动作之后,计算用户体验质量qoe,采取使当前用户体验质量qoe最大化的操作。
[0029]
进一步的,将单个边缘服务器ei覆盖下的用户uj的状态定义为s
ij
,每个s
ij
是一个4元组,如(4)式所示,
[0030]sij
=(d
ij
,rtt(ei,uj),thou(ei,uj),bi(uj))
ꢀꢀ
(4)
[0031]
其中d
ij
是用户与该边缘服务器之间的距离,rtt(ei,uj)为用户uj与边缘服务器ei之间的往返时间,thou(ei,uj)为当前的吞吐率,bi(uj)为当前分配视频的比特率;
[0032]
每个边缘服务器的输入状态si为:
[0033][0034]
其中是边缘服务器ei的剩余连接数,在边缘服务器ei覆盖下的用户un的状态定义;
[0035]
演员网络的输入是每个边缘服务器各自的状态si,批评家网络的输入是每个边缘服务器ei的状态集s,定义如下所示(6):
[0036]
[0037]
其中,s
11
表示索引为1的边缘服务器覆盖下用户1的状态,表示索引为1的边缘服务器覆盖下用户un的状态、allo(e1)表示索引为1的边缘服务器的分配状态、s
m1
表示索引为m的边缘服务器覆盖下用户1的状态、表示索引为m的边缘服务器覆盖下用户un的状态、allo(em)表示索引为m的边缘服务器的分配状态。
[0038]
进一步的,边缘服务器ei将所有用户的状态si馈送到参与者网络中,以预测每个用户uj的动作,记为a
ij
,如(7)式所示:
[0039]aij
=(i,bi(uj))
ꢀꢀꢀ
(7)
[0040]
边缘服务器ei预测的动作向量ai为:
[0041][0042]
其中,i表示边缘服务器ei的索引、bi(μj)表示边缘服务器ei覆盖范围下用户uj的比特率,a
i1
表示边缘服务器ei覆盖范围下用户1的比特率、a
i2
表示表示边缘服务器ei覆盖范围下用户2的比特率、表示边缘服务器ei覆盖范围下用户un的比特率。
[0043]
进一步的,步骤s3中,在计算奖励函数时,考虑用户的体验质量qoe和租用服务器的数量,同时加入约束条件,具体的,奖励函数由以下三个部分组成:用户的体验质量qoe、租用边缘服务器的数量和边缘节点的连接惩罚;将边缘服务器ei覆盖下的用户uj的奖励记为r
ij
,定义租用边缘服务器的数量为en,则:
[0044]rij
=qoe(uj)-en-ap(|(u(ei)|)
ꢀꢀ
(9)
[0045]
其中qoe(uj)表示用户uj的体验质量,en表示租用边缘服务器数量,ap(|u(ei)|)是添加的惩罚函数,即当分配给边缘服务器的用户集的数量超过最大连接输量就添加惩罚;qoe定义为:
[0046]
qoe=bw
×bi
(uj)-sw
×
|bi(uj)-lbi(uj)|+tw
×
tp(thou(ei,uj))-rw
×
rtt(ei,uj)
ꢀꢀꢀ
(10)
[0047]
其中,bi(uj)是表示边缘服务器ei覆盖范围下用户uj的比特率,lbi(uj)是上一时刻用户uj接收的视频比特率,tp(thou(ei,uj))为当前时刻和上一时刻吞吐量,bw,sw,tw,rw分别为用户当前比特率的权重、用户上一时刻和当前比特率的差值的权重、吞吐量插值的权重以及当前的rtt权重,rtt(ei,uj)表示用户uj与边缘服务器ei之间的往返时间。
[0048]
与现有技术相比,本发明优点在于:
[0049]
(1)本发明使用端到端的模型,将相互关联的子两个子问题同时解决,得到整体最优解而不是局部最优解;
[0050]
(2)使用多边缘服务器而不是单边缘服务器强化学习适应更加复杂多变的环境,多边缘服务器通过与环境互动获得奖励值来学习改进自己的策略,从而使整体得到环境中的最优策略;
[0051]
(3)考虑边缘服务器之间的相关性,添加注意力机制减少训练复杂度(计算量);
[0052]
(4)利用分布式操作和集中控制的方式实现边缘服务器之间的服务协作,将用户分配和比特率自适应结合在一个综合优化目标中,使用户长期qoe最大。
附图说明
[0053]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用
的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0054]
图1为本发明的系统架构图;
[0055]
图2为本发明的方法流程图;
[0056]
图3为本发明的注意力机制原理图。
具体实施方式
[0057]
下面结合附图及具体实施例对本发明作进一步的说明。
[0058]
本实施例提供一个端到端的综合解决方案,针对相互关联的子两个子问题,利用强化学习使边缘服务器通过与环境的互动获得奖励值。由于环境是动态变化的,本实施例采用多边缘服务器强化学习(marl)的框架,每个边缘服务器通过与环境互动获得奖励值来学习改进自己的策略,从而使整体得到环境中的最优策略。
[0059]
具体的,如图1所示,提供一种在边缘服务器的基于注意力机制的视频流传输系统,包括用户端和边缘服务器端,边缘服务器端采用一个端到端的基于注意力机制的多边缘服务器强化学习网路模型,每个边缘服务器结构相同,都采用深度确定性策略梯度ddpg网络结构。
[0060]
所述用户端包括多个用户分组,每个分组的用户包含的信息包括用户状态信息和动作信息。
[0061]
所述边缘服务器包括演员网络和评论家网络,所述演员网络包括多个演员,用于确定输入到模型的状态和从模型中采取的动作,其中输入状态很容易确定,输入的状态包括用户的信息和边缘服务器的信息;但动作并不那么容易确定。最初,动作被设置为每个边缘服务器的二进制组列表,其中列表的每个元素都是一个二进制组,由用户索引和分配的视频比特率组成。然而,这并不是在实践中构建神经网络的好方法。最后选择动作为矩阵,列号为用户索引,行数为2,分别代表分配给用户的边缘服务器索引和分配给用户的视频比特率。但是这样就产生了一个问题,每个边缘服务器都会得到一个所有用户动作的列表,这样每个用户都会被多个边缘服务器多次决定,难免会带来一些冲突。
[0062]
所述评论家网络包括多个评论家和注意力模块,用于评估所选择的行动,在评估动作时,多边缘服务器联合评估,每个边缘服务器的评论家获取注意力模块提取的其他边缘服务器的状态和动作信息,获得客观的动作评价。
[0063]
边缘服务器的评论家在评估所选择的行动时,将用户的长期体验质量qoe和租用服务器的数量视为奖励函数,但是这样的奖励函数并没有考虑到每个边缘服务器的能力,因此在奖励函数中加入一个惩罚函数,一旦分配给边缘服务器的用户占用的资源超过最大资源量,就会对结果进行惩罚。此外,多边缘服务器rl算法(多边缘服务器强化学习算法)和单边缘服务器rl算法之间的区别在于,在评估动作时,多边缘服务器rl算法的批评者不会像ddpg那样孤立地进行评估。从图1中给可以看出每个边缘服务器的评论家在训练过程中可以获取注意力机制提取的其他边缘服务器的状态和动作信息,从而获得客观的动作评价。评估后,每个边缘服务器将根据评估预测下一步行动。与ddpg算法一样,演员的动作预测是单独完成的。评估后,每个边缘服务器根据评估预测下一步行动。
[0064]
下面介绍注意力机制,所述注意力模块在工作时,注意力机制的工作方式与可微键值记忆模型类似。简单来说,每个边缘服务器向其他边缘服务器查询有关其观察和行动的信息,并将此信息整合到其奖励函数的估计中,具体的:为了计算边缘服务器ei的q值函数评论家获得所有索引为i∈1...n的边缘服务器状态s=(s1,...si...,sn)和动作a=(a1,...ai...,an);是边缘服务器ei选择动作a以及其他边缘服务器的贡献,公式如下:
[0065][0066]
其中,si是每个边缘服务器的输入状态,ai是边缘服务器ei的动作,fi是两层多层感知器mlp,gi是一层mlp嵌入函数,来自其他边缘服务器的贡献xi是每个边缘服务器价值的加权和,具体计算公式如(2):
[0067][0068]
其中,值vj是索引为j的边缘服务器的嵌入函数,即用一个嵌入函数编码,然后通过共享矩阵v进行线性变换;注意力权重αj考虑了边缘服务器ei和边缘服务器ej的相关性,即根据两个边缘服务器之间的距离和服务区域内用户的重叠率计算,具体的实现方式为:注意权重αj使用双线性映射将嵌入函数li与li=gi(si,ai)进行比较,并将这两个嵌入之间的相似度值传递到softmax中,然后根据这两个矩阵的维数对匹配进行缩放,以防止梯度消失;
[0069]
最后,所述系统的目标函数是:
[0070][0071]
其中,i是边缘服务器索引,s是批量大小,θi是第i个边缘服务器策略的参数,μi是边缘服务器ei采取的策略,是用户j对边缘服务器ei的状态集,是计算q值函数的梯度。
[0072]
作为另一实施例,还提供一种在边缘服务器的基于注意力机制的视频流传输方法,本实施例的方法使用边缘服务器强化学习方法,当边缘服务器接收到用户请求之后,服务器的演员网络尝试所有可能的动作,评论家网络计算出每个动作的对应价值,选择最大价值的动作集合,训练完成之后用测试集测试该网络的具体性能。
[0073]
结合图2所示,一种在边缘服务器的基于注意力机制的视频流传输系统,包括以下步骤:
[0074]
步骤s1、用户将视频流需求发送给边缘服务器,边缘服务器接收到用户请求;
[0075]
步骤s2、边缘服务器的演员网络接收输入的状态信息,输出所有可能的动作;
[0076]
步骤s3、服务器的评论家网络接受所有边缘服务器状态和演员输出的动作,同时,接收所有边缘服务器的状态集s,通过注意力机制和奖励函数计算出每个动作的对应价值;
[0077]
步骤s4、输出价值集合,选择最大价值的动作集合,训练结束;
[0078]
步骤s5、训练完成之后用测试集测试训练好的演员网络;
[0079]
步骤s6、对于用户输入的视频流需求,根据所有边缘服务器的动作对应价值,选取
整体价值最大的方法策略进行视频流传输。
[0080]
本方法的设计要点1、eua(用户分配)和比特率选择同时执行。
[0081]
通过强化学习,可以同时解决eua和比特率选择。具体训练过程如下:每个边缘服务器都是一个ddpg结构,其中演员(actor)和评论家(critic)都是双网络结构。步骤s2中,每个边缘服务器在自己的覆盖区域,获取每个边缘服务器的状态si,包括该用户最近接收到的视频比特率、用户与该边缘服务器之间的往返时间(rtt)、用户当前的吞吐率、用户与该边缘服务器之间的距离等信息,以及该边缘服务器的分配资源。每个边缘服务器的输入状态si组合为状态集s,在步骤s3中,si被馈送到每个边缘服务器自己的参与者网络中以获得每个边缘服务器的预测动作ai,由于每个边缘服务器都是一个ddpg结构,得到的动作是一个确定性的值,而不是像pg算法那样得到单个动作的概率分布。将噪声n添加到动作ai后,将其存储为动作的实际发生。在每个边缘服务器预测动作之后,这些用户之间可能会出现冲突的选择,例如,用户3在边缘服务器1中获得由边缘服务器2发送视频块的指令,而用户3在边缘服务器2中获得由边缘服务器1发送视频块的指令。在这种情况下,本实施例分别计算每种情况下的用户体验质量qoe,采取使当前用户体验质量qoe最大化的操作。
[0082]
在公式10中,由于qoe受四个因素影响——当前分配视频的比特率、上次分配视频的比特率、用户当前的rtt和用户当前的吞吐率,因为当前和最近一次分配的比特率是一样的,本实施例只需要比较两个边缘服务器下用户的rtt和吞吐量的差异。这样就得到了所有边缘服务器的动作集合a和奖励集合r,下一个状态s'受当前动作和下一个时间段用户信息的影响。当一个迭代结束时,设置done=ture,其余时间设置为false。将五元组[s,a,r,s',done]存放在经验池中用于训练。当有足够的训练数据时,训练开始。训练过程遵循集中训练、分步执行的原则,即演员用自己观察到的数据为每个边缘服务器单独预测数据,评论家则以所有边缘服务器的状态s和动作集a作为输入进行训练来估计价值。训练结束后,只需要用测试集测试每个边缘服务器的演员。
[0083]
本方法的设计要点2、评论家计算添加了注意力机制的q值函数。
[0084][0085]
其中,值vj是索引为j的边缘服务器的嵌入函数,即用一个嵌入函数编码,然后通过共享矩阵v进行线性变换;注意力权重αj考虑了边缘服务器ei和边缘服务器ej的相关性,即根据两个边缘服务器之间的距离和服务区域内用户的重叠率计算,具体的实现方式为:注意权重αj使用双线性映射将嵌入函数li与li=gi(si,ai)进行比较,并将这两个嵌入之间的相似度值传递到softmax中,然后根据这两个矩阵的维数对匹配进行缩放,以防止梯度消失。注意力机制的原理如图3所示,其中mlp网络是一种前向结构的人工神经网络。每个边缘服务器对其观察和动作进行编码,将其发送到中央注意机制,并接收其他边缘服务器编码的加权和。
[0086]
本方法的设计要点3、多边缘服务器环境。
[0087]
在现实世界中,一个区域会有多个边缘服务器,即多个边缘服务器。在这样的环境下,使用多边缘服务器强化学习是合理的。在训练过程中,系统元素定义如下:
[0088]
状态:在这种场景下,由于每个用户和每个边缘节点之间的延迟等因素的差异,本实施例将单个边缘服务器e
t
覆盖下的用户uj的状态定义为s
ij
,每个s
ij
是一个4元组,如(4)
式所示,
[0089]sij
=(d
ij
,rtt(ei,uj),thou(ei,uj),bi(uj)) (4)
[0090]
其中d
ij
是用户与该边缘服务器之间的距离,rtt(ei,uj)为用户uj与边缘服务器ei之间的往返时间,thou(ei,uj)为当前的吞吐率,bi(uj)为当前分配视频的比特率;
[0091]
边缘服务器的输入状态si为:
[0092][0093]
其中allo(ei)是边缘服务器ei的剩余连接数,在边缘服务器ei覆盖下的用户un的状态定义;
[0094]
演员网络的输入是每个边缘服务器各自的状态si,批评家网络的输入是每个边缘服务器ei的状态集s,定义如下所示(6):
[0095][0096]
其中,s
11
表示索引为1的边缘服务器覆盖下用户1的状态,表示索引为1的边缘服务器覆盖下用户un的状态、表示索引为1的边缘服务器的分配状态、s
m1
表示索引为m的边缘服务器覆盖下用户1的状态、表示索引为m的边缘服务器覆盖下用户un的状态、allo(em)表示索引为m的边缘服务器的分配状态。
[0097]
动作:边缘服务器ei将所有用户的状态si馈送到参与者网络中,以预测每个用户uj的动作,记为a
ij
,如(7)式所示:
[0098]aij
=(i,bi(uj)) (7)
[0099]
边缘服务器ei预测的动作向量ai为:
[0100][0101]
其中,i表示边缘服务器ei的索引、bi(uj)表示边缘服务器ei覆盖范围下用户uj的比特率,a
i1
表示边缘服务器ei覆盖范围下用户1的比特率、a
i2
表示表示边缘服务器ei覆盖范围下用户2的比特率、表示边缘服务器ei覆盖范围下用户un的比特率。
[0102]
奖励:在本发明中,所有用户的数据都将被边缘服务器接收,如果超过最大用户数,剩余用户将直接连接到服务提供商的中央云服务器。因此,步骤s3中,在计算奖励函数时,考虑用户的体验质量qoe和租用服务器的数量,同时加入约束条件,具体的,奖励函数由以下三个部分组成:用户的体验质量qoe、租用服务器的数量和边缘节点的连接惩罚;将边缘服务器ei覆盖下的用户uj的奖励记为r
ij
,定义租用边缘服务器的数量为en,则:
[0103]rij
=qoe(uj)-en-ap(|u(ei)|)
ꢀꢀ
(9)
[0104]
其中qoe(uj)表示用户uj的体验质量,en表示租用边缘服务器的数量,ap(|u(ei)|)是添加的惩罚函数,即当分配给边缘服务器的用户集的数量超过最大连接输量就添加惩罚;qoe定义为:
[0105]
qoe=bw
×bi
(uj)-sw
×
|bi(uj)-lbi(uj)|+tw
×
tp(thou(ei,uj))-rw
×
rtt(ei,uj)
ꢀꢀꢀ
(10)
[0106]
其中,其中,bi(uj)是表示边缘服务器ei覆盖范围下用户uj的比特率,lbi(uj)是上
一时刻用户uj接收的视频比特率,tp(thou(ei,uj))为当前时刻和上一时刻吞吐量,bw,sw,tw,rw分别为用户当前比特率的权重、用户上一时刻和当前比特率的差值的权重、吞吐量插值的权重以及当前的rtt权重,rtt(ei,uj)表示用户uj与边缘服务器ei之间的往返时间。
[0107]
为了让本领域技术人员更加理解本发明的上述实施,下面以学校区域服务器为例进行说明。
[0108]
首先,可以将学校按区域划分为食堂区域,教学区域和宿舍区域。由于学生和教师的移动性,用户呈现高度的流动性,随着学生位置的移动,给用户提供视频流传输的边缘服务器可能会发生改变。以学生甲为例,当他去到教学区域的时候,由于上课而很少有用户需求传输视频流,网络压力不大,可以得到较高的用户体验质量,但当回到宿舍区域,用户对视频需求量大,宿舍区域的边缘服务器不能同时为过多的用户提供服务。通过本发明边缘服务器进行学习,在服务器资源不够的情况自动为用户更换服务器为值进行服务,或者在网络状况不好的情况下,自动选择合适的比特率,两个方式同时进行,使用户的长期qoe达到最大。
[0109]
综上所述,本发明将视频流传输任务转移到了计算资源更加丰富而且离用户端较近的边缘服务器上,最大程度的减少视频传输的流量损耗,创新性的在边缘服务器上用一个端到端的综合解决方案,针对相互关联的子两个子问题,利用强化学习使边缘服务器通过与环境的互动获得奖励值。利用共享注意力机制进行集中计算,最大程度的减少计算量。
[0110]
此外,本发明可以应用于边缘服务器的文本、音乐、图像的传输,同时也可以用于vr(虚拟现实)领域。在网络状况不好的情况下,可以传输较低比特率的视频,但同时在用户端进行视频超分,使得视频质量大幅恢复,也可以使得用户qoe得到保证。
[0111]
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

技术特征:
1.在边缘服务器的基于注意力机制的视频流传输系统,其特征在于,包括用户端和边缘服务器端,边缘服务器端采用一个端到端的基于注意力机制的多边缘服务器强化学习网路模型,每个边缘服务器结构相同,都采用深度确定性策略梯度ddpg网络结构,所述用户端包括多个用户分组,每个分组的用户包含的信息包括用户状态信息和动作信息,所述边缘服务器包括演员网络和评论家网络,所述演员网络包括多个演员,用于确定输入到模型的状态和从模型中采取的动作,其中输入的状态包括用户的信息和边缘服务器的信息;所述评论家网络包括多个评论家和注意力模块,用于评估所选择的行动,在评估动作时,多边缘服务器联合评估,每个边缘服务器的评论家获取注意力模块提取的其他边缘服务器的状态和动作信息,获得客观的动作评价。2.根据权利要求1所述的在边缘服务器的基于注意力机制的视频流传输系统,其特征在于,边缘服务器的演员所确定的动作为矩阵,列号为用户索引,行数为2,分别代表分配给用户的边缘服务器索引和分配给用户的视频比特率;边缘服务器的评论家在评估所选择的行动时,将用户的长期体验质量qoe和租用服务器的数量视为奖励函数,并在奖励函数中加入一个惩罚函数,一旦分配给边缘服务器的用户占用的资源超过最大资源量,就会对结果进行惩罚;评估后,每个边缘服务器根据评估预测下一步行动。3.根据权利要求2所述的在边缘服务器的基于注意力机制的视频流传输系统,其特征在于,所述注意力模块在工作时,每个边缘服务器向其他边缘服务器查询有关其观察和行动的信息,并将此信息整合到其奖励函数的估计中,具体的:为了计算边缘服务器e
i
的q值函数评论家获得所有索引为i∈1...n的边缘服务器状态s=(s1,...s
i
...,sn)和动作a=(a1,...a
i
...,an);是边缘服务器e
i
选择动作a以及其他边缘服务器的贡献,公式如下:其中,s
i
是每个边缘服务器的输入状态,a
i
是边缘服务器e
i
的动作,f
i
是两层多层感知器mlp,g
i
是一层mlp嵌入函数,来自其他边缘服务器的贡献x
i
是每个边缘服务器价值的加权和,具体计算公式如(2):其中,值v
j
是索引为j的边缘服务器的嵌入函数,即用一个嵌入函数编码,然后通过共享矩阵v进行线性变换;注意力权重α
j
考虑了边缘服务器e
i
和边缘服务器e
j
的相关性,即根据两个边缘服务器之间的距离和服务区域内用户的重叠率计算,具体的实现方式为:注意权重α
j
使用双线性映射将嵌入函数li与li=g
i
(s
i
,a
i
)进行比较,并将这两个嵌入之间的相似度值传递到softmax中,然后根据这两个矩阵的维数对匹配进行缩放,以防止梯度消失;最后,所述系统的目标函数是:
其中,i是边缘服务器索引,s是批量大小,θ
i
是第i个边缘服务器策略的参数,μ
i
是边缘服务器e
i
采取的策略,是用户j对边缘服务器e
i
的状态集,是计算q值函数的梯度。4.在边缘服务器的基于注意力机制的视频流传输方法,其特征在于,使用权利要求1-3任一项所述的在边缘服务器的基于注意力机制的视频流传输系统实现,包括以下步骤:步骤s1、用户将视频流需求发送给边缘服务器,边缘服务器接收到用户请求;步骤s2、边缘服务器的演员网络接收输入的状态信息,输出所有可能的动作;步骤s3、服务器的评论家网络接受所有边缘服务器状态和演员输出的动作,同时,接收所有边缘服务器的状态集s,通过注意力机制和奖励函数计算出每个动作的对应价值;步骤s4、输出价值集合,选择最大价值的动作集合,训练结束;步骤s5、训练完成之后用测试集测试训练好的演员网络;步骤s6、对于用户输入的视频流需求,根据所有边缘服务器的动作对应价值,选取整体价值最大的方法策略进行视频流传输。5.根据权利要求4所述的在边缘服务器的基于注意力机制的视频流传输方法,其特征在于,步骤s2中,每个边缘服务器在自己的覆盖区域,获取边缘服务器的输入状态si,包括该用户最近接收到的视频比特率、用户与该边缘服务器之间的往返时间、用户当前的吞吐率、用户与该边缘服务器之间的距离,以及该边缘服务器的分配资源;每个边缘服务器的输入状态si组合为状态集s,在步骤s3中,si被馈送到每个边缘服务器自己的参与者网络中以获得每个边缘服务器的预测动作ai,将噪声n添加到动作ai后,将其存储为动作的实际发生,在每个边缘服务器预测动作之后,计算用户体验质量qoe,采取使当前用户体验质量qoe最大化的操作。6.根据权利要求5所述的在边缘服务器的基于注意力机制的视频流传输方法,其特征在于,将单个边缘服务器e
i
覆盖下的用户u
j
的状态定义为s
ij
,每个s
ij
是一个4元组,如(4)式所示,s
ij
=(d
ij
,rtt(e
i
,u
j
),thou(e
i
,u
j
),bi(u
j
)) (4)其中d
ij
是用户与该边缘服务器之间的距离,rtt(e
i
,u
j
)为用户u
j
与边缘服务器e
i
之间的往返时间,thou(e
i
,u
j
)为当前的吞吐率,bi(u
j
)为当前分配视频的比特率;每个边缘服务器的输入状态s
i
为:其中allo(e
i
)是边缘服务器e
i
的剩余连接数,s
iun
(e
i
)在边缘服务器e
i
覆盖下的用户un的状态定义;演员网络的输入是每个边缘服务器各自的状态s
i
,批评家网络的输入是每个边缘服务器e
i
的状态集s,定义如下所示(6):其中,s
11
表示索引为1的边缘服务器覆盖下用户1的状态,表示索引为1的边缘服务器覆盖下用户un的状态、allo(e1)表示索引为1的边缘服务器的分配状态、s
m1
表示索引
为m的边缘服务器覆盖下用户1的状态、表示索引为m的边缘服务器覆盖下用户un的状态、allo(e
m
)表示索引为m的边缘服务器的分配状态。7.根据权利要求6所述的在边缘服务器的基于注意力机制的视频流传输方法,其特征在于,边缘服务器e
i
将所有用户的状态s
i
馈送到参与者网络中,以预测每个用户u
j
的动作,记为a
ij
,如(7)式所示:a
ij
=(i,bi(u
j
)) (7)边缘服务器e
i
预测的动作向量a
i
为:其中,i表示边缘服务器e
i
的索引、bi(u
j
)表示边缘服务器e
i
覆盖范围下用户u
j
的比特率,a
i1
表示边缘服务器e
i
覆盖范围下用户1的比特率、a
i2
表示表示边缘服务器e
i
覆盖范围下用户2的比特率、表示边缘服务器e
i
覆盖范围下用户un的比特率。8.根据权利要求4所述的在边缘服务器的基于注意力机制的视频流传输方法,其特征在于,步骤s3中,在计算奖励函数时,考虑用户的体验质量qoe和租用服务器的数量,同时加入约束条件,具体的,奖励函数由以下三个部分组成:用户的体验质量qoe、租用边缘服务器的数量和边缘节点的连接惩罚;将边缘服务器e
i
覆盖下的用户u
j
的奖励记为r
ij
,定义租用边缘服务器的数量为en,则:r
ij
=qoe(u
j
)-en-ap(|u(e
i
)|)
ꢀꢀ
(9)其中qoe(u
j
)表示用户u
j
的体验质量,en表示租用边缘服务器数量,ap(|u(e
i
)|)是添加的惩罚函数,即当分配给边缘服务器的用户集的数量超过最大连接输量就添加惩罚;qoe定义为:qoe=bw
×
b
i
(u
j
)-sw
×
|b
i
(u
j
)-lb
i
(u
j
)|+tw
×
tp(thou(e
i
,u
j
))-rw
×
rtt(e
i
,u
j
)
ꢀꢀ
(10)其中,b
i
(u
j
)是表示边缘服务器e
i
覆盖范围下用户u
j
的比特率,lb
i
(u
j
)是上一时刻用户u
j
接收的视频比特率,tp(thou(e
i
,u
j
))为当前时刻和上一时刻吞吐量,bw,sw,tw,rw分别为用户当前比特率的权重、用户上一时刻和当前比特率的差值的权重、吞吐量插值的权重以及当前的rtt权重,rtt(e
i
,u
j
)表示用户u
j
与边缘服务器e
i
之间的往返时间。

技术总结
本发明属于视频处理技术领域,公开了在边缘服务器的基于注意力机制的视频流传输系统及方法,步骤如下:用户将视频流需求发送给边缘服务器,边缘服务器接收用户请求;演员网络接收输入的状态信息,输出所有可能的动作;评论家网络接受所有边缘服务器状态和演员输出的动作,同时,接收所有边缘服务器的状态集,通过注意力机制和奖励函数计算出每个动作的对应价值;输出价值集合,选择最大价值的动作集合,训练结束;对于用户输入的视频流需求,选取整体价值最大的方法策略进行视频流传输。本发明利用分布式操作和集中控制的方式实现边缘服务器之间的服务协作,将用户分配和比特率自适应结合在一个综合优化目标中,使用户QoE最大。大。大。


技术研发人员:陈飞 李金凤 咸鹤群
受保护的技术使用者:青岛大学
技术研发日:2023.08.04
技术公布日:2023/10/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐