一种基于集中式强化学习的网络数据接续转发选择方法与流程

未命名 08-03 阅读:86 评论:0


1.本发明涉及网络路径选择技术领域,尤其涉及一种基于集中式强化学习的网络数据接续转发选择方法。


背景技术:

2.建立在数字孪生、人工智能、区块链、大数据等核心技术基础之上的元宇宙概念及其框架,被认为是社交和娱乐未来几十年发展的方向,同时也是工业的下一次变革方向。元宇宙是连接物理世界和虚拟世界的终极形态,将成为几十年后人类的生活方式,重塑数字经济体系。元宇宙将大量离散的单点创新聚合,形成完整的应用场景和实现架构,将长期带来新的商业模式创新,并驱动相关技术实现突破。
3.在未来元宇宙的发展趋势引领下,可以预见的是应用场景和架构将在以数字孪生体为基础的虚拟世界中,面向应用和技术的演进,不断反复迭代,直至形成符合各方要求并匹配技术能力的最终形态。在这一过程中,如果每次场景和技术的更新都需要重新设计和建立数字孪生体,将会极大限制虚拟世界的构建效率,也不符合元宇宙快速利用多种资源、满足多种应用的需要。
4.因此,需要在基于计算机软件和网络技术形成的虚拟世界中,通过数字资源的优化实现这一目标。在数字孪生体中使用多个节点模拟真实物理世界中的用户,通过集中式控制和处理面向仿真节点实现拓扑控制信息的下发和指令控制,进行资源接续选择,完成数据收发等任务,是物理世界系统中的数字孪生系统模拟的有效解决思路。
5.目前使用最为广泛的资源接续选择算法的实现过程为:对于给定的边权为正的有向图,其中,为有向图中所有节点的集合,为有向图中所有边的集合;如果把节点集合划分为两个子集和,其中令为起始节点集合,中包含除了集合以外的所有节点,即为目的点集合,定义为起始节点到目的节点的距离。其基本思想描述如下:(1)设定起始节点和目的节点,如果起始节点和目的节点之间存在边,则,否则。
6.(2)定义初始值对中所有的节点,通过比较找出和起始节点之间距离最小的节点,即:即:。则就是集合中所有的节点距离起始节点最近的节点。把节点从中删除并加入集合中,作为集合中的新任起始节点。即:。
7.(3)继续上述步骤(2),直到中的目的节点被加入到集合中,此时,为起始节点和目的节点之间的最短路径。
8.上述算法在实现过程中,无法充分利用网络资源,资源利用率偏低,例如,在存在
其他可用数据路径时,仍会按照原路径进行数据转发,直到此条路径发生阻塞之后,才会考虑重新选取新的数据转发路径。当前算法只对局部资源接续选择路径进行甄别,没有从整体网络层面进行统一考虑,容易陷入局部最优的陷阱。


技术实现要素:

9.鉴于上述的分析,本发明实施例旨在提供一种基于集中式强化学习的网络数据接续转发选择方法,用以解决现有网络数据接续方法存在的资源利用率较低、容易陷入局部最优陷阱的问题。
10.本发明公开了一种基于集中式强化学习的网络数据接续转发选择方法,包括:将网络实体映射成网络数字孪生体;所述网络数字孪生体包括中央控制器、由若干网络节点和边形成的网络拓扑结构;在网络数字孪生体中,中央控制器利用集中式强化学习算法对网络拓扑结构中的数据接续转发选择过程进行建模,得到集中式强化学习模型;当中央控制器接收到数据接续转发选择请求时,运行集中式强化学习模型,实现数据在网络实体中的接续转发。
11.在上述方案的基础上,本发明还做出了如下改进:进一步,在所述集中式强化学习模型中,抽象所述中央控制器为智能体;抽象环境为所述网络拓扑结构建模成的加权有向图;抽象状态空间为所述网络拓扑结构中所有网络节点的工作状态的集合;抽象动作空间为数据转发到的网络节点可达的邻居网络节点构成的集合;以最小化路径拥塞为目标设计奖赏函数。
12.进一步,在所述状态空间中,对于每一网络节点,当数据转发到该网络节点时,工作状态为繁忙,用“1”表示;当数据未转发到该网络节点时,工作状态为空闲,用“0”表示。
13.进一步,数据在网络节点选择动作时的奖赏函数设置如下:
ꢀꢀ
(1)其中,网络节点选择动作的含义是:网络节点选择网络节点作为下一跳网络节点;为一个平衡常数,为从网络节点到目的节点的最短接续转发路径上的网络节点的总数,表示从网络节点到目的节点的最短接续转发路径的瓶颈资源量,表示数据从网络节点传输到网络节点所付出的代价。
14.进一步,数据接续转发选择请求至少包括起始节点和目标节点。
15.进一步,所述运行集中式强化学习模型,执行:初始化数据接续转发选择过程的起始节点和目标节点;对于每轮实际探索过程,初始化,然后执行从起始节点到目的节点的数据接续转发选择,获取相应实际探索轮数最终的;所有实际探索轮数探索过程结束后,选取存储的所有实际探索轮数最终的
的最大值对应的、从起始节点到目的节点的数据接续转发选择过程,实现数据在网络实体中的接续转发。
16.进一步,初始化数据接续转发选择过程的起始节点和目的节点的同时,还初始化稳定探索轮数、探索总轮数及探索概率,初始化学习率和奖赏的衰减率;初始化实际探索轮数为1;稳定探索轮数小于探索总轮数。
17.进一步,对于每轮实际探索过程,执行:若实际探索轮数不超过稳定探索轮数,保持;若实际探索轮数在稳定探索轮数到探索总轮数之间,更新为;若实际探索轮数大于探索总轮数,所有实际探索轮数探索过程结束;给定状态为起始状态,初始化状态函数和效用迹,初始化历史列表;从起始节点开始,每一步数据接续转发选择过程均执行以下操作:智能体根据策略在状态下选择,得到奖赏函数和下一步状态,并获取状态下可选的动作;更新,表示状态下选择的动作为状态下的最优数据接续转发路径上的下一跳网络节点;将历史列表;更新td误差参数;对于历史列表中的:更新;更新;更新为;若更新后的状态为目的节点对应的状态,存储当前实际探索轮数最终的,实际探索轮数加1,然后跳转到下一轮实际探索过程;否则,跳转到下一步数据接续转发选择过程中。
18.进一步,在所述起始状态中,起始节点的工作状态表示为1,其余网络节点的工作状态表示为0。
19.进一步,当更新后的状态为目的节点对应的状态时,目的节点的工作状态为1,其余网络节点的工作状态表示为0。
20.与现有技术相比,本发明至少可实现如下有益效果之一:本发明提供的基于集中式强化学习的网络数据接续转发选择方法,通过建模集中式强化学习模型,并优化该模型中智能体、状态、动作及奖赏函数的设置,并通过优化集中式强化学习模型的运行过程,能够有效提高资源利用率,有效解决了现有网络数据接续方法存在的资源利用率较低。此外,由于在每一网络节点均要进行择优选择,很好地解决了现
有方式容易陷入局部最优陷阱的问题。
21.本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
22.附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;图1为本发明实施例提供的基于集中式强化学习的网络数据接续转发选择方法的流程图。
具体实施方式
23.下面结合附图来具体描述本发明的优选实施例,其中,附图构成本技术一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
24.本发明的一个具体实施例,公开了一种基于集中式强化学习的网络数据接续转发选择方法,流程图如图1所示,该方法的步骤介绍如下。
25.步骤s1:将网络实体映射成网络数字孪生体;所述网络数字孪生体包括中央控制器、由若干网络节点和边形成的网络拓扑结构。
26.在将网络实体映射成网络数字孪生体的过程中,将网络实体中的网络节点映射成网络数字孪生体中的网络节点,将网络实体中网络节点之间相连的边(即,链路)映射成网络数字孪生体中相应网络节点之间相连的边,从而形成网络数字孪生体中的网络拓扑结构。此外,还将网络实体中的中央控制器映射成网络数字孪生体中的中央控制器,以实现对网络数据接续转发过程的控制。
27.步骤s2:在网络数字孪生体中,中央控制器利用集中式强化学习算法对网络拓扑结构中的数据接续转发选择过程进行建模,得到集中式强化学习模型。
28.具体地,本实施例中的控制过程由中央控制器实现,该控制过程是一种集中式处理算法。中央控制器在每条数据到达一个网络节点时,利用网络拓扑结构完成数据接续转发的自愿选择决策。中央控制器在建模过程中,将从起始节点到目的节点的数据接续转发选择过程建模为一个马尔可夫决策过程,每一轮训练过程均从起始节点出发,然后在每一个网络节点根据当前状态按照策略选择动作,根据获得的奖赏值对策略进行更新,直到到达目的节点或者超过设定的最大步数。本实施例以集中式强化学习算法为基本框架进行建模,所得集中式强化学习模型中的各个要素设置如下。
29.(1)智能体
30.抽象中央控制器为智能体。
31.(1)环境
32.抽象环境为网络拓扑结构建模成的加权有向图。
33.(2)状态空间
34.抽象状态空间为网络拓扑结构中所有网络节点的工作状态的集合。
35.对于每一网络节点,当数据转发到该网络节点时,工作状态为繁忙,用“1”表示;当数据未转发到该网络节点时,工作状态为空闲,用“0”表示。
36.需要强调的是,数据中标识有目的节点。当数据转发到目的节点时,此时目的节点的工作状态为繁忙,数据的接续转发选择过程结束。
37.(3)动作空间
38.抽象动作空间为数据转发到的网络节点可达的邻居网络节点构成的集合。
39.(4)奖赏函数
40.奖赏函数决定了算法的优化目标,在本实施例中,由于路径是否会发生拥塞主要由网络的瓶颈资源决定,因此,从网络的瓶颈资源角度出发考虑奖赏函数。即,本实施例以最小化路径拥塞为目标设计奖赏函数。
41.数据在网络节点选择动作时的奖赏函数设置如下:
ꢀꢀ
(1)其中,网络节点选择动作的含义是:网络节点选择网络节点作为下一跳网络节点;当网络节点是接续转发的目的节点时,获得的奖赏值为;当网络节点并非接续转发的目的节点时,获得奖赏值为。为一个平衡常数,用于调整“剩余资源最大化奖赏”与“付出代价最小化奖赏”的权重,以满足不同的需求。为从网络节点到目的节点的最短接续转发路径上的网络节点的总数,用于避免算法为了获得更大剩余资源而在网络层级化架构中选择总节点数过多的路径,使网络拥塞的风险增大。表示从网络节点到目的节点的最短接续转发路径的瓶颈资源量。表示数据从网络节点传输到网络节点所付出的代价(如时延)。和的取值可根据实际仿真情况具体设定,取值范围均在0-1之间。取值越大,表示剩余资源越多。越大,表示数据接续转发过程付出的代价越大。由于剩余资源为正向奖赏,付出代价为负向奖赏,因此代价奖赏的系数为负。因此,当数据正确接续转发至目的节点时,算法对经过路径的最小剩余资源进行计算并给予正向奖赏,否则按付出代价给予负向奖赏。
42.步骤s3:当中央控制器接收到数据接续转发选择请求时,运行集中式强化学习模型,实现数据在网络实体中的接续转发。
43.在本实施例中,数据接续转发选择请求至少包括起始节点和目标节点。运行集中式强化学习模型的过程描述如下:步骤s31:初始化数据接续转发选择过程的起始节点和目的节点;初始化探索总轮数;此外,还可以初始化稳定探索轮数、探索总轮数及探索概率,初始化学习率和奖赏的衰减率;初始化实际探索轮数为1;稳定探索轮数小于探索总轮数;步骤s32:对于每轮实际探索过程,初始化,然后执行从起始节点到目的节
点的数据接续转发选择,获取相应实际探索轮数最终的;具体地,对于每轮实际探索过程,执行:若实际探索轮数不超过稳定探索轮数,保持;若实际探索轮数在稳定探索轮数到探索总轮数之间,更新为;若实际探索轮数大于探索总轮数,此时所有实际探索轮数探索过程结束,跳转到步骤s33;给定状态为起始状态,在起始状态中,起始节点的工作状态表示为1,其余网络节点的工作状态表示为0;初始化状态函数和效用迹,初始化历史列表;从起始节点开始,每一步数据接续转发选择过程均执行以下操作:智能体根据策略在状态下选择动作,得到奖赏函数和下一步状态,并获取状态下可选的动作;更新,表示状态下选择的动作为状态下的最优数据接续转发路径上的下一跳网络节点;将加入历史列表;更新td误差参数,表示奖赏的衰减率;对于历史列表中的:更新;更新;表示学习率;更新为;若更新后的状态为目的节点对应的状态(目的节点的工作状态为1,其余网络节点的工作状态表示为0),存储当前实际探索轮数最终的,实际探索轮数加1,然后跳转到步骤s32;否则,跳转到下一步数据接续转发选择过程中;步骤s33:选取存储的所有实际探索轮数最终的的最大值()对应的、从起始节点到目的节点的数据接续转发选择过程,实现数据在网络实体中的接续转发。
44.在上述步骤s3中,为了探索与利用相平衡,使用策略作为算法每次动作选择的策略。在资源选择和优化问题中,计算出错即没有找到正确转发路径的代价较高,因此需要首要保证路径能够顺利找到,在学习的初期保持一个较高的探索率尽可能多的探索更多路线,在学习的后期则以低探索率加速状态的收敛。为了保证算法的稳定性,策略的探索率在一定的训练次数后按比例衰减,具体衰减系数为0.97。保持探索率不变的训练轮数我们称之为稳定探索轮数。传统q-learning中使用的是常值探索率的策略,因此在其它参数相同时,使用较大的初始探索率会导致算法更难收敛,且获得稳定策略所需的收敛次数增加,因此需要避免使用较高的初始探索率。本算法使用的衰减机制使算法在训练早期以较大的初始探索率进行学习,并快速衰减。学习率、初始探索
率、稳定探索轮数对算法找到最优策略的概率和收敛次数均有影响。
45.综上所示,本实施例提供的基于集中式强化学习的网络接续转发选择方法,通过建模集中式强化学习模型,并优化该模型中智能体、状态、动作及奖赏函数的设置,并通过优化集中式强化学习模型的运行过程,能够有效提高资源利用率,有效解决了现有网络数据接续方法存在的资源利用率较低。此外,由于在每一网络节点均要进行择优选择,很好地解决了现有方式容易陷入局部最优陷阱的问题。
46.本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
47.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

技术特征:
1.一种基于集中式强化学习的网络数据接续转发选择方法,其特征在于,包括:将网络实体映射成网络数字孪生体;所述网络数字孪生体包括中央控制器、由若干网络节点和边形成的网络拓扑结构;在网络数字孪生体中,中央控制器利用集中式强化学习算法对网络拓扑结构中的数据接续转发选择过程进行建模,得到集中式强化学习模型;当中央控制器接收到数据接续转发选择请求时,运行集中式强化学习模型,实现数据在网络实体中的接续转发。2.根据权利要求1所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,在所述集中式强化学习模型中,抽象所述中央控制器为智能体;抽象环境为所述网络拓扑结构建模成的加权有向图;抽象状态空间为所述网络拓扑结构中所有网络节点的工作状态的集合;抽象动作空间为数据转发到的网络节点可达的邻居网络节点构成的集合;以最小化路径拥塞为目标设计奖赏函数。3.根据权利要求2所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,在所述状态空间中,对于每一网络节点,当数据转发到该网络节点时,工作状态为繁忙,用“1”表示;当数据未转发到该网络节点时,工作状态为空闲,用“0”表示。4.根据权利要求3所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,数据在网络节点选择动作时的奖赏函数设置如下:
ꢀꢀꢀꢀꢀꢀ
(1)其中,网络节点选择动作的含义是:网络节点选择网络节点作为下一跳网络节点;为一个平衡常数,为从网络节点到目的节点的最短接续转发路径上的网络节点的总数,表示从网络节点到目的节点的最短接续转发路径的瓶颈资源量,表示数据从网络节点传输到网络节点所付出的代价。5.根据权利要求4所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,数据接续转发选择请求至少包括起始节点和目标节点。6.根据权利要求5所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,所述运行集中式强化学习模型,执行:初始化数据接续转发选择过程的起始节点和目标节点;对于每轮实际探索过程,初始化,然后执行从起始节点到目的节点的数据接续转发选择,获取相应实际探索轮数最终的;所有实际探索轮数探索过程结束后,选取存储的所有实际探索轮数最终的的最大值对应的、从起始节点到目的节点的数据接续转发选择过程,实现数据在网络实体中的接续转发。7.根据权利要求6所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,初始化数据接续转发选择过程的起始节点和目的节点的同时,还初始化稳定探索轮
数、探索总轮数及探索概率,初始化学习率和奖赏的衰减率;初始化实际探索轮数为1;稳定探索轮数小于探索总轮数。8.根据权利要求7所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,对于每轮实际探索过程,执行:若实际探索轮数不超过稳定探索轮数,保持;若实际探索轮数在稳定探索轮数到探索总轮数之间,更新为;若实际探索轮数大于探索总轮数,所有实际探索轮数探索过程结束;给定状态为起始状态,初始化状态函数和效用迹,初始化历史列表;从起始节点开始,每一步数据接续转发选择过程均执行以下操作:智能体根据策略在状态下选择,得到奖赏函数和下一步状态,并获取状态下可选的动作;更新,表示状态下选择的动作为状态下的最优数据接续转发路径上的下一跳网络节点;将历史列表;更新td误差参数;对于历史列表中的:更新;更新;更新为;若更新后的状态为目的节点对应的状态,存储当前实际探索轮数最终的,实际探索轮数加1,然后跳转到下一轮实际探索过程;否则,跳转到下一步数据接续转发选择过程中。9.根据权利要求8所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,在所述起始状态中,起始节点的工作状态表示为1,其余网络节点的工作状态表示为0。10.根据权利要求9所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,当更新后的状态为目的节点对应的状态时,目的节点的工作状态为1,其余网络节点的工作状态表示为0。

技术总结
本发明涉及一种基于集中式强化学习的网络数据接续转发选择方法,属于网络路径选择技术领域,解决了现有网络数据接续方法存在的资源利用率较低、容易陷入局部最优陷阱的问题。该方法包括:将网络实体映射成网络数字孪生体;所述网络数字孪生体包括中央控制器、由若干网络节点和边形成的网络拓扑结构;在网络数字孪生体中,中央控制器利用集中式强化学习算法对网络拓扑结构中的数据接续转发选择过程进行建模,得到集中式强化学习模型;当中央控制器接收到数据接续转发选择请求时,运行集中式强化学习模型,实现数据在网络实体中的接续转发。转发。转发。


技术研发人员:杨以杰 杨振亚
受保护的技术使用者:安世亚太科技股份有限公司
技术研发日:2023.06.26
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐