服务决策方法以及服务决策装置与流程

未命名 09-22 阅读:65 评论:0


1.本技术涉及人工智能技术领域,特别是涉及一种服务决策方法以及服务决策装置。


背景技术:

2.随着计算机技术的发展,越来越多的终端设备出现在人们的日常生活中。终端中通常会安装很多应用程序,用户在使用终端中安装的应用程序时,需要越来越多的计算资源或带宽来满足计算需求,因此,产生了mec(mobile edge computing,移动边缘计算技术),即终端在需要计算某项资源需求较大的任务时,可以将任务卸载至mec服务器中,从而减轻终端的计算负担,降低任务执行的时延和能耗。
3.在偏远地区,通常由具有mec功能的无人机服务器对该地区的终端提供移动边缘计算服务,实际场景中,多个无人机服务器为同一地区提供移动边缘计算服务时,各无人机服务器的覆盖区域存在重叠覆盖,多个无人机服务器为重叠区域内终端提供移动边缘计算服务时,存在资源浪费的问题。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高资源利用率的服务决策方法以及服务决策装置。
5.第一方面,本技术提供了一种服务决策方法。该方法用于目标无人机服务器,该目标无人机服务器与其他无人机服务器之间存在重叠覆盖区域。该方法包括:接收终端发送的任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息;若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终端标识将目标决策指令发送至终端;其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。
6.在其中一个实施例中,根据任务请求以及目标决策网络生成目标决策指令,包括:获取目标无人机服务器当前的状态信息;将状态信息和任务请求作为目标无人机服务器的当前环境观测数据输入至目标决策网络中,得到目标决策网络输出的决策数据,决策数据包括目标无人机服务器针对任务请求的动作决策信息、目标无人机服务器针对任务请求分配的计算资源、带宽以及预计执行时延;根据决策数据生成目标决策指令。
7.在其中一个实施例中,状态信息包括目标无人机服务器的服务器位置信息、目标无人机服务器当前的可用资源信息、目标无人机服务器当前的可用带宽信息以及目标无人
机服务器与重叠覆盖区域对应的覆盖用户数量。
8.在其中一个实施例中,在目标决策指令指示目标无人机服务器向终端提供服务的情况下,该方法还包括:接收终端基于目标决策指令发送的任务数据,并根据目标决策指令对任务数据进行任务处理,以向终端提供任务请求对应的服务。
9.在其中一个实施例中,该方法还包括:在多个训练时隙中,基于各训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到目标决策网络,初始样本环境观测数据包括样本任务请求以及样本状态信息。
10.在其中一个实施例中,基于各训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到目标决策网络,包括:在目标训练时隙中,对于一次迭代过程,将迭代过程对应的第一中间样本环境观测数据输入至中间决策网络,得到中间决策网络输出的中间决策数据;将中间决策数据输入至少一个评价网络中,得到评价网络输出的针对中间决策数据的评价值,评价值是基于针对中间决策数据的目标奖惩值确定的;根据评价值调整评价网络的网络参数,以使各训练时隙中的多次迭代过程结束后得到目标决策网络。
11.在其中一个实施例中,将中间决策数据输入至少一个评价网络中,得到评价网络输出的针对中间决策数据的评价值之后,该方法还包括:获取第二中间样本环境观测数据,第二中间样本环境观测数据为第一中间样本环境观测数据所对应的迭代过程的下一轮迭代过程的样本环境观测数据;将第一中间样本环境观测数据、中间决策数据、目标奖惩值以及第二中间样本环境观测数据作为第一中间样本环境观测数据所对应的迭代过程的经验值存入经验池中;其中,经验池中包括目标无人机服务器以及其他无人机服务器对应的各经验值。
12.在其中一个实施例中,该方法还包括:在目标训练时隙中的多次迭代过程结束后,基于经验池中的各经验值调整中间决策网络的网络参数,以得到目标决策网络。
13.在其中一个实施例中,将中间决策数据输入至少一个评价网络中,得到评价网络输出的针对中间决策数据的评价值,包括:将中间决策数据输入至少一个评价网络中,得到多个奖惩约束条件对应的奖惩值,其中,奖惩约束条件包括目标无人机服务器服务用户数量的限制条件、目标无人机服务器分配计算资源的限制条件、目标无人机服务器分配带宽的限制条件、目标无人机服务器任务执行时延的限制条件以及各训练时隙对应的时延限制条件中的至少一种;根据各奖惩值获取针对中间决策数据的目标奖惩值,并根据目标奖惩值获取评价值。
14.在其中一个实施例中,评价网络包括第一评价网络和第二评价网络,评价值包括第一评价网络输出的第一评价值以及第二评价网络输出的第二评价值,根据评价值调整评价网络的网络参数,还包括:对第一评价值和第二评价值进行大小比较,并将第一评价值和第二评价值中的最
小评价值作为当前评价值;获取当前评价值与目标评价值之前的误差结果,并利用差分学习的方式,基于误差结果调整第一评价网络的网络参数以及调整第二评价网络的网络参数。
15.第二方面,本技术提供了一种服务决策方法。该方法用于终端,终端处于多个无人机服务器的重叠覆盖区域内。该方法包括:向各无人机服务器发送任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息;接收各无人机服务器发送的决策指令,并按照各决策指令指示的无人机服务器是否向终端提供任务请求对应的服务,从各无人机服务器中选取一个服务器提供服务;其中,决策指令是无人机服务器根据任务请求以及目标决策网络生成的。
16.第三方面,本技术提供了一种服务决策装置。该装置用于目标无人机服务器,目标无人机服务器与其他无人机服务器之间存在重叠覆盖区域。该装置包括:接收模块,用于接收终端发送的任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息;决策模块,若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终端标识将目标决策指令发送至终端;其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。
17.第四方面,本技术提供了一种服务决策装置。该装置用于终端,终端处于多个无人机服务器的重叠覆盖区域内。该装置包括:发送模块,用于向各无人机服务器发送任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息;接收模块,用于接收各无人机服务器发送的决策指令,并按照各决策指令指示的无人机服务器是否向终端提供任务请求对应的服务,从各无人机服务器中选取一个服务器提供服务;其中,决策指令是无人机服务器根据任务请求以及目标决策网络生成的。
18.第五方面,本技术还提供了一种计算机设备。该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上述第一方面或第二方面的方法的步骤。
19.第六方面,本技术还提供了一种计算机可读存储介质。该计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面或第二方面该的方法的步骤。
20.第七方面,本技术还提供了一种计算机程序产品。该计算机程序产品,包括计算机程序,该计算机程序被处理器执行被处理器执行时实现第一方面或第二方面的方法的步骤。
21.上述服务决策方法以及服务决策装置,通过接收终端发送的任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息,然后,若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终
端标识将目标决策指令发送至终端,其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。这样,重叠覆盖区域对应的各个无人机服务器(包含目标无人机服务器与其他无人机服务器)接收到的终端的任务请求后,并不是直接向终端提供该任务请求对应的服务,而是基于训练好的目标决策网络生成决策指令,该决策指令用于指示对应的无人机服务器是否向终端提供该任务请求对应的服务,终端在收到各个无人机服务器发送的决策指令后,从各个无人机服务器中仅选择一个能够为其提供该任务请求对应的服务器进行交互,避免传统技术中重叠覆盖区域内的终端所发出的任务请求会被多个无人机服务器服务的情况,本技术实施例提高了资源利用率。
附图说明
22.图1为一个实施例中服务决策方法的实施环境图;图2为一个实施例中服务决策方法的流程示意图;图3为另一个实施例中各无人机服务器与终端的重叠覆盖示意图;图4为另一个实施例中步骤202的流程示意图;图5为另一个实施例在目标训练时隙中迭代训练决策网络的流程示意图;图6为另一个实施例中在步骤502之后将迭代过程对应的经验值存入经验池的流程示意图;图7为另一个实施例中调整评价网络的网络参数的流程示意图;图8为另一个实施例中训练获得目标决策网络的整体流程示意图;图9为一个实施例中应用于终端的服务决策方法的流程示意图;图10为一个实施例中应用于目标无人机服务器的服务决策装置的结构框图;图11为另一个实施例中应用于终端的服务决策装置的结构框图;图12为一个实施例中计算机设备的内部结构图;图13为另一个实施例中计算机设备的内部结构图。
具体实施方式
23.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
24.随着计算机技术的发展,人们在使用如视频监控、自动驾驶、自动游戏等应用程序时,需要越来越多的计算资源或带宽来满足计算需求,因此,产生了mec(mobile edge computing,移动边缘计算技术),即用户在需要计算某项资源需求较大的任务时,可以将任务卸载至mec服务器中,从而减轻用户终端的计算负担,降低任务执行的时延和能耗。
25.无人机(unmanned aerial vehicle/drone,uav),具有视距通信能力,能够被灵活部署,因此,在偏远地区,通常由具有mec功能的无人机服务器对该地区的用户提供移动边缘计算服务,使得能够接受服务的覆盖区域的范围更大。然而,实际应用场景中,多个无人机服务器为同一地区提供服务时,各无人机服务器的覆盖区域存在重叠覆盖,当重叠覆盖
区域内的用户终端发出任务请求时,会出现多个无人机服务器响应该用户的任务请求的情况,导致资源利用率下降。
26.鉴于此,本技术实施例提供了一种服务决策方法,通过接收终端发送的任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息,然后,若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终端标识将目标决策指令发送至终端,其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。这样,重叠覆盖区域对应的各个无人机服务器(包含目标无人机服务器与其他无人机服务器)接收到的终端的任务请求后,并不是直接向终端提供该任务请求对应的服务,而是基于训练好的目标决策网络生成决策指令,该决策指令用于指示对应的无人机服务器是否向终端提供该任务请求对应的服务,终端在收到各个无人机服务器发送的决策指令后,从各个无人机服务器中仅选择一个能够为其提供该任务请求对应的服务器进行交互,避免传统技术中重叠覆盖区域内的终端所发出的任务请求会被多个无人机服务器服务的情况,本技术实施例提高了资源利用率。
27.本技术实施例提供的服务决策方法,可以应用于如图1所示的实施环境中。其中,终端102通过网络与多个无人机服务器104进行通信。其中,终端102的数量为至少1个,各终端102处于多个无人机服务器104的重叠覆盖区域内,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备、无人机等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。无人机服务器104具有移动边缘计算功能,无人机服务器104有多个,且覆盖区域重叠,可以用独立的服务器或者是多个无服务器组成的服务器集群来实现。
28.在一个实施例中,如图2所示,提供了一种服务决策方法,以该方法应用于图1中的一个无人机服务器104为例进行说明,以下,为了描述方便,将该无人机服务器104称之为目标无人机服务器,该目标无人机服务器可以是图1所示的多个无人机服务器104中的任意一个无人机服务器104。所述方法包括以下步骤:步骤201,接收终端发送的任务请求。
29.本技术实施例中,目标无人机服务器与其他无人机服务器之间存在重叠覆盖区域。如图3所示,当多个无人机服务器对一片区域提供任务服务时,各无人机服务器之间存在重叠覆盖区域,重叠覆盖区域内的各终端(包括空中用户终端和地面用户终端)与多个无人机服务器之间存在关联,因此,当重叠覆盖区域内的某个终端需要进行任务卸载时,其关联的多个无人机服务器会接收到终端发送的任务请求。
30.其中,任务请求包括终端的终端标识、终端位置信息以及任务信息。关于终端位置信息,可选地,可以是终端所处的经纬度信息;可选地,对重叠覆盖区域建立三维坐标系,终端位置信息即终端在该三维坐标系中的坐标。任务信息用于表征终端当前需要进行任务服务的任务的多维度信息,包括但不限于该任务的数据大小、计算强度、最大容许时延等,计算强度是目标无人机服务器执行1bit的任务时所需要的计算资源。在此,对于任务信息所包括的内容不作限定。
31.目标无人机服务器在接收到任务请求后,可以根据终端标识确定需要提供任务服务的终端,可以根据终端位置信息确定终端的位置,根据任务信息确定任务所需要的资源。
32.关于目标无人机服务器接收终端发送的任务请求的方式,可选地,目标无人机服务器实时接收终端发送的任务请求;可选地,目标无人机服务器先获取空闲的资源量,示例性地,空闲的带宽、空闲的计算资源等,当目标无人机服务器的带宽和计算资源都被占用,则目标无人机服务器不接收任何终端所发送的任务请求,当目标无人机服务器具有空闲的带宽和计算资源时,则接收终端发送的任务请求。在此,对于目标无人机服务器接收终端发送的任务请求的方式不作限定。
33.步骤202,若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终端标识将目标决策指令发送至终端。
34.如图3所示,对于目标无人机服务器,其覆盖区域范围包括重叠覆盖区域与非重叠覆盖区域。
35.在一种可能的实施方式中,目标无人机服务器需要先对终端的位置信息进行判断,若该终端位置信息处于重叠覆盖区域中,目标无人机服务器再根据任务请求以及目标决策网络生成目标决策指令。
36.目标决策网络,是预先训练好的神经网络,用于根据任务请求进行分析,以得到目标决策指令,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务。
37.本技术实施例中,目标决策网络可以是联合重叠覆盖区域对应的各个无人机服务器训练得到的,在训练过程中,可以通过相应的约束条件,使得各个无人机服务器充分学习在接收到重叠覆盖区域的终端发送的任务请求后仅由一个无人机服务器提供服务。
38.关于生成目标决策指令时的约束条件所包括的内容,示例性地,目标无人机服务器的空闲计算资源大于任务请求所对应的任务必须的计算资源;示例性地,目标无人机服务器的空闲带宽资源大于任务请求所对应的任务必须的带宽资源;示例性地,目标无人机服务器对任务请求所对应的任务进行执行时,执行时延小于任务的容许时延。在此,对于约束条件所包括的内容不作限定。
39.这样,在实际的服务决策过程中,当目标无人机服务器根据任务请求以及目标决策网络获得目标决策指令后,能够确定是否要对任务请求对应的终端提供任务服务,可选地,当目标无人机服务器根据任务请求确定可用资源满足约束条件时,则生成的目标决策指令指示目标无人机服务器向终端提供服务;可选地,当目标无人机服务器根据任务请求确定可用资源不满足约束条件时,则生成的目标决策指令指示目标无人机服务器不向终端提供服务。
40.针对重叠覆盖区域的终端发送的任务请求,重叠覆盖区域对应的各个无人机服务器(即包含目标无人机服务器与其他无人机服务器)中只有一个无人机服务器的决策指令为向终端提供任务请求对应的服务,而其他无人机服务器的决策指令均为禁止向终端提供任务请求对应的服务。
41.目标无人机服务器根据任务请求和目标决策网络所生成目标决策指令,目标无人机服务器根据任务请求所包含的任务标识,将目标决策指令发送至对应的终端,该目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人
机服务器和其他无人机服务器中选取一个服务器提供服务。
42.终端在接收到重叠覆盖区域对应的各个无人机服务器发送的决策指令后,解析各个决策指令,则可以确定能够为其提供该任务请求对应的服务器,终端与该服务器进行服务交互来获取该服务,例如,终端可以向该服务器上传任务数据。
43.在另一种可能的实施方式中,目标无人机服务器根据任务请求所包括的终端位置信息进行判断,确定终端所在的位置不处于重叠覆盖区域内,此时,该终端关联的无人机服务器仅有目标无人机服务器,此时,目标无人机服务器不需要进行决策判断,直接对该终端所发送的任务请求进行响应。
44.上述服务决策方法,通过接收终端发送的任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息,然后,若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终端标识将目标决策指令发送至终端,其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。这样,目标无人机服务器根据接收到的终端的任务请求后,先基于训练好的目标决策网络生成目标决策指令,然后根据目标决策指令以确定是否要为终端提供对应的服务,而非传统技术中直接对发出任务请求的个终端进行任务响应,避免出现重叠覆盖区域内的终端所发出的任务请求被多个无人机服务器服务的情况,提高了资源利用率。
45.在一个实施例中,基于图2所示的实施例,参见图4,本技术实施例涉及的是根据任务请求以及目标决策网络生成目标决策指令的过程。如图4所示,步骤202包括步骤401至步骤403。
46.步骤401,获取目标无人机服务器当前的状态信息。
47.由于目标无人机服务器所覆盖的区域包括重叠覆盖区域以及非重叠覆盖区域,而对于非重叠覆盖区域内的终端,目标无人机服务器会直接响应其发送的任务请求,因此当目标无人机服务器获取到重叠覆盖区域内的终端所发送的任务请求时,其内部资源可能存在被占用的状态,因此,目标无人机服务器需要获取到当前的状态信息。
48.在一种可能的实施方式中,状态信息能够反映目标无人机服务器资源当前被占用的情况,当目标无人机服务器获取到终端发送的任务请求后,需要根据自身当前的状态信息判断能否为终端提供服务。在一种可能的实施方式中,状态信息包括目标无人机服务器的服务器位置信息、目标无人机服务器当前的可用资源信息、目标无人机服务器当前的可用带宽信息以及目标无人机服务器与重叠覆盖区域对应的覆盖用户数量。对于如何获取状态信息,示例性地,针对目标无人机服务器当前可用带宽资源的确定,目标无人机服务器获取最大带宽资源,然后获取当前被占用的最大带宽资源,用最大带宽资源减去被占用的最大带宽资源即可确定当前可用带宽资源;示例性地,针对目标无人机服务器当前可用计算资源的确定,目标无人机服务器获取当前空闲的计算资源即当前可用计算资源。在此,对于状态信息的获取方式不作限定。
49.步骤402,将状态信息和任务请求作为目标无人机服务器的当前环境观测数据输入至目标决策网络中,得到目标决策网络输出的决策数据。
50.关于当前环境观测数据包括的任务请求,是重叠覆盖区域内的终端发送的任务请
求,其数量根据重叠覆盖区域内的终端数量确定,而当前环境观测数据包括当前目标无人机服务器所接收到的所有任务请求。
51.当目标无人机服务器获取到状态信息以及重叠覆盖区域内的终端发送的任务请求后,将二者作为当前环境观测数据输入至目标决策网络,目标决策网络针对当前环境观测数据输出决策数据,该决策数据用于表征目标无人机服务器对当前接收到的所有任务请求的响应决策。其中,决策数据包括目标无人机服务器针对任务请求的动作决策信息、目标无人机服务器针对任务请求分配的计算资源、带宽以及预计执行时延。
52.动作决策信息用于表征目标无人机服务器是否要对任务请求对应的终端提供服务,目标无人机服务器针对任务请求分配的计算资源、带宽以及预计执行时延都是基于任务请求所包括的任务信息确定的,预计执行时延是目标无人机服务器执行任务请求对应的任务时可能需要的时延。
53.对于如何确定目标无人机服务器针对任务请求分配的算资源、带宽以及预计执行时延,以下给出示例性的介绍:1)关于分配的计算资源的确定过程:针对目标无人机服务器,对于时隙t的情况下,获取到其最大的可利用计算资源为f
max
(t),然后,获取其当前被占用的计算资源为f
l
(t),则目标无人机服务器可分配给任务请求的计算资源f(t)的计算公式为:f(t)=f
max
(t)
ꢀ‑ꢀfl
(t)
ꢀꢀꢀ
(1)2)关于分配的带宽的确定过程:针对目标无人机服务器,对于时隙t的情况下,获取到其最大的可利用计算资源为b
max
(t),然后,获取其当前被占用的计算资源为b
l
(t),则目标无人机服务器可分配给任务请求的计算资源b(t)的计算公式为:b(t)=b
max
(t)
ꢀ‑ꢀbl
(t)
ꢀꢀꢀ
(2)3)关于预计执行时延的确定过程:当目标无人机服务器确定为任务请求对应的终端提供服务时,整体的执行时延分为三部分:上行传输时延、计算时延以及下行传输时延。关于下行传输时延,由于目标无人机服务器确定为任务请求对应的终端提供服务后,通常情况下,服务后得到的下行任务数据规模较小,下行传输速率高,因此,下行传输时延可以忽略不计,在此确定预计执行时延时只计算上行传输时延与计算时延。
54.a、上行传输时延的确定。
55.根据任务请求,目标无人机服务器可以确定终端位置信息,在重叠覆盖区域内设置一个三维坐标系,关于终端位置信息,可以是一个坐标(x,y,z),目标无人机服务器可以确定自身的位置坐标(x1,y1,h),则终端与目标无人机服务器视距链路传输时的路径仰角θ的计算公式如下:θ = 180/πarcsin( h / d )
ꢀꢀꢀ
(3)其中,d是目标无人机服务器与终端之间的距离。
56.关于上行传输时延是根据分配的带宽以及上传时的路径损耗确定的,针对重叠覆盖区域内的终端,可能是地面用户终端也可能是空中用户终端。对于地面用户终端,目标无人机服务器接收终端上传的任务相关数据时,分为视距链路传输los以及非视距链路传输
nlos;对于空中用户终端,目标无人机服务器接收终端上传的任务相关数据时仅包括视距链路传输los。
57.a、针对地面用户终端的上传路径损耗的计算:则目标无人机服务器与终端之间进行视距链路传输的概率为: (4)其中,a和b是环境相关的常数。
58.根据视距链路传输的概率计算非视距链路传输的概率的公式为:p
nlos
= 1
ꢀ‑ꢀ
p
los
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)对于视距链路传输所产生的平均路径损耗h
los
的计算公式为: (6)对于非视距链路传输所产生的平均路径损耗h
nlos
的计算公式为:(7)其中,fc为载波频率,c为光速,
ƞ
los

ƞ
nlos
分别为los和nlos链路的阴影衰落因子。
59.因此,目标无人机服务器与地面用户终端之间的上传路径损耗g为:
ꢀꢀ
(8)b、针对空中用户终端的上传路径损耗的计算: (9)c、根据上传路径损耗确定上行传输时延:首先,对于上行传输的平均速率r进行计算:
ꢀꢀꢀ
(10)其中,p是终端的传输速率,n0是高斯白噪声的功率。
60.则上行传输时延τ
trans
(t)的计算公式为:
ꢀꢀ
(11)其中,d(t)是目标无人机服务器接收到的任务数据的大小。
61.b、计算时延的确定:计算时延τ
com
(t)基于目标无人机服务器当前可用的计算资源f(t)确定,计算公式如下: (12)其中,m是任务请求对应的计算强度。
62.综上,可以确定预计执行时延τ(t)是上行传输时延与计算时延的和:
ꢀꢀ
(13)步骤403,根据决策数据生成目标决策指令。
63.目标无人机服务器基于目标决策网络与当前环境观测数据得到决策数据后,即可确定是否对任务请求对应的终端提供服务,此时,根据决策数据生成目标决策指令,目标决
策指令包括但不仅限于目标无人机服务器的标识、动作决策信息等。
64.这样,在上述实施例中,目标无人机服务器基于目标决策网络与当前环境观测数据得到决策数据,以确定是否对任务请求对应的终端提供服务,并基于决策数据生成目标决策指令,以提示终端是否要提供服务,使得终端能够对各服务器进行筛选,避免了传统技术中多个服务器在接收到终端发送的任务请求后直接响应并向服务器提供服务,提供了资源利用率。
65.在一个实施例中,基于图2所示的实施例,本技术实施例涉及的是在目标决策指令指示目标无人机服务器向终端提供服务的情况下,服务决策方法还包括:接收终端基于目标决策指令发送的任务数据,并根据目标决策指令对任务数据进行任务处理,以向终端提供任务请求对应的服务。
66.当目标无人机服务器将目标决策指令发送至任务请求对应的终端后,终端会根据目标决策指令确定目标无人机服务器向其提供服务,此时,终端将任务请求对应的任务数据进行上传,目标无人机服务器即可根据目标决策指令对应的决策数据对该任务提供对应的服务,示例性地,分配计算资源、带宽资源等。
67.这样,在上述实施例中,对于目标无人机服务器如何执行目标决策指令作了解释。
68.在一个实施例中,基于图4所示的实施例,本技术实施例涉及的是训练神经网络得到目标决策网络的过程,该过程包括:在多个训练时隙中,基于各训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到目标决策网络。
69.初始决策网络是未训练好的决策网络,在一种可能的实施方式中,多个与重叠覆盖区域相关的无人机服务器协同训练该初始决策网络。针对目标无人机服务器,在一种可能的实施方式中,预设训练时隙的轮数,目标无人机服务器通过在多轮训练时隙中,基于各轮训练时隙所对应的初始样本环境观测数据对初始决策网络进行迭代训练,每一轮训练时隙包括多次迭代训练过程。
70.其中,初始样本环境观测数据包括样本任务请求以及样本状态信息。初始样本环境观测数据是随机生成的,关于其中的样本任务请求,数量至少为1,各样本任务请求对应一个重叠覆盖区域内的终端,关于样本状态信息,至少包括目标无人机服务器的样本服务器位置信息、样本当前可用资源信息、样本当前可用带宽信息以及重叠覆盖区域对应的覆盖终端数量,对于其中的可用资源信息以及可用带宽信息的是随即确认的,以下对于确认过程做出示例性的解释。
71.4)样本当前可用资源信息的确定。
72.目标无人机服务器首先获取最大可用资源信息为f
max
(t),然后确定目标无人机服务器样本被占用资源信息f
l
(t)。对目标无人机服务器分配给非重叠覆盖区域内用户终端的资源信息建模为独立同分布、参数为的泊松过程,则对于关于f
l
(t)的计算公式为:
ꢀꢀꢀ
(14)其中,f
un
是单位计算资源。
73.则用最大可用资源信息减去样本被占用资源信息即可得到样本当前可用资源信息f
样本
(t):f
样本
(t)=f
max
(t)
ꢀ‑ꢀfl
(t)
ꢀꢀꢀ
(15)5)样本当前可用带宽的确定。
74.目标无人机服务器首先获取最大可用带宽信息为b
max
(t),然后确定目标无人机服务器样本被占用带宽信息b
l
(t)。对目标无人机服务器分配给非重叠覆盖区域内用户终端的带宽信息建模为独立同分布、参数为的泊松过程,则对于关于b
l
(t)的计算公式为:
ꢀꢀꢀ
(16)其中,b
un
是单位带宽资源。
75.则用最大可用带宽信息减去样本被占用带宽信息即可得到样本当前可用带宽信息b
样本
(t):b
样本
(t)=b
max
(t)
ꢀ‑ꢀbl
(t)
ꢀꢀꢀ
(17)这样,在上述实施例中,目标无人机服务器基于各轮训练时隙所对应的初始样本环境观测数据对初始决策网络进行迭代训练,经过多轮训练时隙后得到性能良好的目标决策网络。
76.在一个实施例中,本技术实施例涉及的是基于各训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到目标决策网络过程,如图5所示,该过程包括步骤501至步骤503。
77.步骤501,在目标训练时隙中,对于一次迭代过程,将迭代过程对应的第一中间样本环境观测数据输入至中间决策网络,得到中间决策网络输出的中间决策数据。
78.对于一轮训练时隙,包括多次迭代过程。对于当前的目标训练时隙,针对其中一次迭代过程,目标无人机服务器将此迭代过程对应的第一中间样本环境观测数据输入至中间决策网络,中间决策网络基于第一中间样本环境观测数据输出对应的中间决策数据。
79.步骤502,将中间决策数据输入至少一个评价网络中,得到评价网络输出的针对中间决策数据的评价值。
80.评价网络,是用于对决策数据进行评价的神经网络。目标无人机服务器将决策数据输入至评价网络中后,会得到与决策数据对应的评价值,其中,评价值是基于针对中间决策数据的目标奖惩值确定的。目标奖惩值是目标无人机服务器基于多个奖惩约束条件对中间决策数据进行判断确定的,在一种可能的实施方式中,目标无人机服务器将中间决策数据输入至少一个评价网络中,得到多个奖惩约束条件对应的奖惩值,其中,奖惩约束条件包括目标无人机服务器服务用户数量的限制条件、目标无人机服务器分配计算资源的限制条件、目标无人机服务器分配带宽的限制条件、目标无人机服务器任务执行时延的限制条件以及各训练时隙对应的时延限制条件中的至少一种。
81.对于目标无人机服务器如何基于多个奖惩约束条件对中间决策数据进行判断以获得对应的目标奖惩值的过程,在此作出示例性的解释:6)目标无人机服务器服务用户数量的限制条件。
82.在一种可能的实施方式中,在重叠覆盖区域关联的无人机服务器,在同一时刻,只能为一个终端提供服务器,而一个终端只能接受一个无人机服务器的服务,当一对一的关系出现误差时,当一个终端被多个无人机服务器响应时,则表示响应的无人机服务器决策失误,或者,当一个终端没有被人无人机服务器响应时,则表示重叠覆盖区域所关联的多个无人机服务器决策失误。
83.基于以上的奖惩约束条件,针对目标无人机服务器根据中间决策网络所输出的中间决策数据,需要先确定目标无人机服务器针对接收到的多个任务请求共响应了几个终
端,然后,确定根据其他协同训练的无人机服务器输出的中间决策数据确定一个终端有被几个无人机服务器服务。
84.在一种可能的实施方式中,设处于重叠覆盖区域的用户终端集合为j={1,2,
……
,j},重叠覆盖区域所关联的无人机服务器有m个,无人机服务器的集合为m={1,2,
……
,m},在某一时间,中间决策数据内关于目标无人机服务器m对于终端j的相应情况通过二进制变量α
mj
(t)表示,当α
mj
(t)=1时,表示目标无人机服务器m服务该j号终端,当α
mj
(t)=0时,则表示目标无人机服务器m不服务服务该j号终端。则目标无人机服务器m服务终端数量的限制条件所对应的约束关系通过以下公式表示: (18)公式(18)代表终端j没有被任何无人机服务器响应。
85.ꢀꢀ
(19)公式(19)代表终端j被目标无人机服务器m响应的情况下,还被其他的无人机服务器响应。当重叠覆盖区域所关联的多个无人机服务器输出的中间决策数据满足(18)或(19)两个公式时,则表示对应的无人机服务器决策失误,获得对应的惩罚值。
86.7)目标无人机服务器分配带宽的限制条件。
87.在一种可能的实施方式中,相关约束条件为当目标无人机服务器分配给终端的计算资源大于目标无人机服务器的可用资源时决策失误,根据公式(1)到公式(19),对该约束条件进行表示:
ꢀꢀꢀ
(20)其中,b
mj
(t)表示目标无人机服务器分配给终端j的计算资源,bm(t)表示目标无人机服务器的当前可用计算资源,公式(20)用于表示目标无人机服务器分配给各终端的计算资源大于当前可分配计算资源的情况,当目标无人机服务器的中间决策数据满足公式(20)时,则表示目标无人机服务器决策失误,获得对应的惩罚值。
88.8)目标无人机服务器分配计算资源的限制条件。
89.在一种可能的实施方式中,设置相关约束条件为当目标无人机服务器分配给终端的带宽大于目标无人机服务器的可用带宽时,则表明目标无人机服务器的决策失误,根据公式(1)到公式(20),对该约束条件的表示如下:
ꢀꢀꢀ
(21)其中,f
mj
(t)表示目标无人机服务器分配给终端j的带宽,fm(t)表示目标无人机服务器的当前可用带宽,公式(21)用于表示目标无人机服务器分配给各终端的带宽大于当前可分配带宽的情况,当目标无人机服务器的中间决策数据满足公式(21)时,则表示目标无人机服务器决策失误,获得对应的惩罚值。
90.9)目标无人机服务器任务执行时延的限制条件。
91.在一种可能的实施方式中,设置相关约束条件为当目标无人机服务器m执行终端j的任务的执行时延小于该任务的最大容许时延时,表示目标无人机服务器m服务成功,获取对应的奖励值,否则,服务失败,获取对应的惩罚值;在执行时延小于任务的最大容许时延时,执行时延越短,奖励值越高,在执行时延大于任务的最大容许时延时,执行时延越长,惩
罚值越高。
92.在一种可能的实施方式中,对于目标无人机服务器m任务执行时延的限制条件所对应的奖惩值r
l
(t)的计算函数如下所示:
ꢀꢀ
(22)其中,τj(t)表示目标无人机服务器执行终端j对应的任务的预计执行时延,δj(t)表示终端j对应的任务的最大容许时延,公式(22)表示当目标无人机服务器m进行任务执行时,执行时延小于最大容许时延,此时奖励值为正数,且执行时延越短,奖励值越高;当执行时延大于最大容许时延,此时奖励值为正负数,即惩罚值,执行时延越长,惩罚值值越高。
93.综上,即可得到各奖惩约束条件对应的各奖惩值,然后,目标无人机服务器根据各奖惩值获取针对中间决策数据的目标奖惩值,并根据目标奖惩值获取评价值。
94.10)关于目标奖惩值的确定,在一种可能的实施方式中,根据不同的奖惩约束条件设置不同的奖励因子
ƞ
,则目标奖惩值rm(t)的表示公式如下:(t)的表示公式如下:(t)的表示公式如下:(t)的表示公式如下:(t)的表示公式如下:(23)其中,∧
(*)
表示如果满足条件(*),则∧
(*)
=1,否则值为0。
95.步骤503,根据评价值调整评价网络的网络参数,以使各训练时隙中的多次迭代过程结束后得到目标决策网络。
96.在一种可能的实施方式中,针对一轮训练时隙,目标无人机服务器对初始决策网络进行多次的迭代训练,每一次对待训练过程后,根据评价值调整评价网络的参数;在经过多次迭代训练后,完成一轮训练时隙的训练,获取最终的目标决策网络。
97.11)在一种可能的实施方式中,针对一轮训练时隙,当每次迭代过程中目标无人机服务器根据中间决策网络输出的中间决策数据满足奖惩约束条件后,可以确定但钱训练时隙的最优决策。
98.关于最优策略,即重叠覆盖区域关联的多个无人机服务器在当前针对各终端进行任务执行时,产生的执行时延之和是最小的,具体表现公式如下:
ꢀꢀꢀ
(24)其中,1-t即一轮训练时隙,t为一次迭代训练,则针对一轮训练时隙,其每次迭代训练过程的平均执行时延之和为最小值时,即该轮训练时隙所得到的多个中间决策数据为的最优决策。
99.这样,上述实施例中,通过不断优化的评价网络对每一次迭代训练的中间决策网络所输出的中间决策数据进行评价,经过多轮训练时隙,最终获得性能良好的目标决策网络。
100.在一个实施例中,参见图6,本技术实施例涉及的是将中间决策数据输入至少一个
评价网络中,得到评价网络输出的针对中间决策数据的评价值之后,实施例方法还包括如图6所示的步骤601和步骤602。
101.步骤601,获取第二中间样本环境观测数据。
102.其中,第二中间样本环境观测数据是根据环境自动生成的。
103.在一种可能的实施方式中,目标无人机服务器将第一样本环境观测数据输入至中间决策网络后,输出中间决策数据,然后,根据当前的环境自动生成第二中间样本环境观测数据。
104.步骤602,将第一中间样本环境观测数据、中间决策数据、目标奖惩值以及第二中间样本环境观测数据作为第一中间样本环境观测数据所对应的迭代过程的经验值存入经验池中。
105.其中,经验池中包括目标无人机服务器以及其他无人机服务器对应的各经验值。
106.这样,上述实施例中,目标无人机服务器将每一次迭代过程的第一中间样本环境观测数据、生成的中间决策数据、目标奖惩值以及根据第一中间样本环境观测数据以及中间决策数据得到的第二中间样本环境观测数据作为经验值存放入经验池,最终,根据经验池中的经验值对中间决策网络的网络参数进行调整,得到目标决策网络。
107.在一个实施例中,本技术实施例涉及的是步骤602之后,调整中间决策网络的网络参数的过程,该过程包括:在目标训练时隙中的多次迭代过程结束后,基于经验池中的各经验值调整中间决策网络的网络参数,以得到目标决策网络。
108.在一种可能的实施方式中,一轮训练时隙结束后,目标无人机服务器m根据经验池中的各经验值以及各经验值对应的评价值q对中间决策网络的网络参数φm进行梯度优化。示例性地,相关的优化函数为: (25)其中,x为全局状态信息,是一个向量,包含的是所有无人机服务器观测到的环境观测数据,是经验池,αm是中间决策数据包括的动作决策信息,om是中间样本环境观测数据。
109.这样,上述实施例中,目标无人机服务器通基于多个经验值以及评价值q对中间决策网络的网络参数进行梯度优化,最终得到性能良好的目标决策网络。
110.在一个实施例中,参见图7,本技术实施例涉及的是当评价网络包括第一评价网络和第二评价网络,评价值包括第一评价网络输出的第一评价值以及第二评价网络输出的第二评价值的情况下,根据评价值调整评价网络的网络参数的过程。如图7所示,该过程包括步骤801以及步骤802。
111.在一种可能的实施方式中,基于matd3框架(multi-agent twin delayed deep deterministic policy gradient algorithm,多代理双延迟深度确定性策略梯度)的考虑,为了避免评价网络对中间决策网络所输出的决策数据存在高估情况,设置两个评价网络,即第一评价网络和第二评价网络。
112.步骤701,对第一评价值和第二评价值进行大小比较,并将第一评价值和第二评价值中的最小评价值作为当前评价值。
113.在一种可能的实施方式中,目标无人机服务器将中间决策网络输出的中间决策数据分别输入之第一评价网络与第二评价网络中,然后,两个评价网络分别输出第一评价值和第二评价值。基于公式(1)至(25),关于评价值qm的获取公式如下所示:
ꢀꢀ
(26)其中,rm是本次迭代过程对应的目标奖惩值,γ是折扣因子,q’是下一状态得到的当前评价值。
114.在一种可能的实施方式中,通过公式(26),分别得到第一评价值和第二评价值,为了防止出现高估情况,对第一评价值和第二评价值进行比较,选出其中较小的评价值作为当前评价值。
115.步骤702,获取当前评价值与目标评价值之前的误差结果,并利用差分学习的方式,基于误差结果调整第一评价网络的网络参数以及调整第二评价网络的网络参数。
116.在一种可能的实施方式中,目标评价值q,是针对本次迭代过程中,希望获得的评价值,是基于当前评价值确定的,计算过程如下:
ꢀꢀ
(27)在一种可能的实施方式中,利用差分学习的方式,基于误差结果调整第一评价网络的网络参数以及调整第二评价网络的网络参数。
117.关于利用时间差分学习减小误差结果,示例性地:
ꢀꢀ
(28)这样,在上述实施例中,基于matd3框架设置了两个评价网络,针对每一次迭代训练过程,两个评价网络对中间决策网络输出的中间决策数据进行评价,避免了对中间决策数据高估评价。
118.在一个实施例中,参见图8,对目标无人机服务器训练得到目标决策网络的过程进行示例性地解释:步骤801,训练开始。
119.步骤802,对重叠覆盖区域关联的多个无人机服务器的评价网络、目标决策网络的输入数据以及参数进行初始化,对经验池进行初始化。
120.步骤803,预设e轮训练时隙,针对一轮训练时隙,初始化输入初始决策网络的样本环境观测数据。
121.步骤804,一轮训练时隙包括多次迭代过程,针对一次迭代过程,中间决策网络根据输入的第一中间样本环境观测数据得到中间决策数据、目标奖惩值,并基于第二中间样本环境观测数据以及决策数据得到新的环境信息,并将这些数据作为经验值存放入经验池中。
122.步骤805,将决策数据分别输入第一评价网络与第二评价网络得到当前评价值以及目标评价值。
123.步骤806,根据当前评价值以及目标评价值对第一评价网络与第二评价网络的网络参数进行更新。
124.步骤807,判断一轮训练时隙是否已经结束,如果没结束,则重复步骤804至步骤806,如果结束,则根据经验池中的多个经验值以及对应的评价值对中间决策网络的网络参
数进行更新。
125.步骤808,判断训练时隙的轮数是否达到预设的e轮,若没达到,则重复步骤903至步骤907,若达到则训练结束,得到目标决策网络。
126.在一个实施例中,如图9所示,提供了一种服务决策方法,以该方法应用于图1中的终端92为例进行说明,且终端处于多个无人机服务器的重叠覆盖区域内。所述方法包括以下步骤:步骤901,向各无人机服务器发送任务请求。其中,任务请求包括终端的终端标识、终端位置信息以及任务信息。
127.在一种可能的实施方式中,终端获取当前需要无人机服务器执行的任务数据,根据任务数据,确定对应的任务信息,任务信息包括但不限于任务的数据大小、计算强度以及最大容许时延。然后,终端根据终端标识、终端位置信息以及任务信息生成任务请求,并将任务请求发送至关联的多个无人机服务器,任务请求用于共各无人机服务器生成对应的决策指令。
128.步骤902,接收各无人机服务器发送的决策指令,并按照各决策指令指示的无人机服务器是否向终端提供任务请求对应的服务,从各无人机服务器中选取一个服务器提供服务。
129.在一种可能的实施方式中,多个决策指令中,仅有一个决策指令用于指示终端其对应的无人机服务器能够为其提供服务,终端在接收到各无人机服务器发送的决策指令后,进行筛选,确定能够响应任务请求的无人机服务器作为目标无人机服务器,并将任务数据发送至目标无人机服务器。其中,决策指令是所述无人机服务器根据任务请求以及目标决策网络生成的。
130.关于决策指令的获取过程,可以参见上述实施例的相关描述,在此不再赘述。
131.这样,在上述实施例中,重叠覆盖区域内的终端接收到多个无人机服务器生成的决策指令,从中选出能够响应任务请求的无人机服务器上传任务数据执行任务,避免了接受多个无人机服务器同时提供服务。
132.在一个实施例中,提供了一种示例性的服务决策方法,该方法可以应用于图1所示实施环境中,该方法包括:步骤1,在多个训练时隙中,目标无人机服务器基于各训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,在目标训练时隙中,对于一次迭代过程,将迭代过程对应的第一中间样本环境观测数据输入至中间决策网络,得到中间决策网络输出的中间决策数据。
133.步骤2,目标无人机服务器获取第二中间样本环境观测数据,第二中间样本环境观测数据为第一中间样本环境观测数据所对应的迭代过程的下一轮迭代过程的样本环境观测数据。
134.步骤3,目标无人机服务器将第一中间样本环境观测数据、中间决策数据、目标奖惩值以及第二中间样本环境观测数据作为第一中间样本环境观测数据所对应的迭代过程的经验值存入经验池中。其中,经验池中包括目标无人机服务器以及其他无人机服务器对应的各经验值。
135.步骤4,目标无人机服务器将中间决策数据输入至少一个评价网络中,得到多个奖
惩约束条件对应的奖惩值。其中,奖惩约束条件包括目标无人机服务器服务用户数量的限制条件、目标无人机服务器分配计算资源的限制条件、目标无人机服务器分配带宽的限制条件、目标无人机服务器任务执行时延的限制条件以及各训练时隙对应的时延限制条件中的至少一种。
136.步骤5,目标无人机服务器根据各奖惩值获取针对中间决策数据的目标奖惩值,并根据目标奖惩值获取评价值。其中,评价网络包括第一评价网络和第二评价网络,评价值包括第一评价网络输出的第一评价值以及第二评价网络输出的第二评价值。其中,评价值是基于针对中间决策数据的目标奖惩值确定的。
137.步骤6,目标无人机服务器对第一评价值和第二评价值进行大小比较,并将第一评价值和第二评价值中的最小评价值作为当前评价值。
138.步骤7,目标无人机服务器获取当前评价值与目标评价值之前的误差结果,并利用差分学习的方式,基于误差结果调整第一评价网络的网络参数以及调整第二评价网络的网络参数。
139.步骤8,目标无人机服务器在目标训练时隙中的多次迭代过程结束后,基于经验池中的各经验值调整中间决策网络的网络参数,以得到目标决策网络。其中,初始样本环境观测数据包括样本任务请求以及样本状态信息。
140.步骤9,终端向各无人机服务器发送任务请求。
141.步骤10,目标无人机服务器接收终端发送的任务请求,其中,任务请求包括终端的终端标识、终端位置信息以及任务信息。
142.步骤11,若基于终端位置信息确定终端当前处于重叠覆盖区域中,目标无人机服务器获取目标无人机服务器当前的状态信息。其中,状态信息包括目标无人机服务器的服务器位置信息、目标无人机服务器当前的可用资源信息、目标无人机服务器当前的可用带宽信息以及目标无人机服务器与重叠覆盖区域对应的覆盖用户数量。
143.步骤12,目标无人机服务器将状态信息和任务请求作为目标无人机服务器的当前环境观测数据输入至目标决策网络中,得到目标决策网络输出的决策数据。其中,决策数据包括目标无人机服务器针对任务请求的动作决策信息、目标无人机服务器针对任务请求分配的计算资源、带宽以及预计执行时延。
144.步骤13,目标无人机服务器根据决策数据生成目标决策指令。
145.步骤14,目标无人机服务器根据终端标识将目标决策指令发送至终端。其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。
146.步骤15,终端接收各无人机服务器发送的决策指令,并按照各决策指令指示的无人机服务器是否向终端提供任务请求对应的服务,从各无人机服务器中选取一个服务器提供服务。其中,决策指令是无人机服务器根据任务请求以及目标决策网络生成的。
147.步骤16,目标无人机服务器在目标决策指令指示目标无人机服务器向终端提供服务的情况下,接收终端基于目标决策指令发送的任务数据,并根据目标决策指令对任务数据进行任务处理,以向终端提供任务请求对应的服务。
148.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头
的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
149.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的用于目标无人机服务器104的服务决策方法的服务决策装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个服务决策装置实施例中的具体限定可以参见上文中对于服务决策方法的限定,在此不再赘述。
150.在一个实施例中,如图10所示,提供了一种服务决策装置1000,用于目标服务器,目标无人机服务器与其他无人机服务器之间存在重叠覆盖区域。该装置包括:接收模块1001、决策模块1002,其中:接收模块1001,用于接收终端发送的任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息;决策模块1002,若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终端标识将目标决策指令发送至终端;其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。
151.在一个实施例中,决策模块1002包括:获取单元,获取目标无人机服务器当前的状态信息;决策单元,将状态信息和任务请求作为目标无人机服务器的当前环境观测数据输入至目标决策网络中,得到目标决策网络输出的决策数据,决策数据包括目标无人机服务器针对任务请求的动作决策信息、目标无人机服务器针对任务请求分配的计算资源、带宽以及预计执行时延;生成单元,根据决策数据生成目标决策指令。
152.在一个实施例中,状态信息包括目标无人机服务器的服务器位置信息、目标无人机服务器当前的可用资源信息、目标无人机服务器当前的可用带宽信息以及目标无人机服务器与重叠覆盖区域对应的覆盖用户数量。
153.在一个实施例中,在目标决策指令指示目标无人机服务器向终端提供服务的情况下,装置还包括:服务模块,接收终端基于目标决策指令发送的任务数据,并根据目标决策指令对任务数据进行任务处理,以向终端提供任务请求对应的服务。
154.在一个实施例中,该装置还包括:训练模块,在多个训练时隙中,基于各训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到目标决策网络,初始样本环境观测数据包括样本任务请求以及样本状态信息。
155.在一个实施例中,训练模块包括:迭代单元,在目标训练时隙中,对于一次迭代过程,将迭代过程对应的第一中间样本环境观测数据输入至中间决策网络,得到中间决策网络输出的中间决策数据;评价单元,将中间决策数据输入至少一个评价网络中,得到评价网络输出的针对中间决策数据的评价值,评价值是基于针对中间决策数据的目标奖惩值确定的;调整单元,根据评价值调整评价网络的网络参数,以使各训练时隙中的多次迭代过程结
束后得到目标决策网络。
156.在一个实施例中,该装置还包括:数据获取模块,用于获取第二中间样本环境观测数据,第二中间样本环境观测数据为第一中间样本环境观测数据所对应的迭代过程的下一轮迭代过程的样本环境观测数据;经验值存储模块,用于将第一中间样本环境观测数据、中间决策数据、目标奖惩值以及第二中间样本环境观测数据作为第一中间样本环境观测数据所对应的迭代过程的经验值存入经验池中;其中,经验池中包括目标无人机服务器以及其他无人机服务器对应的各经验值。
157.在一个实施例中,该装置还包括:调整模块,用于在目标训练时隙中的多次迭代过程结束后,基于经验池中的各经验值调整中间决策网络的网络参数,以得到目标决策网络。
158.在一个实施例中,评价单元,用于将中间决策数据输入至少一个评价网络中,得到多个奖惩约束条件对应的奖惩值,其中,奖惩约束条件包括目标无人机服务器服务用户数量的限制条件、目标无人机服务器分配计算资源的限制条件、目标无人机服务器分配带宽的限制条件、目标无人机服务器任务执行时延的限制条件以及各训练时隙对应的时延限制条件中的至少一种;根据各奖惩值获取针对中间决策数据的目标奖惩值,并根据目标奖惩值获取评价值。
159.在一个实施例中,评价网络包括第一评价网络和第二评价网络,评价值包括第一评价网络输出的第一评价值以及第二评价网络输出的第二评价值,评价单元,还用于对第一评价值和第二评价值进行大小比较,并将第一评价值和第二评价值中的最小评价值作为当前评价值;获取当前评价值与目标评价值之前的误差结果,并利用差分学习的方式,基于误差结果调整第一评价网络的网络参数以及调整第二评价网络的网络参数。
160.本技术实施例还提供了一种用于实现上述应用于终端102的服务决策方法的服务决策装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个物品监控装置实施例中的具体限定可以参见上文中对于物品监控方法的限定,在此不再赘述。
161.在一个实施例中,如图11所示,提供了一种服务决策装置1100,用于终端,终端处于多个无人机服务器的重叠覆盖区域内。该装置包括:发送模块1101、接收模块1102,其中:发送模块1101,用于向各无人机服务器发送任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息;接收模块1102,用于接收各无人机服务器发送的决策指令,并按照各决策指令指示的无人机服务器是否向终端提供任务请求对应的服务,从各无人机服务器中选取一个服务器提供服务;其中,决策指令是无人机服务器根据任务请求以及目标决策网络生成的。
162.上述物品监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
163.在一个实施例中,提供了一种计算机设备,该计算机设备可以是目标无人机服务器,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易
失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储服务决策数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种服务决策方法。
164.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种服务决策方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
165.本领域技术人员可以理解,图12和图13中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
166.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,在一种可能的实施方式中,该计算机设备是目标无人机服务器,该处理器执行计算机程序时实现用于目标无人机服务器的服务决策方法。
167.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,在一种可能的实施方式中,该计算机设备是终端,该处理器执行计算机程序时实现用于终端的服务决策方法的步骤。
168.本技术实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行用于目标服务器的服务决策方法的步骤。
169.本技术实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行用于终端的服务决策方法的步骤。
170.本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行用于目标无人机服务器的服务决策方法。
171.本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行用于终端的服务决策方法。
172.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人
信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
173.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistiverandom access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random accessmemory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random accessmemory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
174.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
175.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:
1.一种服务决策方法,其特征在于,用于目标无人机服务器,所述目标无人机服务器与其他无人机服务器之间存在重叠覆盖区域,所述方法包括:接收终端发送的任务请求,所述任务请求包括所述终端的终端标识、终端位置信息以及任务信息;若基于所述终端位置信息确定所述终端当前处于所述重叠覆盖区域中,则根据所述任务请求以及目标决策网络生成目标决策指令,并根据所述终端标识将所述目标决策指令发送至所述终端;其中,所述目标决策指令用于指示所述目标无人机服务器是否向所述终端提供所述任务请求对应的服务,所述目标决策指令用于供所述终端根据所述目标决策指令以及所述其他无人机服务器发送的决策指令,从所述目标无人机服务器和所述其他无人机服务器中选取一个服务器提供所述服务。2.根据权利要求1所述的方法,其特征在于,所述根据所述任务请求以及目标决策网络生成目标决策指令,包括:获取所述目标无人机服务器当前的状态信息;将所述状态信息和所述任务请求作为所述目标无人机服务器的当前环境观测数据输入至所述目标决策网络中,得到所述目标决策网络输出的决策数据,所述决策数据包括所述目标无人机服务器针对所述任务请求的动作决策信息、所述目标无人机服务器针对所述任务请求分配的计算资源、带宽以及预计执行时延;根据所述决策数据生成所述目标决策指令。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在多个训练时隙中,基于各所述训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到所述目标决策网络,所述初始样本环境观测数据包括样本任务请求以及样本状态信息。4.根据权利要求3所述的方法,其特征在于,所述基于各所述训练时隙对应的初始样本环境观测数据,迭代训练初始决策网络,以得到所述目标决策网络,包括:在目标训练时隙中,对于一次迭代过程,将所述迭代过程对应的第一中间样本环境观测数据输入至中间决策网络,得到所述中间决策网络输出的中间决策数据;将所述中间决策数据输入至少一个评价网络中,得到所述评价网络输出的针对所述中间决策数据的评价值,所述评价值是基于针对所述中间决策数据的目标奖惩值确定的;根据所述评价值调整所述评价网络的网络参数,以使各所述训练时隙中的多次迭代过程结束后得到所述目标决策网络。5.根据权利要求4所述的方法,其特征在于,所述将所述中间决策数据输入至少一个评价网络中,得到所述评价网络输出的针对所述中间决策数据的评价值之后,所述方法还包括:获取第二中间样本环境观测数据,所述第二中间样本环境观测数据为所述第一中间样本环境观测数据所对应的迭代过程的下一轮迭代过程的样本环境观测数据;将所述第一中间样本环境观测数据、所述中间决策数据、所述目标奖惩值以及所述第二中间样本环境观测数据作为所述第一中间样本环境观测数据所对应的迭代过程的经验值存入经验池中;
在所述目标训练时隙中的多次迭代过程结束后,基于所述经验池中的各所述经验值调整所述中间决策网络的网络参数,以得到所述目标决策网络;其中,所述经验池中包括所述目标无人机服务器以及所述其他无人机服务器对应的各所述经验值。6.根据权利要求4或5任一项所述的方法,其特征在于,所述将所述中间决策数据输入至少一个评价网络中,得到所述评价网络输出的针对所述中间决策数据的评价值,包括:将所述中间决策数据输入至少一个评价网络中,得到多个奖惩约束条件对应的奖惩值,其中,所述奖惩约束条件包括所述目标无人机服务器服务用户数量的限制条件、所述目标无人机服务器分配计算资源的限制条件、所述目标无人机服务器分配带宽的限制条件、所述目标无人机服务器任务执行时延的限制条件以及各所述训练时隙对应的时延限制条件中的至少一种;根据各所述奖惩值获取针对所述中间决策数据的所述目标奖惩值,并根据所述目标奖惩值获取所述评价值。7.根据权利要求4或5任一项所述的方法,其特征在于,所述评价网络包括第一评价网络和第二评价网络,所述评价值包括所述第一评价网络输出的第一评价值以及所述第二评价网络输出的第二评价值,所述根据所述评价值调整所述评价网络的网络参数,还包括:对所述第一评价值和所述第二评价值进行大小比较,并将所述第一评价值和所述第二评价值中的最小评价值作为当前评价值;获取所述当前评价值与目标评价值之前的误差结果,并利用差分学习的方式,基于所述误差结果调整所述第一评价网络的网络参数以及调整所述第二评价网络的网络参数。8.一种服务决策方法,其特征在于,用于终端,所述终端处于多个无人机服务器的重叠覆盖区域内,所述方法包括:向各所述无人机服务器发送任务请求,所述任务请求包括所述终端的终端标识、终端位置信息以及任务信息;接收各所述无人机服务器发送的决策指令,并按照各所述决策指令指示的所述无人机服务器是否向所述终端提供所述任务请求对应的服务,从各所述无人机服务器中选取一个服务器提供所述服务;其中,所述决策指令是所述无人机服务器根据所述任务请求以及目标决策网络生成的。9.一种服务决策装置,其特征在于,用于目标无人机服务器,所述目标无人机服务器与其他无人机服务器之间存在重叠覆盖区域,所述装置包括:接收模块,用于接收终端发送的任务请求,所述任务请求包括所述终端的终端标识、终端位置信息以及任务信息;决策模块,若基于所述终端位置信息确定所述终端当前处于所述重叠覆盖区域中,则根据所述任务请求以及目标决策网络生成目标决策指令,并根据所述终端标识将所述目标决策指令发送至所述终端;其中,所述目标决策指令用于指示所述目标无人机服务器是否向所述终端提供所述任务请求对应的服务,所述目标决策指令用于供所述终端根据所述目标决策指令以及所述其他无人机服务器发送的决策指令,从所述目标无人机服务器和所述其他无人机服务器中选
取一个服务器提供所述服务。10.一种服务决策装置,其特征在于,用于终端,所述终端处于多个无人机服务器的重叠覆盖区域内,所述装置包括:发送模块,用于向各所述无人机服务器发送任务请求,所述任务请求包括所述终端的终端标识、终端位置信息以及任务信息;接收模块,用于接收各所述无人机服务器发送的决策指令,并按照各所述决策指令指示的所述无人机服务器是否向所述终端提供所述任务请求对应的服务,从各所述无人机服务器中选取一个服务器提供所述服务;其中,所述决策指令是所述无人机服务器根据所述任务请求以及目标决策网络生成的。

技术总结
本申请涉及一种服务决策方法以及服务决策装置。所述方法包括:接收终端发送的任务请求,任务请求包括终端的终端标识、终端位置信息以及任务信息,若基于终端位置信息确定终端当前处于重叠覆盖区域中,则根据任务请求以及目标决策网络生成目标决策指令,并根据终端标识将目标决策指令发送至终端,其中,目标决策指令用于指示目标无人机服务器是否向终端提供任务请求对应的服务,目标决策指令用于供终端根据目标决策指令以及其他无人机服务器发送的决策指令,从目标无人机服务器和其他无人机服务器中选取一个服务器提供服务。采用本方法能够提高资源利用率。法能够提高资源利用率。法能够提高资源利用率。


技术研发人员:杜军 张华蕾 田雨 王劲涛 江炳青 侯向往 夏照越 艾门
受保护的技术使用者:技术创新研究院-独资有限责任公司
技术研发日:2023.08.24
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐