一种无人机轨迹规划优化方法及系统
未命名
10-21
阅读:146
评论:0

技术领域:
:】1.本发明涉及物联网与无人机
技术领域:
:,尤其涉及一种无人机轨迹规划优化方法及系统。
背景技术:
::2.物联网(internetofthings,iot),即“万物相连的互联网”,是一个全球生态系统,包含数百万个通过互联网连接的相互连接的物理设备、数字机器和通过互联网连接的对象,其将继续从这些连接的对象转变为连接的智能。移动网络将以智能方式连接大量智能设备,这些智能节点将能够感知周围环境,并通过通信交换观测结果。因此,各种实时传感应用随之诞生,如智能农业、智能汽车、户外灾害监测和室内健康检测等实时应用,对于此类应用来说,对服务质量都有了更高的要求,尤其是数据的新鲜度。因此有必要部署物联网设备来持续监测基础环境,更新数据状态,并及时将其发送到数据中心进行分析和决策。过时的监测信息将影响数据中心决策的准确性和可靠性,大大降低数据的相关性,甚至造成重大灾难。所以系统的服务质量和功能在很大程度上取决于此类应用中监测数据的新鲜度。3.传统物联网对中继节点和基站有很强的依赖性,但在人迹罕至的森林、浩瀚的海洋、复杂的山脉等特殊地区很难部署中继节点和基地,并从根本上影响了数据的及时交付,从而降低了服务质量(qos)。为了改善上述问题,考虑使用无人机作为通信中继。由于无人机可以飞到每个传感设备,并通过可视距(los)链路与传感设备节点建立主导的地面通信信道,通过短距离与地面设备进行可靠的数据采集,这有助于降低设备的发射功率并延长网络寿命,因此可以大大减少传感设备数据传输所需的能量,并显著提高物联网系统中的服务质量。4.然而,系统吞吐量,传输时延等传统的性能指标,已无法满足物联网中实时状态更新类的应用设计。这主要是因为传统的评价指标侧重于对信息传输时延的研究,无法对信息年龄进行有效的表征。为确保数据收集和处理的时效性,一种新的度量指标被提出,即信息年龄(ageofinformation,aoi),其被用来对目标节点上最近一次接收的数据包从源节点产生到现在所经历的时间进行统计。aoi是一种从接收者角度出发,能够综合反映数据源端和发送端对网络性能的影响,可用于提高接收数据的及时性,同时保持通信网络的预期qos。因此,aoi被视为一种能够有效刻画物联网中信息新鲜程度的重要指标。5.目前,许多研究致力于利用无人机直接激活物联网设备并收集生成的数据,随后将其传输到数据中心进行处理。然而,对于某些实际应用场景而言,物联网设备数据生成具有一定的随机性,从而导致无人机无法有效采集数据以供数据中心分析处理,这成为一个重大挑战。为了确保物联网数据的时效性及准确性,需要动态控制无人机的轨迹以优化aoi问题。此外,由于无人机通常依靠电池为能源供应,且电池容量受限,因此必须解决在能量供应有限的情况下,无人机能够持续执行数据采集任务的问题。另外,在分布范围广泛且通信半径较大的物联网设备区域,单个无人机已无法满足数据采集需求,需要部署多个无人机完成数据采集任务。此时,必须解决多个无人机飞行轨迹规划问题以实现它们之间的协作。在多无人机轨迹规划的过程中存在多个挑战,例如冲突碰撞和协同合作等问题,这些问题需要进一步研究和解决。6.因此,有必要研究一种无人机轨迹规划优化方法及系统来应对现有技术的不足,以解决或减轻上述一个或多个问题。技术实现要素:7.有鉴于此,本发明提供了一种无人机轨迹规划优化方法及系统,通过研究物联网系统中多无人机采集数据,考虑了机载能量约束下的多无人机飞行策略,基于部分可观测信息,采用改进dqn的多智能体深度强化学习算法设计了一种面向aoi的无人机轨迹规划算法。8.一方面,本发明提供一种无人机轨迹规划优化方法,所述轨迹优化方法基于无人机辅助物联网实现,所述轨迹规划优化方法包括以下步骤:9.s1:预设物联网系统模型、信道模型和能耗模型;10.s2:通过物联网系统模型、信道模型、能耗模型获取无人机的预部署轨迹;11.s3:预设信息年龄模型,所述信息年龄模型用于衡量信息年龄,所述信息年龄为自无人机接收到的最后一个更新包生成以来经过的时间,通过无人机的预部署轨迹和信息年龄模型获取所有部署的无人机的最佳轨迹,所述无人机的最佳轨迹满足网络中所有物联网设备的加权平均信息年龄最小化;12.s4:建立关于无人机的最佳轨迹的决策模型;13.s5:对s4中决策模型通过改进算法进行强化学习;14.s6:通过强化学习后的决策模型,输出无人机的最佳飞行策略。15.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述物联网系统模型中包括一个基站、两个旋翼无人机和n个低功率的物联网设备,其中n为不小于2的正整数。16.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述s1具体为:将目标区域划分为大小相等的m个方形网格,每个方向网格内随机部署一个物联网设备,基站位于目标区域中心,每个旋翼无人机为中继节点,通过飞越目标区域的不同地点,将信息从物联网设备转发到基站,其中m为不小于n的正整数。17.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述信道模型通过在物联网设备和无人机之间以及无人机和基站之间设置los链路并获取信道增益,通过信道增益建立信道模型。18.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述能耗模型中的无人机移动或悬停时的能耗包括无人机悬停时的叶片轮廓功率、导出功率以及无人机与基站通信时消耗能量。19.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述信息年龄模型具体为:通过应用采样和替换策略,每个物联网设备的更新包等待由一个无人机收集或由新更新包替换,更新包周期性地到达每个物联网设备的缓冲器,每个物联网设备的更新包可以在队列中等待一段随机时间,直到它被替换或成功传送。20.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述s4中的决策模型为一个多智能体部分可观测的马尔可夫决策过程模型,通过一个元组(s,a,r)表示,s代表状态空间,a代表动作空间,r代表奖励。21.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述s5中改进算法为mand3qn算法,所述mand3qn算法中每个智能体都有一个当前神经网络和一个目标神经网络,两个神经网络结构相同,但具有不同的权重。22.如上所述的方面和任一可能的实现方式,进一步提供一种无人机辅助物联网系统中无人机轨迹规划优化系统,所述轨迹规划优化系统包括:23.模型建立模块,用于预设物联网系统模型、信道模型和能耗模型;24.轨迹部署模块,用于通过物联网系统模型、信道模型、能耗模型获取无人机的预部署轨迹;25.最佳轨迹获取模块,用于预设信息年龄模型,所述信息年龄模型用于衡量信息年龄,所述信息年龄为自无人机接收到的最后一个更新包生成以来经过的时间,通过无人机的预部署轨迹和信息年龄模型获取所有部署的无人机的最佳轨迹,所述无人机的最佳轨迹满足网络中所有物联网设备的加权平均信息年龄最小化;26.决策模型建立模块,用于建立关于无人机的最佳轨迹的决策模型;27.强化学习模块,用于对决策模型通过改进算法进行强化学习;28.最佳飞行策略输出模块,用于通过强化学习后的决策模型,输出无人机的最佳飞行策略。29.与现有技术相比,本发明可以获得包括以下技术效果:30.(1)首先本发明从介绍了信息年龄和深度强化学习算法等以及相关算法原理开始,本发明研究背景是基于无人机辅助数据更新系统,因此本发明以更新速度更快的多无人机为模型,分析和推导了无人机通信与物联网系统相结合的理论框架,考虑到多无人机系统所带来的庞大计算量,针对q-learning算法上存在维度较小导致难以收敛的问题,本发明引入dnn网络缓解这种压力,使用基于dqn的方法对算法进行改进,加快算法收敛速度;31.(2)本发明进一步针对dqn中q值过度估计的问题提出了一种基于多智能体双重深度q网络(multi-agentdoubledeepqnetwork,maddqn)的方法,很大程度上改善了过估计对dqn算法的影响,几乎能消除偏差的影响,大幅度提高了算法的整体性能;32.(3)然而ddqn算法在训练中,由于只能输出每个行为的q值,而不能同时输出状态值和行为优势值,这可能会浪费神经网络中的一些共享表示;为了使本发明算法在仿真环境下展现出完整优势,针对这一问题本发明引用决斗结构将状态的值函数分解为状态的价值函数和状态-动作对的优势函数,以此来提高算法的学习效率;通过各种条件下的仿真实验分析和比较,均能说明本发明算法的可行性和可靠性;33.(4)此外,针对算法容易陷入局部最优的问题,加入了噪声网络,在网络中引入一定程度的随机性,提出了一种高效的基于多智能体噪声决斗双重深度q网络(multi-agentnoisyduelingdoubledeepqnetwork,mand3qn)的轨迹规划新方法;通过理论推导和仿真分析得出,本发明提出的新方法,损失函数能够更加稳定地收敛,并且具有较低的aoi。34.当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。【附图说明】35.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。36.图1是本发明一个实施例提供的物联网系统模型图;37.图2是本发明一个实施例提供的无人机时隙图;38.图3是本发明一个实施例提供的noisynet-d3qn神经网络结构图;39.图4是本发明一个实施例提供的mand3qn不同学习率下的损失函数对比图;40.图5是本发明一个实施例提供的mand3qn不同学习率下的奖励函数对比图;41.图6是本发明一个实施例提供的mand3qn训练后不同学习率下的平均aoi对比图;42.图7是本发明一个实施例提供的不同算法下奖励函数对比图(n=8);43.图8是本发明一个实施例提供的不同算法下的平均aoi对比图。【具体实施方式】44.为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。45.应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。46.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。47.本发明提供本发明提供一种无人机轨迹规划优化方法,所述轨迹优化方法基于无人机辅助物联网实现,所述轨迹规划优化方法包括以下步骤:48.s1:预设物联网系统模型、信道模型和能耗模型;49.s2:通过物联网系统模型、信道模型、能耗模型获取无人机的预部署轨迹;50.s3:预设信息年龄模型,所述信息年龄模型用于衡量信息年龄,所述信息年龄为自无人机接收到的最后一个更新包生成以来经过的时间,通过无人机的预部署轨迹和信息年龄模型获取所有部署的无人机的最佳轨迹,所述无人机的最佳轨迹满足网络中所有物联网设备的加权平均信息年龄最小化;51.s4:建立关于无人机的最佳轨迹的决策模型;52.s5:对s4中决策模型通过改进算法进行强化学习;53.s6:通过强化学习后的决策模型,输出无人机的最佳飞行策略。54.进一步地,所述物联网系统模型中包括一个基站、两个旋翼无人机和n个低功率的物联网设备,其中n为不小于2的正整数。55.进一步地,所述s1具体为:将目标区域划分为大小相等的m个方形网格,每个方向网格内随机部署一个物联网设备,基站位于目标区域中心,每个旋翼无人机为中继节点,通过飞越目标区域的不同地点,将信息从物联网设备转发到基站,其中m为不小于n的正整数。56.进一步地,所述信道模型通过在物联网设备和无人机之间以及无人机和基站之间设置los链路并获取信道增益,通过信道增益建立信道模型。57.进一步地,所述能耗模型中的无人机移动或悬停时的能耗包括无人机悬停时的叶片轮廓功率、导出功率以及无人机与基站通信时消耗能量。58.进一步地,所述信息年龄模型具体为:通过应用采样和替换策略,每个物联网设备的更新包等待由一个无人机收集或由新更新包替换,更新包周期性地到达每个物联网设备的缓冲器,每个物联网设备的更新包可以在队列中等待一段随机时间,直到它被替换或成功传送。59.进一步地,所述s4中的决策模型为一个多智能体部分可观测的马尔可夫决策过程模型,通过一个元组(s,a,r)表示,s代表状态空间,a代表动作空间,r代表奖励。60.进一步地,所述s5中改进算法为mand3qn算法,所述mand3qn算法中每个智能体都有一个当前神经网络和一个目标神经网络,两个神经网络结构相同,但具有不同的权重。61.本发明还提供一种无人机辅助物联网系统中无人机轨迹规划优化系统,所述轨迹规划优化系统包括:62.模型建立模块,用于预设物联网系统模型、信道模型和能耗模型;63.轨迹部署模块,用于通过物联网系统模型、信道模型、能耗模型获取无人机的预部署轨迹;64.最佳轨迹获取模块,用于预设信息年龄模型,所述信息年龄模型用于衡量信息年龄,所述信息年龄为自无人机接收到的最后一个更新包生成以来经过的时间,通过无人机的预部署轨迹和信息年龄模型获取所有部署的无人机的最佳轨迹,所述无人机的最佳轨迹满足网络中所有物联网设备的加权平均信息年龄最小化;65.决策模型建立模块,用于建立关于无人机的最佳轨迹的决策模型;66.强化学习模块,用于对决策模型通过改进算法进行强化学习;67.最佳飞行策略输出模块,用于通过强化学习后的决策模型,输出无人机的最佳飞行策略。68.本发明原理部分如下:69.1、网络模型70.本发明考虑一个多无人机辅助的物联网系统,由一个基站、两个旋翼无人机和n个低功率的物联网设备组成。无人机在时隙t的位置完全由其在2d平面pu(t)=(xu(t),yu(t))上的投影及其高度hu给出。为了便于展示,目标区域被划分为大小相等的j个方形网格,如图1所示。每个设备d∈d的位置由pd=(xd,yd)给出,其中d={d1,d2,...,dn}表示n个物联网设备的集合,适当地设置网格大小,使得每个网格内随机部署一个物联网设备,以监控不同的物理过程。假定基站的位置是固定的,位于该区域的中心。每个无人机作为中继节点,通过飞越服务区域内的不同地点,从所有设备中以减少加权平均aoi为主要目标收集信息。然后,每个无人机再将信息从物联网设备转发到地图中心的基站。71.本发明假设每个无人机以适当的高度hu从一个网格中心飞到另一个网格,每个网格的中心由(xg,yg)∈g给出,其中g是包含每个网格中心位置的集合。两个相邻网格中心之间的距离为rg,本发明将τ设置为无人机从一个网格中心移动到另一个网格所需的时间,其定义为rg与无人机速度之间的比率。本发明还假设物联网设备d(t)∈d遵循调度策略w(t)∈w={0,1,...,n},使得设备d被调度为在时隙t进行传输。72.如图2所示,在不失一般性的情况下,假设本发明的系统为离散时间系统,其中时间被划分为单位长度的时隙,使得每个时隙t≥1对应于持续时间[t-1,t]。因此,一个时隙可以分为两个子时隙:其中一个子时隙用于无人机数据收集,另一个子时隙则用于无人机的飞行。两个子时隙的长度分别由tt和tf表示,它们满足tt+tf=t。[0073]为避免无人机碰撞,不允许两个无人机飞到每个时隙中的同一网格,即pu1(t)≠pu2(t)。为了有效利用无人机和物联网设备之间的los链路,每个无人机都被分配了整个带宽,并且在每个时隙中最多服务一个物联网设备。当无人机具有足够的电量时,设on(t)∈{0,1}为二进制变量,表示无人机是否在时隙t中执行数据收集。当on(t)=1时,无人机悬停从相关物联网设备中收集数据,并立即将其转发给基站。on(t)=0意味着无人机未在该时隙t中物联网设备的缓冲区为空,而是以速度vu(t)直接飞向下一个网格。否则,如果无人机达到最低电量水平,它必须直接飞到基站补充电量。[0074]2、信道模型[0075]本发明假设物联网设备和无人机之间以及无人机和基站之间存在los链路,因此,无人机和基站之间在时隙t的信道增益为[0076][0077]其中β0是参考距离1m处的信道增益,hbs表示bs处的天线高度。[0078]无人机和物联网设备之间在时隙t的信道增益为[0079][0080]其中su,d(t)表示无人机在时隙t与物联网设备之间的距离,其公式为[0081][0082]3、能耗模型[0083]无人机在移动或悬停时的功耗由建模的三部分组成[0084][0085]其中p0和p1分别表示无人机悬停时的叶片轮廓功率和导出功率。vu表示无人机的速度,utip表示旋翼叶片的叶尖速度,μ0表示悬停时旋翼诱导的平均速度,d0表示机身阻力无线电,ρ表示空气密度。同时,s0表示转子的硬度,b表示转子盘的面积。此外,无人机与基站通信时消耗能量,如果本发明假设无人机的电池容量emax,u并将其分成有限数量的能量量子eu,那么,每个能量量子所包含的能量由给出。本发明把无人机在时隙t的电池水平表示为eu(t)。通过让m和σ2分别为更新包的大小和无人机的噪声功率,无人机从物联网设备d处更新一个更新包所需的能耗由下式给出[0086][0087][0088]无人机悬停时,所消耗的能量表示为[0089][0090]由于飞行或悬停所消耗的能量要比更新包中继的能量大得多,所以在离散化电量时,能量量子的数量必须设置得足够大,以避免高估与基站通信所消耗的能量。无人机的电池变化由下式给出[0091][0092]4、信息年龄[0093]本发明使用aoi作为衡量信息年龄的指标,该指标被定义为自无人机接收到的最后一个更新包生成以来经过的时间。[0094]对于随机采样,样本间间隔是随机的,可以遵循指数分布。通过应用采样和替换策略,每个物联网设备的更新包等待由一个无人机收集或由新更新包替换。更新包周期性地到达每个物联网设备的缓冲器。[0095]每个物联网设备的更新包可以在队列中等待一段随机时间,直到它被替换或成功传送。本发明用ln(t)来跟踪最新的更新包的生存时间(如果存在的话),具体如下[0096][0097]它可以被视为直到时隙t的更新包的生存时间。采用任意生成策略,每当物联网设备d被选择在某个时隙传输更新包时,它就在该时隙的开始生成该更新包,否则它在一个时隙之后增加一个,即ln(t-1)+1。对于每个物联网设备,应收集并记录其更新包ln(t)的生存时间,以便部署在基站处的无人机能够了解物联网设备的采样特征,并对无人机的数据收集做出决策。[0098]因此,本发明将aoi定义为[0099][0100]其中如果物联网设备d在时隙t更新包被收集,则该设备的aoi就被设置为该信息包的生存时间ln(t),否则就被增加1。这里,ad,max表示允许的最大aoi,它是相对较大的。[0101]5、问题构建[0102]本发明的目标是通过共同寻找所有部署的无人机的最佳轨迹,使网络中所有物联网设备的加权平均aoi最小化。本发明可以将优化问题表述如下[0103][0104][0105]pu1(t)≠pu2(t)(11b)[0106]pu(t)=(xu(t),yu(t))∈g(11c)[0107]on(t)∈{0,1}(11d)[0108]其中(11)表示基站处所有物联网设备的加权平均aoi,(11a)确保无人机能够在能量耗尽前到达基站,(11b)是防止无人机相互碰撞,(11c)是限制了无人机的飞行范围,(11d)表示无人机是否在时隙t执行数据收集。值得注意的是,(11a)取决于t,这意味着无人机飞行、悬停的时隙不同,考虑到它们都在同一时间起飞,它们可以在不同的时间段到达基站。优化问题(11)是一个非线性整数优化问题,其复杂性随着部署设备数量的增加而增加。目前尽管有一些经典的优化算法(如动态规划和分枝定界)可用于解决该问题,但它们具有很高的算法复杂性,尤其是在大规模场景中。同时,环境一旦改变就需要重新运行传统优化算法也成为挑战。为了以有效和可行的方式解决这个问题,将上述优化问题(11)表达为马尔可夫决策过程(mdp),并引入深度强化学习模型。[0109]6、马尔科夫决策过程[0110]由于无人机的探测范围有限,在时隙t内对环境的观测并不完整,因此本发明将提出的多无人机问题建模为一个多智能体部分可观测的马尔可夫决策过程(ma-pomdp)。ma-pomdp由一个元组(s,a,r)表示,分别代表状态空间、动作空间和奖励。在本发明中,s和a被认为是离散的。在每个时隙t中,每个无人机观察当前环境状态s(t),根据给定策略采取行动a(t),获得奖励其中γ(t)是奖励折扣因子。对本发明中的ma-pomdp描述如下:[0111]状态空间:[0112]系统在时隙t处的状态空间定义为,所观察到的每一种状态,s(t)=(pu1(t),pu2(t),a(t),o(t),l(t),eu(t)),其中:[0113]pu1(t),pu2(t)是代表无人机u1和无人机u2在时隙t处的位置。[0114]a(t)=(a1(t),a2(t),...,an(t))是在时隙t处代表所有物联网设备的aoi,其中an(t)∈[1,2,...,an,max]。[0115]o(t)=(o1(t),o2(t),...,on(t))是在时隙t处无人机是否探测到目标设备并收集数据的状态。[0116]l(t)=(l1(t),l2(t),...,ln(t))是在时隙t处物联网设备更新包产生后的生存时间,其中ln(t)∈[1,2,...,an,max-1]。[0117]eu(t)是在时隙t处每个无人机的电池状态。[0118]动作空间:[0119]本发明假设无人机的最大允许速度将其在每个时隙中的移动限制在其当前小区的一个相邻小区中。因此,在每个时隙t中,无人机要么决定在下一个时隙的时间内保持在其位置,要么移动到其相邻的一个单元。时隙t的动作空间由无人机vu(t)的移动和调度策略决定,即a(t)=(vu(t),w(t))。其中vu(t)∈v={n,s,e,w,i}有5个动作执行,n、s、w和e分别表示北、南、西和东方向,i则表示无人机在下一时隙将留在其位置。因此,无人机位置的动态变化将是[0120][0121]奖励:[0122]本发明的目标是使整个系统的加权平均aoi最小化,定义无人机在时刻t的即时奖励ru(t)为[0123][0124]为了找到最佳飞行策略,并尽可能考虑环境和无人机对整个系统的影响,本发明提出了一个基于mand3qn的算法,使用上述的马尔可夫决策过程。[0125]1.1mand3qn算法[0126]dueling-ddqn在double-dqn算法上的一个扩展,旨在通过解耦价值函数和优势函数来提高dqn的学习效率和稳定性。其基本思想是分别估计一个状态的价值函数和每个行动的优势,然后将它们结合起来,得到q值函数。这种方法背后的直觉是,在某些状态下,最佳行动的选择更多的是基于一个行动对另一个行动的优势,而不是基于状态的实际价值。通过解耦价值和优势函数,该模型可以更好地捕捉这一信息并改善学习过程。[0127]dueling-dqn算法使用一个具有两个独立输出层的神经网络来表示价值和优势函数。价值层估计状态的价值,而优势层估计每个行动相对于均值的偏差。这允许无人机学习在给定状态下哪些动作更有价值或更没有价值,而不必学习在每个可能的状态下每个动作的价值,然后,通过将价值和优势函数相加,可以得到q值函数:[0128][0129]其中v(s)是状态s的价值,a(s,a)是在状态s中采取行动a的优势,∑a(s,a')是状态s中所有行动的优势之和,|a|是行动的总数。[0130]dueling-ddqn中网络参数的更新规则如下:[0131]θtarget=θ+α(r+γqtarget(s',argmin(q(s',a';θ);θtarget))-q(s,a;θ))ꢀꢀꢀꢀꢀꢀ(15)[0132]其中r是奖励,γ是折扣系数,qtarget是目标q值,θ和θtarget分别是当前和目标网络参数。然而,本发明不使用qtarget(s',a';θtarget)来计算目标q值,而是使用duelingq值:[0133]y=r+γqdueling(s',argmin(q(s',a';θ);θtarget))ꢀꢀꢀꢀꢀꢀ(16)[0134]其中,argmin(q(s',a';θ);θtarget)是在下一个状态下使q值最小化的行动,由当前网络估计。[0135]noisynet-d3qn是duelingdoubledqn算法的改进,它在网络权重中引入了噪声以鼓励探索和提高学习稳定性。这种方法的关键思想是向在神经网络的每一层中添加特殊的噪声层,以避免确定性行为,增加探索性,同时也能够减少q值的过拟合,提高学习的稳定性。[0136]noisynet-d3qn算法使用两个网络:主网络和目标网络,它们在不同的时间间隔内被更新。此外,主网络的网络权重通过在每个时间步随机生成噪声向量来实现神经元输出的随机化,从而增强模型的探索性能。随机噪声是均值为0、方差为σ2的分解高斯噪声,该噪声是在训练期间学习的。[0137]noisynet是一个神经网络,其权重和偏置会受到噪声的影响,本发明假设网络原来的参数可以用随机变量θ表示,那么现在本发明把它表示为[0138][0139]其中集合是可学习的参数,而ε是维度相同的以零为均值的随机噪声,⊙表示点乘。[0140]噪声网络的权重定义为:[0141]wi=wi+σεiꢀꢀꢀꢀꢀ(18)[0142]bi=bi+σδiꢀꢀꢀꢀꢀ(19)[0143]其中wi和bi是第i层的权重和偏差,εi和δi是在高斯分布中采样的随机变量。[0144]噪声网络被用来估计动作值函数q(s,a),其方法与d3qn中相同。然而,噪声网络通过使行动值估计更加随机化来鼓励探索。[0145]目标网络的更新方式与duelingdoubledqn中的相同,即每隔几个迭代就复制一次主网络的参数。q-learning的更新也是以同样的方式进行的,使用噪声网络来估计目标q值。[0146]用于更新主网络的损失函数由以下内容给出[0147][0148]其中,r是当前时间段得到的奖励,γ是折扣系数,qtarget是使用目标网络估计的目标行动价值函数。[0149]如图3所示,在mand3qn的神经网络结构中,每个智能体都有一个当前神经网络和一个目标神经网络,两个神经网络结构相同,但具有不同的权重,这种结构可以更好地处理多个无人机之间的协作和竞争关系。mand3qn采用了中心化训练去中心化执行的框架。具体地说,在训练阶段,所有智能体同时收集经验,并将其存储在共享经验回放缓冲区中,用于集中训练共享策略(中心化训练)。然而,在执行阶段,每个智能体根据其观察到的状态独立地使用共享策略来选择其动作(去中心化执行)。[0150]综上所述,本发明改进算法的详细描述如下:[0151]表1多智能体噪声决斗双重深度q网络(mand3qn)算法[0152]table2mand3qnalgorithm[0153][0154][0155]本发明通过仿真实验对所提出的mand3qn算法的性能进行评估。使用本发明提出的mand3qn算法与随机(random)策略、贪婪(greedy)策略、基于ddqn的轨迹规划算法、基于iql的轨迹规划算法和基于maddqn的轨迹规划算法进行了对比。贪婪策略是一个确定性的策略,每一次都选择q值最小的策略,另一个基准算法是随机选择策略,无人机任意选择动作进行决策。[0156]本发明首先设定在400米×400米的空间作为无人机仿真环境,以50米为间隔划分网格,预设12个物联网设备分别位于[50,50],[300,0],[0,200],[150,100],[100,350],[250,400],[350,200],[400,350],[400,100],[0,400],[300,300],[150,250]在网格内随机生成物联网设备的位置。在仿真环境的中心[200,200]处设置基站,供无人机在此起飞、数据卸载以及充电,基站高度设置为40米,无人机飞行高度设置为80米。最大的aoi值设置为100,即ad,max=100。系统仿真的具体参数设置如表2所示。[0157]表2系统仿真参数设置:[0158]table3systemsimulationparametersettings:[0159][0160][0161]对仿真算法的具体参数进行初步设置,如下表所示:[0162]表3算法仿真参数设置:[0163]table4algorithmsimulationparametersettings:[0164][0165][0166]mand3qn中使用的损失函数是预测q值和目标q值之间的均方误差(mse)。当算法的学习率发生变化时,损失函数的行为也会发生变化。通常,较高的学习率可以导致更快的收敛,但也可能导致算法超过最优值并变得不稳定。较低的学习率可能会导致收敛速度较慢,但可能更稳定且不易发生过冲。[0167]由于奖励函数设置为平均信息年龄,故可以根据奖励函数观察到该算法训练过程中平均信息年龄的变化,为了便于观察平均信息年龄的变化,本发明以100个点为间隔取出一个均值,绘出一条相对平滑的曲线。其中该曲线最终的收敛值为该算法训练能达到的平均信息年龄值。为了全面观察训练过程,本发明保留了原本奖励函数的曲线图,以阴影状态表示。[0168]最后在训练完成后,进行100次测试回合,可以更加直观地观察到不同学习率实现的平均信息年龄。[0169]为了分析学习率变化时mand3qn损失函数的比较,如图4本发明绘制了五个学习率随训练回合数变化的损失函数。[0170]由图4可知,五个损失函数均在3000训练回合左右,出现不同幅度的波动,其中学习率1.0e-4和5.0e-5变动幅度趋于一致,学习率1.0e-3和5.0e-4变动幅度趋于一致,四个损失函数在4000回合处趋于平稳并收敛,其中表现最差的是学习率5.0e-5,是由于学习率过小,导致收敛速度与稳定性较差,学习率1.0e-4由于学习率稍高,所以表现稍好于学习率5.0e-5。学习率1.0e-3和5.0e-4变动幅度虽趋于一致,但学习率5.0e-4仍表现出不稳定性,在训练回合1000到1500处均出现不同幅度变动,而学习率1.0e-3随着训练回合数的增加,损失值不断趋近于零,具有较高的稳定性和收敛速度。[0171]接下来进一步对比分析学习率1.0e-4和5.0e-5的奖励函数。[0172]由图5得到,随着训练回合次数的增加,学习率1.0e-4和5.0e-5的奖励值都逐渐降低并趋于收敛。然而在训练回合前期,学习率1.0e-4的收敛速度相对更快;在训练回合后期,学习率1.0e-4具有较少的突出线以及较小的波动幅度,并且能够达到更低的收敛值。这证明了在该算法下对于奖励函数而言,学习率1.0e-4的表现更好。[0173]进一步使用训练完成后的网络,对比这三个学习率下的平均aoi。[0174]由图6可得,在100次的测试回合中,可以明显看到学习率1.0e-4训练后的曲线波动幅度相对较小,表明了训练后的网络稳定性更好,并且能够达到较低的平均信息年龄。同时也证明了该学习率能够相对稳定并快速地完成训练,具有更好的训练效果,是mand3qn算法下最优的学习率。[0175]本发明将所提出的mand3qn算法与另外五个算法做算法性能对比,仿真了在物联网设备n=8时的奖励函数如下所示。[0176]由图7得到,随着训练迭代次数的增加,除了greedy策略,其他五种算法的平均奖励都逐渐降低并趋于收敛,其中mand3qn算法可以实现更快的收敛,原因是对于dqn中的过估计问题会影响学习的收敛速度和性能,采用的双重q网络的结构有效避免了基于dqn的轨迹规划方法引起的过估计问题,dueling网络结构也帮助智能体学习高维状态空间下的价值函数,噪声网络增加了探索过程中的随机性,避免了陷入局部最优解,得到了更低的收敛值,发挥出算法更好的性能。[0177]由图8可得,mand3qn算法的平均aoi明显要低于其他算法,这是因为通过使用双重神经网络结构,可以避免目标q值被过度估计的问题,同时引入dueling结构可以更好地对不同的行为价值进行建模。此外,使用噪声网络可以增加探索性,有利于无人机更好地探索环境,避免陷入局部最优解,同时通过使用经验回放和目标网络等技术,可以进一步提高算法的稳定性和收敛性。因此,在随着设备数变化的过程中,mand3qn算法具有较好的表现和优势。[0178]本发明针对多无人机的轨迹规划问题进行了研究。考虑一个多无人机辅助物联网系统,其中无人机作为中继需要在能量受限情况下,通过合理设计状态空间、动作空间以及奖励函数将原问题转化为多智能体部分可观测的马尔科夫决策过程。[0179]为了应对多无人机的移动以及基站和大量物联网设备的设置而导致状态空间和动作空间的增加,进而无法使用传统dqn算法的情况,同时也为了避免dqn算法中的对q值的过估计问题。因此本发明提出了一种基于mand3qn的无人机轨迹规划算法。在ddqn算法中,由于训练数据在状态之间是高度相关的,仍然存在训练不稳定的情况。因此本发明采用dueling结构将值函数分成两部分,一个是估计状态值,一个是估计该状态下每个动作的优势函数。通过解耦成两部分,d3qn算法可以学习更加准确的q值,以进一步稳定收敛;同时,在d3qn算法中是通过使用贪婪策略来进行探索的,然而在这种情况下可能是低效或者次优的,因此在正向传递期间,加入noisynet为网络权重添加少量噪声以鼓励探索,本算法提出利用基于分解高斯噪声的noisynet,提升算法稳定性和鲁棒性。仿真实验表明,基于mand3qn的无人机轨迹规划算法可以加快算法收敛速度,并显著降低平均信息年龄。[0180]以上对本技术实施例所提供的一种无人机轨迹规划优化方法及系统,进行了详细介绍。以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。[0181]如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语,故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本技术的较佳实施方式,然所述描述乃以说明本技术的一般原则为目的,并非用以限定本技术的范围。本技术的保护范围当视所附权利要求书所界定者为准。[0182]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。[0183]应当理解,本发明中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。[0184]上述说明示出并描述了本技术的若干优选实施例,但如前所述,应当理解本技术并非局限于本发明所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本发明所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本技术的精神和范围,则都应在本技术所附权利要求书的保护范围内。当前第1页12当前第1页12
技术特征:
1.一种无人机轨迹规划优化方法,所述轨迹优化方法基于无人机辅助物联网实现,其特征在于,所述轨迹规划优化方法包括以下步骤:s1:预设物联网系统模型、信道模型和能耗模型;s2:通过物联网系统模型、信道模型、能耗模型获取无人机的预部署轨迹;s3:预设信息年龄模型,所述信息年龄模型用于衡量信息年龄,所述信息年龄为自无人机接收到的最后一个更新包生成以来经过的时间,通过无人机的预部署轨迹和信息年龄模型获取所有部署的无人机的最佳轨迹,所述无人机的最佳轨迹满足网络中所有物联网设备的加权平均信息年龄最小化;s4:建立关于无人机的最佳轨迹的决策模型;s5:对s4中决策模型通过改进算法进行强化学习;s6:通过强化学习后的决策模型,输出无人机的最佳飞行策略。2.根据权利要求1所述的轨迹规划优化方法,其特征在于,所述物联网系统模型中包括一个基站、两个旋翼无人机和n个低功率的物联网设备,其中n为不小于2的正整数。3.根据权利要求2所述的轨迹规划优化方法,其特征在于,所述s1具体为:将目标区域划分为大小相等的m个方形网格,每个方向网格内随机部署一个物联网设备,基站位于目标区域中心,每个旋翼无人机为中继节点,通过飞越目标区域的不同地点,将信息从物联网设备转发到基站,其中m为不小于n的正整数。4.根据权利要求1所述的轨迹规划优化方法,其特征在于,所述信道模型通过在物联网设备和无人机之间以及无人机和基站之间设置los链路并获取信道增益,通过信道增益建立信道模型。5.根据权利要求1所述的轨迹规划优化方法,其特征在于,所述能耗模型中的无人机移动或悬停时的能耗包括无人机悬停时的叶片轮廓功率、导出功率以及无人机与基站通信时消耗能量。6.根据权利要求1所述的轨迹规划优化方法,其特征在于,所述信息年龄模型具体为:通过应用采样和替换策略,每个物联网设备的更新包等待由一个无人机收集或由新更新包替换,更新包周期性地到达每个物联网设备的缓冲器,每个物联网设备的更新包可以在队列中等待一段随机时间,直到它被替换或成功传送。7.根据权利要求1所述的轨迹规划优化方法,其特征在于,所述s4中的决策模型为一个多智能体部分可观测的马尔可夫决策过程模型,通过一个元组(s,a,r)表示,s代表状态空间,a代表动作空间,r代表奖励。8.根据权利要求1所述的轨迹规划优化方法,其特征在于,所述s5中改进算法为mand3qn算法,所述mand3qn算法中每个智能体都有一个当前神经网络和一个目标神经网络,两个神经网络结构相同,但具有不同的权重。9.一种无人机辅助物联网系统中无人机轨迹规划优化系统,基于上述权利要求1-8之一所述的轨迹规划优化方法,其特征在于,所述轨迹规划优化系统包括:模型建立模块,用于预设物联网系统模型、信道模型和能耗模型;轨迹部署模块,用于通过物联网系统模型、信道模型、能耗模型获取无人机的预部署轨迹;最佳轨迹获取模块,用于预设信息年龄模型,所述信息年龄模型用于衡量信息年龄,所
述信息年龄为自无人机接收到的最后一个更新包生成以来经过的时间,通过无人机的预部署轨迹和信息年龄模型获取所有部署的无人机的最佳轨迹,所述无人机的最佳轨迹满足网络中所有物联网设备的加权平均信息年龄最小化;决策模型建立模块,用于建立关于无人机的最佳轨迹的决策模型;强化学习模块,用于对决策模型通过改进算法进行强化学习;最佳飞行策略输出模块,用于通过强化学习后的决策模型,输出无人机的最佳飞行策略。
技术总结
本发明提供了一种无人机轨迹规划优化方法及系统,包括:S1:预设物联网系统模型、信道模型和能耗模型;S2:获取无人机的预部署轨迹;S3:预设信息年龄模型,通过无人机的预部署轨迹和信息年龄模型获取所有部署的无人机的最佳轨迹,所述无人机的最佳轨迹满足网络中所有物联网设备的加权平均信息年龄最小化;S4:建立关于无人机的最佳轨迹的决策模型;S5:进行强化学习;S6:输出无人机的最佳飞行策略,本发明通过研究物联网系统中多无人机采集数据,考虑了机载能量约束下的多无人机飞行策略,基于部分可观测信息,采用改进DQN的多智能体深度强化学习算法设计了一种面向AoI的无人机轨迹规划算法。规划算法。规划算法。
技术研发人员:刘洋 铁勇 贾子凡 张慧敏 杜超阳
受保护的技术使用者:内蒙古大学
技术研发日:2023.07.31
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/