一种基于深度强化学习的无人机数据采集方法与流程

1.本发明涉及无人机技术领域,尤其涉及一种基于深度强化学习的无人机数据采集方法。
背景技术:
2.无人机按应用领域可分为军用与民用,在民用方面,无人机适用的行业相当广泛,需求量大,目前在航拍、农业、植保、微型自拍、快递运输、灾难救援、观察野生动物、监控传染病、测绘、新闻报道、电力巡检、救灾、影视拍摄、制造浪漫等等领域均有相应的应用。
3.近程无人机的制造成本较低,结构也比较简单,可以完成地形险要、气候恶劣区域的任务执行,目前在多个领域都获得了广泛应用。对于近程无人机飞行控制系统而言,姿态解算与数据采集是一种基础和前提。而数据采集的实际精度会对姿态能否正确解算造成直接影响,同时采集数据的速度也会影响飞行控制系统的实际控制精度。
4.有资料显示,国外获取近程无人机姿态数据主要通过陀螺仪与加速度计等传感器来实现,还有国外学者设计了光纤陀螺,实现了很高的数据采集精度,国内对于微机电系统的研究整体起步较晚,对于无人机数据采集的研究也在不断完善。
5.中国专利文献cn113608550a公开了一种“无人机数据采集控制方法、无人机及存储介质”。通过控制多个无人机从多视角对目标物体的一个剖面的所有方位进行包围;控制所述多个无人机沿所述目标物体进行同步采集,得到所述所有方位的全息数据,能够通过多无人机协同对目标物体进行同步数据采集,从而得到目标物体全方位的全息数据,从而提高无人机数据采集的效率,能够完整、不留死角地采集到目标物体的全方位数据。上述技术方案难以满足近程无人机在高维环境状态下的数据采集。
技术实现要素:
6.本发明主要解决原有的技术方案难以满足近程无人机在高维环境状态下的数据采集的技术问题,提供一种基于深度强化学习的无人机数据采集方法,通过深度强化学习,使无人机从感知到对应的决策动作,分析采集环境信息,使用人工智能方法对采集方法进行决策控制,实现无人机的数据采集,并且通过深度卷积神经网络的权值共享和池化等方法,降低算法的复杂度,并有效提取数据特征,同时对于采集数据中存在的传感器静态误差和传感器动态误差针对性地进行校准,增加数据采集准确性。
7.本发明的上述技术问题主要是通过下述技术方案得以解决的:本发明包括以下步骤:
8.s1对无人机数据采集函数进行深度强化学习;
9.s2进行采集函数深度强化学习的决策过程;
10.s3对采集数据进行误差特性分析与校准。
11.深度强化学习融合了深度学习的感知能力与强化学习的决策能力,使无人机从感知到对应的决策动作,分析采集环境信息,使用人工智能方法对采集方法进行决策控制,实
现无人机的数据采集。通过深度卷积神经网络的权值共享和池化等方法,降低算法的复杂度,并有效提取数据特征。
12.作为优选,所述的步骤s1中采集函数的定义如下:
[0013][0014]
其中,代表用于经验回放和存储的样本池,q
ω
(s
t
,a
t
)表示前一时刻的q值;y
t
代表当前奖励的实际值。
[0015]
作为优选,所述的当前奖励的实际值y
t
的计算公式具体如下:
[0016]yt
=r(s
t
,a
t
)+γmax(q
ω'
(s
t+1
,μ
θ
(s
t+1
)))
ꢀꢀ
(2)
[0017]
其中,γ代表环境交互系数,q
ω'
(s
t+1
,μ
θ
(s
t+1
))表示当前时刻对应的q值,r(s
t
,a
t
)代表从样本池内存采集的数据。
[0018]
作为优选,所述的步骤s2深度强化学习中的决策过程为马尔可夫决策,通过状态集s、动作集合a、转移概率p
sa
和回报函数r组成马尔可夫决策过程,即:
[0019]
m={s,a,p
sa
,r}
[0020]
当无人机处于初始状态s0,执行动作a0的转移概率为p0,此刻无人机转移到状态为s1,根据a0和s1计算回报函数r(r1,r2,r3)。深度强化学习中的决策过程为马尔可夫决策。马尔可夫决策过程具有马尔可夫性,具体是指在当前状态条件下,将来时刻的改变不与过去时刻有关,属于随机过程。
[0021]
作为优选,根据无人机执行动作和工作环境进行评估,得到回报函数,将计算的方差作为评价动作决策的值函数,设随机矩阵为x∈n
×
t,则协方差矩阵的计算公式为:
[0022][0023]
根据无人机执行动作和工作环境进行评估,得到回报函数,但回报函数也只是对当下状态的的评价函数,不能够进行决策,因此,将计算的方差作为评价动作决策的值函数。
[0024]
作为优选,所述的步骤s3采集数据的误差包括传感器静态误差和传感器动态误差,所述传感器静态误差来源具体包括随机零偏、交叉耦合误差、标度因数误差、固定零偏;所述传感器动态误差有明显的加速度变化,采集频率会加快,需要进行滑动均值滤波处理。
[0025]
作为优选,所述的步骤s3包括对采集数据进行静态误差特性分析与校准,构建静态误差的对应数学模型,具体如下式所示:
[0026][0027]
其中,bf表示测量零偏,mz、my代表交叉耦合因子,n
x
表示随机零偏,s
x
代表标度因数误差,bv代表振摆误差系数,表示静态误差,az、ay、a
x
代表z、y、x三轴所对应的原始输出值。静态误差主要来自于传感器安装、制造、设计时产生的误差。
[0028]
作为优选,所述的步骤s3包括对采集数据进行动态误差特性分析与校准,具体公式如下:
[0029]
[0030][0031]
其中,xi代表传感器采集数据,aj表示相应权值,yj代表预处理数据,zj表示滤波处理后的数据输出。
[0032]
本发明的有益效果是:通过深度强化学习,使无人机从感知到对应的决策动作,分析采集环境信息,使用人工智能方法对采集方法进行决策控制,实现无人机的数据采集,并且通过深度卷积神经网络的权值共享和池化等方法,降低算法的复杂度,并有效提取数据特征,同时对于采集数据中存在的传感器静态误差和传感器动态误差针对性地进行校准,增加数据采集准确性。
附图说明
[0033]
图1是本发明的一种流程图。
[0034]
图2是本发明的一种无人机的马尔可夫决策流程图。
[0035]
图3是本发明的一种静止状态下采集的各轴数据图。
[0036]
图4是本发明的一种采集的各项数据图。
具体实施方式
[0037]
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
[0038]
实施例:本实施例的一种基于深度强化学习的无人机数据采集方法,如图1所示,包括以下步骤:
[0039]
s1对无人机数据采集函数进行深度强化学习;
[0040]
s2进行采集函数深度强化学习的决策过程;
[0041]
s3对采集数据进行误差特性分析与校准。
[0042]
深度强化学习融合了深度学习的感知能力与强化学习的决策能力,使无人机从感知到对应的决策动作,分析采集环境信息,使用人工智能方法对采集方法进行决策控制,实现无人机的数据采集。通过深度卷积神经网络的权值共享和池化等方法,降低算法的复杂度,并有效提取数据特征。
[0043]
对采集函数的定义如下:
[0044][0045]
式中代表用于经验回放和存储的样本池;q
ω
(s
t
,a
t
)表示前一时刻的q值;y
t
代表当前奖励的实际值,其计算公式具体如下:
[0046]yt
=r(s
t
,a
t
)+γmax(q
ω'
(s
t+1
,μ
θ
(s
t+1
)))
ꢀꢀ
(2)
[0047]
式中γ代表环境交互系数;q
ω'
(s
t+1
,μ
θ
(s
t+1
))表示当前时刻对应的q值;r(s
t
,a
t
)代表从样本池内存采集的数据。
[0048]
深度强化学习中的决策过程为马尔可夫决策。马尔可夫决策过程具有马尔可夫性,具体是指在当前状态条件下,将来时刻的改变不与过去时刻有关,属于随机过程。通过状态集s、动作集合a、转移概率p
sa
和回报函数r组成马尔可夫决策过程,即m={s,a,p
sa
,r}。
当无人机处于初始状态s0,执行动作a0的转移概率为p0,此刻无人机可转移到状态为s1,根据a0和s1计算回报函数r(r1,r2,r3),整体无人机的马尔可夫决策流程如图2所示。
[0049]
根据无人机执行动作和工作环境进行评估,得到回报函数,但回报函数也只是对当下状态的的评价函数,不能够进行决策,因此,将计算的方差作为评价动作决策的值函数。
[0050]
设随机矩阵为x∈n
×
t,则协方差矩阵的计算公式为:
[0051][0052]
根据深度学习提取的数据特征,结合马尔可夫决策过程,实现无人机数据采集的应用。
[0053]
对于采集数据中存在的传感器静态误差和传感器动态误差误差,需要针对性地对不同种类的误差实施特性分析并对误差进行校准。静态误差主要来自于传感器安装、制造、设计时产生的误差,其误差来源具体包括随机零偏、交叉耦合误差、标度因数误差、固定零偏
[9]
。构建静态误差的对应数学模型,具体如下式所示:
[0054][0055]
式中bf表示测量零偏;mz、my代表交叉耦合因子;n
x
表示随机零偏;s
x
代表标度因数误差;bv代表振摆误差系数;表示静态误差;az、ay、a
x
代表z、y、x三轴所对应的原始输出值。
[0056]
动态误差有明显的加速度变化,采集频率会加快,需要进行滑动均值滤波处理,具体公式如下:
[0057][0058][0059]
上式中xi代表传感器采集数据;aj表示相应权值;yj代表预处理数据;zj表示滤波处理后的数据输出。
[0060]
为进一步验证设计的基于深度强化学习的近程无人机数据采集方法的可行性与实用性,通过实例验证其数据采集的准确性。
[0061]
通过ahrs这一上位机软件实施基于深度强化学习的近程无人机数据采集方法的实例验证。使用飞控计算机,利用串口实现飞控计算机与上位机之间的通信,对姿态信息以及各传感器信息进行实时显示,以对飞行过程中近程无人机的姿态信息进行观察与调试。同时利用该软件还可以实现3d姿态显示,对姿态信息进行更加直观地观测。在实验中,近程无人机通过串口与上位机通信,停止位设置为1位,位数设置为8位。通过上位机软件进行解帧以及在3d显示、文字、波形中对相应数据进行更新。
[0062]
实验中各角度间的对应关系具体如下:
[0063]
解算后的近程无人机航向角:0
→
3600对应的是0
→
360
°
,单位是0.1
°
;横滚角:-1800
→
1800对应的是-180
→
180
°
,单位是0.1
°
;俯仰角:-900
→
900对应的是-90.0
→
90.0
°
,单位是0.1
°
;气压计所对应的高度值:范围是某整型变量,单位是0.1m;温度计所对应的高
度值:范围是电路板正常工作,单位是0.1℃。
[0064]
近程无人机在静止一直到飞行具体可以分为以下几种状态:加减速状态、悬停状态、匀速运动状态、临界起飞状态以及启动而未飞行状态。
[0065]
根据以上状态,选取两种类型的近程无人机飞行状态进行实验,采用深度卷积神经网络算法结合马尔可夫决策流程,进行启动而未飞行近程无人机数据采集实例验证,和匀速运动近程无人机数据采集实例验证。
[0066]
启动而未飞行时的实例验证
[0067]
其中在启动而未飞行时采集加速度计和陀螺仪数据时,磁强计的实际分辨力是0.1lbs/g;陀螺仪的实际分辨力是16.4lsb/dps;加速度计的实际标度是16384lsb。该状态下采集的各轴数据如图3所示。
[0068]
对各轴采集误差进行计算,计算公式具体如下:
[0069][0070]
式(7)中max代表采集最大数值;min表示采集最小数值;x代表采集数值。在60s左右,x轴计算的静态误差约为0.006100g;y轴计算的静态误差约为0.005787g;z轴计算的静态误差约为0.009155g。
[0071]
由计算的三轴误差数据可知,在启动而未飞行时,基于深度强化学习的近程无人机数据采集方法的采集误差整体较低。
[0072]
匀速运动时的实例验证
[0073]
接着对匀速运动状态下近程无人机的数据进行采集,此时保持各项实验数据的一致,分别对近程无人机的偏航角、俯仰角、滚转角数据进行采集,采集的各项数据具体如图4所示。
[0074]
根据图4数据,100s的时间内,滚转角的范围在-5.95
°‑
6.05
°
之间;俯仰角的范围在-0.07
°‑
0.08
°
之间;偏航角的范围在-0.65
°‑
0.66
°
之间。与实际数据相比较,发现各项误差均在0.0.1
°
左右,整体误差较低。
技术特征:
1.一种基于深度强化学习的无人机数据采集方法,其特征在于,包括以下步骤:s1对无人机数据采集函数进行深度强化学习;s2进行采集函数深度强化学习的决策过程;s3对采集数据进行误差特性分析与校准。2.根据权利要求1所述的一种基于深度强化学习的无人机数据采集方法,其特征在于,所述步骤s1中采集函数的定义如下:其中,代表用于经验回放和存储的样本池,q
ω
(s
t
,a
t
)表示前一时刻的q值;y
t
代表当前奖励的实际值。3.根据权利要求2所述的一种基于深度强化学习的无人机数据采集方法,其特征在于,所述当前奖励的实际值y
t
的计算公式具体如下:其中,γ代表环境交互系数,q
ω'
(s
t+1
,μ
θ
(s
t+1
))表示当前时刻对应的q值,r(s
t
,a
t
)代表从样本池内存采集的数据。4.根据权利要求1所述的一种基于深度强化学习的无人机数据采集方法,其特征在于,所述步骤s2深度强化学习中的决策过程为马尔可夫决策,通过状态集s、动作集合a、转移概率p
sa
和回报函数r组成马尔可夫决策过程,即:m={s,a,p
sa
,r}当无人机处于初始状态s0,执行动作a0的转移概率为p0,此刻无人机转移到状态为s1,根据a0和s1计算回报函数r(r1,r2,r3)。5.根据权利要求4所述的一种基于深度强化学习的无人机数据采集方法,其特征在于,根据无人机执行动作和工作环境进行评估,得到回报函数,将计算的方差作为评价动作决策的值函数,设随机矩阵为x∈n
×
t,则协方差矩阵的计算公式为:6.根据权利要求1所述的一种基于深度强化学习的无人机数据采集方法,其特征在于,所述步骤s3采集数据的误差包括传感器静态误差和传感器动态误差,所述传感器静态误差来源具体包括随机零偏、交叉耦合误差、标度因数误差、固定零偏;所述传感器动态误差有明显的加速度变化,采集频率会加快,需要进行滑动均值滤波处理。7.根据权利要求1或6所述的一种基于深度强化学习的无人机数据采集方法,其特征在于,所述步骤s3包括对采集数据进行静态误差特性分析与校准,构建静态误差的对应数学模型,具体如下式所示:其中,b
f
表示测量零偏,m
z
、m
y
代表交叉耦合因子,n
x
表示随机零偏,s
x
代表标度因数误差,b
v
代表振摆误差系数,表示静态误差,a
z
、a
y
、a
x
代表z、y、x三轴所对应的原始输出值。8.根据权利要求1或6所述的一种基于深度强化学习的无人机数据采集方法,其特征在
于,所述步骤s3包括对采集数据进行动态误差特性分析与校准,具体公式如下:于,所述步骤s3包括对采集数据进行动态误差特性分析与校准,具体公式如下:其中,x
i
代表传感器采集数据,a
j
表示相应权值,y
j
代表预处理数据,z
j
表示滤波处理后的数据输出。
技术总结
本发明公开了一种基于深度强化学习的无人机数据采集方法,包括以下步骤:对无人机数据采集函数进行深度强化学习;进行采集函数深度强化学习的决策过程;对采集数据进行误差特性分析与校准。通过深度强化学习,使无人机从感知到对应的决策动作,分析采集环境信息,使用人工智能方法对采集方法进行决策控制,实现无人机的数据采集,并且通过深度卷积神经网络的权值共享和池化等方法,降低算法的复杂度,并有效提取数据特征,同时对于采集数据中存在的传感器静态误差和传感器动态误差针对性地进行校准,增加数据采集准确性。增加数据采集准确性。增加数据采集准确性。
技术研发人员:汪大海 魏征宇 黄相良 诸加荣 赵勇 韩泽凯 季奕驰 许资来 林易乐
受保护的技术使用者:浙江图盛输变电工程有限公司温州科技分公司
技术研发日:2023.03.27
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/