一种面向仓储机器人系统的行为优先级智能调整方法

未命名 10-08 阅读:87 评论:0


1.本发明涉及智能机器人技术领域,特别涉及一种面向仓储机器人系统的行为优先级智能调整方法。


背景技术:

2.近年来,仓储机器人系统具有较高的灵活性、自主性、容错性与可扩展性,在工业应用领域具有广泛的应用前景和重要的理论研究价值。各机器人通过完成特定的局部任务来实现仓储机器人系统的全局任务,而其中的任务协调与分配问题尤为关键,因而受到日益广泛的关注,并逐渐成为复杂性科学研究的一个焦点问题。
3.仓储机器人系统通常需要在非结构化的环境中工作,存在多个任务需要被分配和执行,例如跟踪预设轨迹、躲避静态与动态障碍物、团体聚集和保持编队队形等。而这些任务之间往往存在互相冲突,例如一个机器人不能在沿着预设轨迹移动同时避开预设轨迹上出现的障碍物。因此,如何处理多任务之间的冲突问题成为了仓储机器人系统任务协调与分配的核心问题之一。
4.行为控制方法是解决多机器人任务冲突的有效途径,在近些年中来得到较为广泛的研究,其通过设置任务优先级与设计优先级任务的协同方案来解决任务之间的冲突问题。但现有的分层行为控制方法只有高优先级的任务被执行,没有充分利用仓储机器人系统的自由度和冗余度。而运动模式行为控制方法存在着没有任何任务能够被完整执行的问题。零空间行为控制虽然保证了高优先级任务被执行的情况下,利用任务的零空间,执行了部分的低优先级任务,但是存在着优先级是人为预设且不能动态调整的致命缺陷,这极大的限制了零空间行为控制的应用。
5.对此,学者已展开各项相关的研究,如有限状态机法、模糊逻辑法和模型预测控制法等。但现有的方法需要人为事先设计好任务优先级的调整规则,当任务的数量非常多或在动态且未知的环境中很难实现对任务优先级的调整,且需要大量的在线计算和较大的存储空间,给硬件带来了巨大的负担。同时,大多数方法都只用到了当前的机器人状态信息,而未对未来的状态进行预测,从而降低了零空间方法的性能,缺乏智能性。
6.针对目前方法所存在的主要问题,本发明将强化学习技术引入到零空间行为控制的动态任务优先级调整中,通过离线的训练取代最优策略,从而在实际中对仓储机器人系统进行行为优先级调整的指导。该方法不需要人为的设定任务优先级调整条件,不需要进行大量的在线计算和较大的存储空间,且能够应用于现有方法难以处理的大数量任务优先级动态调整中。


技术实现要素:

7.本发明的目的在于以多机器人系统为研究对象,针对基于零空间行为控制机器人的行为优先级动态调整问题,提供一种面向仓储机器人系统的行为优先级智能调整方法,该方法不需要人为地设定任务优先级的调整条件,从而减少了研究人员的工作量,并具有
良好的可扩展性,能被应用于传统逻辑法难以处理的大数量任务优先级动态调整中。同时,由于本方法是离线学习完成后进行使用,不需要在线地进行计算和存储大量数据,在一定程度上减少了硬件的在线计算及存储的压力。
8.为实现上述目的,本发明的技术方案是:一种面向仓储机器人系统的行为优先级智能调整方法,首先,采用基于零空间的行为控制方法对仓储机器人系统的基本行为进行设计,并通过零空间的投影方法,将所设计的仓储机器人系统的基本行为以不同的优先级顺序组合成为仓储机器人系统的复合行为;其次,结合强化学习中的dqn算法设计强化学习任务监管,将仓储机器人系统的复合行为的速度输出作为强化学习的动作集,选取机器人状态信息作为强化学习的状态集,再设计奖励函数,以此构建强化学习任务监管;最后,在所设计的强化学习任务监管的基础上,进行2个优化,一个是使用带优先级顺序的经验池代替原有的经验池,另一个是将强化学习任务监管的网络结构修改为dueling的结构,并进行离线训练,通过最大累积奖励来获取最优策略,来指导仓储机器人系统在每个时刻选取最优的复合行为,间接实现行为优先级的动态调整。该方法包括如下步骤:
9.步骤一、基本行为的设计与复合行为的构建
10.首先,利用基于零空间的行为控制方法设计智能体的基本任务即仓储机器人系统的基本行为σ,然后枚举所有任务优先级的可能,并采用零空间投影的方法,将所设计的基本行为以不同的优先级顺序组合成为复合行为;
11.步骤二、强化学习任务监管的设计
12.在步骤一的基础上,结合强化学习中的dqn算法,将各复合行为的速度输出作为dqn算法的动作集合,选取智能体状态信息作为dqn算法的状态集合,再设计奖励函数,构建强化学习的任务监管;
13.步骤三、学习效果的优化及离线训练
14.在步骤一和步骤二的基础上,进行2个优化,一个是使用带优先级顺序的经验池代替原有的经验池,另一个是将强化学习的任务监管的网络结构修改为dueling的结构,并进行离线训练,通过最大累积奖励来获取最优策略,进而指导仓储机器人系统在每个时刻选取最优的复合行为,间接实现行为优先级的动态调整。
15.在本发明一实施例中,步骤一具体实现如下:
16.a基本行为的设计
17.对于第i个智能体,i=1,....,n,其一个基本行为通过一个任务变量σi∈rm进行编码,rm表示任务的是m维,其是一个与系统配置相关的函数,表示系统自由度为n
x
维,并表示为:
18.σi=fi(xi)
ꢀꢀ
(1)
19.对其微分后得:
[0020][0021]
其中是与系统配置相关的任务雅可比矩阵,表示任务雅可比矩阵为m
×nx
维,是第i个智能体的速度;通过局部线性反映射,第i个智能体的参考速度v
i,d
表示为:
[0022][0023]
其中σ
i,d
表示第i个智能体的参考位置,表示雅可比矩阵的伪逆;在实际应用中,参考速度的积分会导致智能体位置的数值漂移,因此,如下的闭环逆运动学形式被用于补偿此数值漂移:
[0024][0025]
其中λi是一个常数正定增益矩阵,是第i个智能体的任务误差;
[0026]
假设每个智能体的每个行为都是当地行为,即行为中只包含智能体本身的状态信息,不包含其他智能体的任何状态信息;
[0027]
b复合行为的构建
[0028]
一个复合任务是多个基本行为以预定的优先级顺序的组合;设定为第i个智能体的任务函数,其中jm∈nc,nc={1,...,c},mj表示任务空间的维度,c表示基本行为的数量;定义与时间相关的优先级函数gi(jm,t):nc×
[0,∞]

nc;同时,定义一个具有如下规则的任务层次结构:
[0029]
1)一个具有gi(j
α
)优先级的任务j
α
不能干扰具有gi(j
β
)优先级的任务j
β
,如果gi(j
α
)≥gi(j
β
),j
α
≠j
β

[0030]
2)从速度到任务速度的映射关系由任务的雅可比矩阵表示,表示任务雅可比矩阵的m
×nx
维;
[0031]
3)具有最低优先级任务mc的维度可能大于因此要确保维度mn大于所有任务的总维度;
[0032]
4)gi(jm)的值由任务主管根据任务的需要和传感器信息分配;
[0033]
通过给基本任务分配给定的优先级,t时刻复合任务的速度表示为
[0034][0035]
其中v
i,k,t
是第i个智能体具有优先级g(jm,t)=k任务的速度。
[0036]
在本发明一实施例中,步骤二具体实现如下:
[0037]
假设每一个智能体都具有m个本地行为,令e表示一个静态的环境;表示第i个智能体的状态集合,ns表示智能体迭代次数,表示第i个智能体的状态,选取为智能体位置,bi={b
i,1
,...,b
i,m
}表示第i个智能体的行为集合,b
i,j
表示第i个智能体具有不同优先级顺序的复合行为的速度输出,j=1,...,m;m表示总训练回合数;t表示每回合的总时间步数;di表示第i个智能体经验池;nd表示经验池的容量;p
i,0
表示第i个智能体的初始位置;
[0038]
在每一个时间步,仓储机器人系统首先与环境进行交互,其中第i个智能体在当前状态s
i,t
下,选择行为b
i,t
,得到一个奖励r
i,t
,并转移到下一个状态s
i,t+1
;其次,将这次的经历的4元组(s
i,t
,b
i,t
,r
i,t
,s
i,t+1
)存储到di;值得注意的是di只能存储nd次经历,第(nd+1)次经历会取代第1次的经历;然后,从经验池中随机抽取nm次经历进行学习;最后,循环至强化学习的任务监管的神经网络收敛。
[0039]
在本发明一实施例中,步骤三具体实现如下:
[0040]
对强化学习任务监管的结构采取2个优化措施;一个是采样具有优先级的经验池代替原有的经验池,第i个智能体的时间差分误差为q目标和q估计qi(s
i,t
,b
i,t
;ω)的平方差,其中γ表奖励的折扣因子,表示在状态s
i,t+1
下采取使之最大化的动作b
i,t+1
获取的最优状态价值函数的估计,ω-和ω分别表示目标网络和主网络的网络参数,若时间差分误差大于阈值,增加优先级顺序,使得有大于阈值的时间差分误差的经历能够更多的被学习加快神经网络的收敛;另一个是将神经网络的结构调整为dueling结构;强化学习任务监管首先将第i个智能体的q函数分解为值函数vi(si;ω,β)和优势函数a
b,i
(si,bi;ω,α),β和α分别表是值函数和优势函数的参数;然后使用一个值函数网络和一个与状态无关的行为优势函数分别去估计vi(si;ω,β)和a
b,i
(si,bi;ω,α),最终的q网络的输出由值函数网络和优势函数线性组合得到。
[0041]
在本发明一实施例中,仓储机器人系统的基本行为设计具体如下:
[0042]
a1移动行为
[0043]
在移动行为中,仓储机器人沿着预定的轨迹向目标点移动;第i个智能体相应的任务函数被定义为:
[0044]
σ
i,m
=pi∈r2×1ꢀꢀ
(6)
[0045]
其中pi=[p
i,x
,p
i,y
]
t
为第i个智能体的位置,相应的期望移动行为的速度表示为:
[0046][0047]
其中j
i,m
=i2为移动行为的雅可比矩阵,i2表示单位矩阵,为移动行为雅可比矩阵的伪逆,σ
i,m,d
为期望的任务函数,λ
i,m
为移动行为的常数正定增益矩阵,为移动行为的误差;
[0048]
a2避障行为
[0049]
在避障行为中,仓储机器人必须避开由传感器检测到在预设轨迹上的障碍物;第i个智能体相应的任务函数被定义为:
[0050]
σ
i,o
=||p-po||∈r
ꢀꢀ
(8)
[0051]
其中p
i,o
=[p
i,ox
,p
i,oy
]
t
为障碍物的位置;相应的期望避障行为的速度表示为:
[0052][0053]
其中为避障任务的雅可比矩阵,为避障任务的雅可比矩阵,为避障任务雅可比矩阵的伪逆,λ
i,o
为避障任务的常数正定增益矩阵,为避障任务的任务误差,d表示安全距离。
[0054]
在本发明一实施例中,仓储机器人系统的复合行为的构建具体如下:
[0055]
第一个复合行为将避障行为作为最高优先级,则根据零空间投影方法得到第i个智能体的最终复合行为速度为:
[0056]
复合行为1:
[0057]
其中为避障行为的零空间;
[0058]
第二个复合行为将移动行为作为最高优先级,则根据零空间投影方法得到第i个智能体的最终复合行为速度为:
[0059]
复合行为2:
[0060]
其中为避障行为的零空间。
[0061]
在本发明一实施例中,奖励函数的设计具体如下:
[0062]
定义第i个智能体的跟踪误差为
[0063]ei
(t)=σ
i,m-pi(t)
ꢀꢀ
(12)
[0064]
定义奖励函数ri(t)为2部分的总和:
[0065]ri,1
(t)=-10tanh(ei(t)δt-εr)
ꢀꢀ
(13)
[0066][0067]ri
(t)=r
i,1
(t)+r
i,2
(t)
ꢀꢀ
(15)
[0068]
其中δt表示采样间隔;εr∈(0,0.5]。
[0069]
相较于现有技术,本发明具有以下有益效果:
[0070]
本发明以仓储机器人系统为研究对象,针对零空间行为控制中行为优先级智能动态调整问题,提出了一种面向仓储机器人系统的行为优先级智能调整方法。此方法可以有效地解决仓储机器人系统零空间行为控制中行为优先级动态调整的问题,并且规避了人为的预先设计任务的调整规则,减少了研究人员的工作量。同时,所提出的方法具有良好的可扩展性,可以用以处理大数量任务和动态未知环境中的动态任务优先级调整问题,且不需要在线的进行大量的计算和较大的存储空间,一定程度上减少了硬件的压力。而传统的方法,由于需要人预先的设计规则,当任务的数量较多且环境未知的情况下,会给设计人员带来极大的难题,且设计人员难以考虑到所有可能出现的复杂情况,进而影响到任务优先级调整的性能。且需要大量的在线计算和较大的存储空间,对硬件要求较高。此外,所提出的方法,最大的累积的奖励,因此不单单考虑了自主机器人的当前状态信息,还考虑到了未来的状态信息,进而提高了任务优先级的调整效果。
附图说明
[0071]
构成本技术的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0072]
图1为本发明一种面向仓储机器人系统图;
[0073]
图2为本发明rlms的结构原理图;
[0074]
图3为本发明rlms经验池回机器人系统的行为优先级智能调整方法的原理框图;
[0075]
图4为本发明rlms网络结构优化原理图;
[0076]
图5为本发明rlms算法伪代码图;
[0077]
图6为本发明实施例的rlms与fmams下仓储机器人系统的轨迹图;
[0078]
图7为本发明实施例的rlms与fmams下仓储机器人系统与障碍物之间的距离图;
[0079]
图8为本发明实施例的rlms与fmams下仓储机器人系统的跟踪误差图;
[0080]
图9为本发明实施例的rlms与fmams下仓储机器人系统行为优先级调整图。
具体实施方式
[0081]
下面结合附图1-9,对本发明的技术方案进行具体说明。
[0082]
为了详细介绍本发明,以下详细阐述一种面向仓储机器人系统的行为优先级智能调整方法,其原理框图如图2示,大致可分为基本行为的设计和复合的行为的构建,强化学习任务监管的设计和学习效果的优化及离线训练三个部分。
[0083]
步骤一、基本行为的设计与复合任务的构建
[0084]
a.基本行为的设计
[0085]
对于第i个智能体,i=1,....,n,其的一个基本行为可以通过一个任务变量σi∈rm进行编码,其是一个与系统配置相关的函数,并可表示为:
[0086]
σi=fi(xi)
ꢀꢀ
(1)
[0087]
对其微分后可得:
[0088][0089]
其中是与系统配置相关的任务雅可比矩阵,是第i个智能体的速度。通过局部线性反映射,第i个智能体的参考的速度v
i,d
可以表示为:
[0090][0091]
其中σ
i,d
表示第i个智能体的参考位置,表示雅可比矩阵的伪逆。在实际应用中,参考速度的积分会导致智能体位置的数值漂移,因此,如下的闭环逆运动学(closed-loop inverse kinematics)形式被用于补偿此数值漂移:
[0092][0093]
其中λi是一个合适的常数正定增益矩阵,是第i个智能体的任务误差。
[0094]
假设1:每个智能体的每个行为都是当地行为,即行为中只包含智能体本身的状态信息,不包含其他智能体的任何状态信息。
[0095]
b.复合行为的构建
[0096]
一个复合任务是多个基本行为以一定的优先级顺序的组合。设定为第i个智能体的任务函数,其中jm∈nc,nc={1,...,c},mj表示任务空间的维度。定义与时间相关的优先级函数gi(jm,t):nc×
[0,∞]

nc。同时,定义一个具有如下规则的任务层次结构:
[0097]
1)一个具有gi(j
α
)优先级的任务j
α
不能干扰具有gi(j
β
)优先级的任务j
β
,如果gi(j
α
)≥gi(j
β
),j
α
≠j
β

[0098]
2)从速度到任务速度的映射关系由任务的雅可比矩阵表示。
[0099]
3)具有最低优先级任务mc的维度可能大于因此要确保维度mn大于
所有任务的总维度。
[0100]
4)gi(jm)的值由任务主管根据任务的需要和传感器信息分配。
[0101]
通过给基本任务分配给定的优先级,t时刻复合任务的速度可以表示为
[0102][0103]
其中v
i,k,t
是第i个智能体具有优先级g(jm,t)=k任务的速度。
[0104]
步骤二、强化学习任务监管的设计
[0105]
假设每一个智能体都具有m个本地行为,令e表示一个静态的环境;表示第i个智能体的状态集合,表示第i个智能体的状态,通常选取为智能体位置;bi={b
i,1
,...,b
i,m
}表示第i个智能体的行为集合,b
i,j
,j=1,...,m,表示第i个智能体具有不同优先级顺序的复合行为的速度输出;m表示总训练回合数;t表示每回合的总时间步数;di表示第i个智能体经验池;nd表示经验池的容量;p
i,0
表示第i个智能体的初始位置。
[0106]
强化学习任务监管的结构框图如图3示。在每一个时间步,仓储机器人系统首先与环境进行交互,其中第i个智能体在当前状态s
i,t
下,选择行为b
i,t
,得到一个奖励r
i,t
,并转移到下一个状态s
i,t+1
。其次,将这次的经历的4元组(s
i,t
,b
i,t
,r
i,t
,s
i,t+1
)存储到di。值得注意的是di只能存储nd次经历,第(nd+1)次经历会取代第1次的经历。然后,从经验池中随机抽取nm次经历进行学习,其原理框图如图4示;最后,循环至神经网络收敛。
[0107]
步骤三:学习效果的优化及离线训练
[0108]
为了提高学习的精度和网络收敛的速度,对强化学习任务监管的结构采取了2个优化措施。一个是采样具有优先级的经验池代替原有的经验池。第i个智能体的时间差分误差为q目标和q估计qi(s
i,t
,b
i,t
;ω)的平方差,其中γ表奖励的折扣因子,表示在状态s
i,t+1
下采取使之最大化的动作b
i,t+1
获取的最优状态价值函数的估计,ω-和ω分别表示目标网络和主网络的网络参数,若时间差分误差很大,这表明q目标与q估计具有较大的差值,所以估计的精度有较大的调整空间。具有较大时间差分误差的经历能够让智能体学到更多,所以增加优先级顺序,使得有较大时间差分误差的经历能够更多的被学习可以加快神经网络的收敛。另一个是将神经网络的结构调整为dueling结构。强化学习任务监管首先将第i个智能体的q函数分解为值函数vi(si;ω,β)和优势函数a
b,i
(si,bi;ω,α),β和α分别表是值函数和优势函数的参数。然后使用一个值函数网络和一个与状态无关的行为优势函数分别去估计vi(si;ω,β)和a
b,i
(si,bi;ω,α),最终的q网络的输出由值函数网络和优势函数线性组合得到。这种分解的主要好处是当存在许多具有相似值的行为时,该体系结构可以得到更好的策略评估,其原理如图4所示。最终算法的伪代码图如图5所示。
[0109]
为了详细介绍本发明,以下给出一个具体实例以体现所提出的一种基于强化学习的仓储机器人系统行为优先级动态调整方法的有效性及优越性。
[0110]
1.基本行为的设计
[0111]
a.移动行为
[0112]
在移动行为中,机器人沿着预定的轨迹向目标点移动。第i个智能体相应的任务函
数可以被定义为:
[0113]
σ
i,m
=pi∈r2×1ꢀꢀ
(6)
[0114]
其中pi=[p
i,x
,p
i,y
]
t
为第i个智能体的位置。相应的期望移动行为的速度可表示为:
[0115][0116]
其中j
i,m
=i2为移动行为的雅可比矩阵,i2表示单位矩阵,为移动行为雅可比矩阵的伪逆,σ
i,m,d
为期望的任务函数,λ
i,m
为移动行为的常数正定增益矩阵,为移动行为的误差。
[0117]
b.避障行为
[0118]
在避障行为中,机器人必须避开由传感器检测到在预设轨迹上的障碍物。第i个智能体相应的任务函数可以被定义为:
[0119]
σ
i,o
=||p-po||∈r
ꢀꢀ
(8)
[0120]
其中p
i,o
=[p
i,ox
,p
i,oy
]
t
为障碍物的位置。相应的期望避障行为的速度可表示为:
[0121][0122]
其中为避障任务的雅可比矩阵,为避障任务的雅可比矩阵,为避障任务雅可比矩阵的伪逆,λ
i,o
为避障任务的常数正定增益矩阵,为避障任务的任务误差,d表示安全距离。
[0123]
2.复合行为的构建
[0124]
第一个复合行为将避障行为作为最高优先级,则根据零空间投影方法得到第i个智能体的最终复合行为速度为:
[0125]
复合行为1:
[0126]
其中为避障行为的零空间。
[0127]
第二个复合行为将移动行为作为最高优先级,则根据零空间投影方法得到第i个智能体的最终复合行为速度为:
[0128]
复合行为2:
[0129]
其中为避障行为的零空间。
[0130]
3.奖励函数的设计
[0131]
定义第i个智能体的跟踪误差为
[0132]ei
(t)=σ
i,m-pi(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0133]
定义奖励函数ri(t)为2部分的总和:
[0134]ri,1
(t)=-10tanh(ei(t)δt-εr)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0135][0136]ri
(t)=r
i,1
(t)+r
i,2
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0137]
其中δt表示采样间隔;εr∈(0,0.5]是一个小的正常数,可以提高神经网络的收敛性能。
[0138]
4.仿真对比与分析
[0139]
给出的仿真案例中,将强化学习任务监管(reinforcement learning mission supervisor,rlms)和传统有限状态机任务监管(finite stateautomatamission supervisor,fsams)进行了比较,其中fsams是通过判断障碍物和机器人之间的距离和安全距离的大小来调整任务优先级的,即当障碍物和机器人之间的距离小于安全距离时避障行为为最高优先级,当障碍物与机器人之间的距离大于安全距离时移动行为为最高优先级。三个机器人的预设轨迹分别为σ
1,d
(t)=[-2+0.9t;2+0.9t],σ
2,d
(t)=[1+0.9t;1+0.9t],σ
3,d
(t)=[1+0.9t;-3+0.9t],避障行为增益为9,移动行为增益为20,安全距离为1m,εr为0.4,采样间隔δt为0.05s,经验池的容量nd为10000,6个障碍物的位置分别为p
o1
=[4;8.5],p
o2
=[3.5;2.5],p
o3
=[7.5;8.2],p
o4
=[5;0.5],p
o5
=[0;6],p
o6
=[9;1],rlms和fsams的采样频率均为较低的频率20hz。所提出的rlms和传统fsams下仓储机器人系统轨迹图如图6所示,所提出的rlms和传统fsams下仓储机器人系统与障碍物之间的距离图如图7所示,所提出的rlms和传统fsams下仓储机器人系统的跟踪误差图如图8所示。结果表明,在相同较低的采样频率下,所提出的rlms性能明显优于传统fsams。所提出的rlms和传统fsams下仓储机器人系统的行为优先级调整图如图9所示。fsams在遇到障碍物时,为了避开障碍物而频繁地调整,导致了轨迹的振荡和对安全距离的违反。另一方面,所提出的rlms在不违反安全距离约束的情况下,仅使用两个优先级调整就能顺利完成任务。这可以由rlms是最大累积的奖励来解释。这证明了所提出的rlms的有效性及其相对于传统的fsams方法的优势。
[0140]
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

技术特征:
1.一种面向仓储机器人系统的行为优先级智能调整方法,其特征在于,首先,采用基于零空间的行为控制方法对仓储机器人系统的基本行为进行设计,并通过零空间的投影方法,将所设计的仓储机器人系统的基本行为以不同的优先级顺序组合成为仓储机器人系统的复合行为;其次,结合强化学习中的dqn算法设计强化学习任务监管,将仓储机器人系统的复合行为的速度输出作为强化学习的动作集,选取机器人状态信息作为强化学习的状态集,再设计奖励函数,以此构建强化学习任务监管;最后,在所设计的强化学习任务监管的基础上,进行2个优化,一个是使用带优先级顺序的经验池代替原有的经验池,另一个是将强化学习任务监管的网络结构修改为dueling的结构,并进行离线训练,通过最大累积奖励来获取最优策略,来指导仓储机器人系统在每个时刻选取最优的复合行为,间接实现行为优先级的动态调整。2.根据权利要求1所述的一种面向仓储机器人系统的行为优先级智能调整方法,其特征在于,包括如下步骤:步骤一、基本行为的设计与复合行为的构建首先,利用基于零空间的行为控制方法设计智能体的基本任务即仓储机器人系统的基本行为σ,然后枚举所有任务优先级的可能,并采用零空间投影的方法,将所设计的基本行为以不同的优先级顺序组合成为复合行为;步骤二、强化学习任务监管的设计在步骤一的基础上,结合强化学习中的dqn算法,将各复合行为的速度输出作为dqn算法的动作集合,选取智能体状态信息作为dqn算法的状态集合,再设计奖励函数,构建强化学习的任务监管;步骤三、学习效果的优化及离线训练在步骤一和步骤二的基础上,进行2个优化,一个是使用带优先级顺序的经验池代替原有的经验池,另一个是将强化学习的任务监管的网络结构修改为dueling的结构,并进行离线训练,通过最大累积奖励来获取最优策略,进而指导仓储机器人系统在每个时刻选取最优的复合行为,间接实现行为优先级的动态调整。3.根据权利要求2所述的一种面向仓储机器人系统的行为优先级智能调整方法,其特征在于,步骤一具体实现如下:a基本行为的设计对于第i个智能体,i=1,....,n,其一个基本行为通过一个任务变量σ
i
∈r
m
进行编码,r
m
表示任务是m维,其是一个与系统配置相关的函数,表示系统自由度为n
x
维,并表示为:σ
i
=f
i
(x
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)对其微分后得:其中是与系统配置相关的任务雅可比矩阵,表示任务雅可比矩阵为m
×
n
x
维,是第i个智能体的速度;通过局部线性反映射,第i个智能体的参考速度v
i,d
表示为:
其中σ
i,d
表示第i个智能体的参考位置,表示雅可比矩阵的伪逆;在实际应用中,参考速度的积分会导致智能体位置的数值漂移,因此,如下的闭环逆运动学形式被用于补偿此数值漂移:其中λ
i
是一个常数正定增益矩阵,是第i个智能体的任务误差;假设每个智能体的每个行为都是当地行为,即行为中只包含智能体本身的状态信息,不包含其他智能体的任何状态信息;b复合行为的构建一个复合任务是多个基本行为以预定的优先级顺序的组合;设定为第i个智能体的任务函数,其中j
m
∈n
c
,n
c
={1,...,c},m
j
表示任务空间的维度,c表示基本行为的数量;定义与时间相关的优先级函数g
i
(j
m
,t):n
c
×
[0,∞]

n
c
;同时,定义一个具有如下规则的任务层次结构:1)一个具有g
i
(j
α
)优先级的任务j
α
不能干扰具有g
i
(j
β
)优先级的任务j
β
,如果2)从速度到任务速度的映射关系由任务的雅可比矩阵表示;3)具有最低优先级任务m
c
的维度可能大于因此要确保维度m
n
大于所有任务的总维度;4)g
i
(j
m
)的值由任务主管根据任务的需要和传感器信息分配;通过给基本任务分配给定的优先级,t时刻复合任务的速度表示为其中v
i,k,t
是第i个智能体具有优先级g(j
m
,t)=k任务的速度。4.根据权利要求3所述的一种面向仓储机器人系统的行为优先级智能调整方法,其特征在于,步骤二具体实现如下:假设每一个智能体都具有m个本地行为,令e表示一个静态的环境;表示第i个智能体的状态集合,n
s
表示智能体迭代次数,表示第i个智能体的状态,选取为智能体位置,b
i
={b
i,1
,...,b
i,m
}表示第i个智能体的行为集合,b
i,j
表示第i个智能体具有不同优先级顺序的复合行为的速度输出,j=1,...,m;m表示总训练回合数;t表示每回合的总时间步数;d
i
表示第i个智能体经验池;n
d
表示经验池的容量;p
i,0
表示第i个智能体的初始位置;在每一个时间步,仓储机器人系统首先与环境进行交互,其中第i个智能体在当前状态s
i,t
下,选择行为b
i,t
,得到一个奖励r
i,t
,并转移到下一个状态s
i,t+1
;其次,将这次的经历的4元组(s
i,t
,b
i,t
,r
i,t
,s
i,t+1
)存储到d
i
;值得注意的是d
i
只能存储n
d
次经历,第(n
d
+1)次经历会取代第1次的经历;然后,从经验池中随机抽取n
m
次经历进行学习;最后,循环至强化学习的任务监管的神经网络收敛。
5.根据权利要求4所述的一种面向仓储机器人系统的行为优先级智能调整方法,其特征在于,步骤三具体实现如下:对强化学习任务监管的结构采取2个优化措施;一个是采样具有优先级的经验池代替原有的经验池,第i个智能体的时间差分误差为q目标和q估计q
i
(s
i,t
,b
i,t
;ω)的平方差,其中γ表奖励的折扣因子,表示在状态s
i,t+1
下采取使之最大化的动作b
i,t+1
获取的最优状态价值函数的估计,ω-和ω分别表示目标网络和主网络的网络参数,若时间差分误差大于阈值,增加优先级顺序,使得有大于阈值的时间差分误差的经历能够更多的被学习加快神经网络的收敛;另一个是将神经网络的结构调整为dueling结构;强化学习任务监管首先将第i个智能体的q函数分解为值函数v
i
(s
i
;ω,β)和优势函数a
b,i
(s
i
,b
i
;ω,α),β和α分别表是值函数和优势函数的参数;然后使用一个值函数网络和一个与状态无关的行为优势函数分别去估计v
i
(s
i
;ω,β)和a
b,i
(s
i
,b
i
;ω,α),最终的q网络的输出由值函数网络和优势函数线性组合得到。6.根据权利要求4所述的一种面向仓储机器人系统的行为优先级智能调整方法,其特征在于,仓储机器人系统的基本行为设计具体如下:a1移动行为在移动行为中,仓储机器人沿着预定的轨迹向目标点移动;第i个智能体相应的任务函数被定义为:σ
i,m
=p
i
∈r2×1ꢀꢀꢀꢀꢀꢀ
(6)其中p
i
=[p
i,x
,p
i,y
]
t
为第i个智能体的位置,相应的期望移动行为的速度表示为:其中j
i,m
=i2为移动行为的雅可比矩阵,i2表示单位矩阵,为移动行为雅可比矩阵的伪逆,σ
i,m,d
为期望的任务函数,λ
i,m
为移动行为的常数正定增益矩阵,为移动行为的误差;a2避障行为在避障行为中,仓储机器人必须避开由传感器检测到在预设轨迹上的障碍物;第i个智能体相应的任务函数被定义为:σ
i,o
=||p-p
o
||∈r
ꢀꢀꢀꢀꢀꢀꢀ
(8)其中p
i,o
=[p
i,ox
,p
i,oy
]
t
为障碍物的位置;相应的期望避障行为的速度表示为:其中为避障任务的雅可比矩阵,为避障任务的雅可比矩阵,为避障任务雅可比矩阵的伪逆,λ
i,o
为避障任务的常数正定增益矩阵,为避障任务的任务误差,d表示安全距离。7.根据权利要求6所述的一种面向仓储机器人系统的行为优先级智能调整方法,其特征在于,仓储机器人系统的复合行为的构建具体如下:第一个复合行为将避障行为作为最高优先级,则根据零空间投影方法得到第i个智能
体的最终复合行为速度为:复合行为1:其中为避障行为的零空间;第二个复合行为将移动行为作为最高优先级,则根据零空间投影方法得到第i个智能体的最终复合行为速度为:复合行为2:其中为避障行为的零空间。8.根据权利要求7所述的一种面向仓储机器人系统的行为优先级智能调整方法,其特征在于,奖励函数的设计具体如下:定义第i个智能体的跟踪误差为e
i
(t)=σ
i,m-p
i
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)定义奖励函数r
i
(t)为2部分的总和:r
i,1
(t)=-10tanh(e
i
(t)δt-ε
r
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)r
i
(t)=r
i,1
(t)+r
i,2
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)其中δt表示采样间隔;ε
r
∈(0,0.5]。

技术总结
本发明涉及一种面向仓储机器人系统的行为优先级智能调整方法。首先,为多机器人系统设计一些基本行为,并利用零空间投影方法将基本行为以不同的优先级顺序组合成为复合行为;其次,结合强化学习算法和零空间行为控制方法,将复合行为的速度输出作为强化学习的动作集合,构建强化学习任务监管RLMS;最后,对经验池和神经网络的结构分别进行了优化。本方法不需要人为地设定任务优先级的调整条件,从而减少了研究人员的工作量,并具有良好的可扩展性,能被应用于传统逻辑法难以处理的大数量任务优先级动态调整中。同时,由于本方法是离线学习完成后进行使用,不需要在线地进行计算和存储大量数据,在一定程度上减少了硬件的在线计算及存储的压力。计算及存储的压力。计算及存储的压力。


技术研发人员:黄捷 潘聪捷 张祯毅 黄景丽 邵文泰
受保护的技术使用者:福州大学
技术研发日:2023.07.03
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐