轴孔装配策略模型构建方法、装置、设备及介质与流程

未命名 10-19 阅读:62 评论:0


1.本发明涉及深度学习技术领域,尤其涉及轴孔装配策略模型构建方法、装置、设备及介质。


背景技术:

2.轴孔装配是指将一个轴孔(通常有不同形状、不同尺寸的孔)与另一个部件或构件精确地连接起来,在制造和工程领域中非常常见,精准度和鲁棒性对于确保装配件的性能和可靠性至关重要。
3.在处理不同形状、不同尺寸的轴孔装配时,传统方法通常需要手动设计和调整规则、参数和策略,难以确保复杂环境的装配精准度和鲁棒性,同时传统方法需要更多的人工干预和调整,装配效率较低。


技术实现要素:

4.针对上述缺陷,本发明提供轴孔装配策略模型构建方法、装置、设备及介质,通过构建的策略模型,能够解决复杂环境下装配精准度不够和鲁棒性不足的问题。
5.本发明实施例提供一种轴孔装配策略模型构建方法,所述方法包括:
6.采集轴孔装配场景的图像数据;
7.根据对全局卷积神经网络模型中全局策略网络和全局值函数网络设置的初始化参数,创建若干独立运行的局部卷积神经网络模型;
8.根据设置的奖励函数和状态价值函数确定所述图像数据对应状态的最优策略,通过迭代优化局部卷积神经网络模型中局部值函数网络的参数;
9.根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数;
10.根据所述优势函数更新所述状态价值函数,进而优化局部卷积神经网络模型中局部策略网络的参数;
11.将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型,得到策略模型。
12.作为一种优选方案,所述根据设置的奖励函数和状态价值函数确定最优策略,通过迭代优化局部卷积神经网络模型的局部值函数网络的参数,具体包括:
13.根据所述奖励函数计算局部值函数网络的状态价值函数;
14.通过状态价值函数进行递归迭代,确定最优的状态价值函数,对应确定最优策略;
15.根据设置的奖励函数和状态价值函数计算局部策略网络的损失函数;
16.通过迭代训练,最小化损失函数,改进局部策略网络的参数。
17.作为一种优选方案,所述根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数,具体包括:
18.根据所述奖励函数和所述状态价值函数计算局部策略网络的动作价值函数;
19.根据所述动作价值函数和所述状态价值函数计算所述优势函数。
20.作为一种优选方案,所述将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型中,具体包括:
21.每一局部卷积神经网络模型将优化局部值函数网络的参数产生的策略梯度,以及优化局部策略网络的参数产生的值函数误差反馈给所述全局卷积神经网络模型;
22.所述全局卷积神经网络模型通过累加策略或平均策略汇总收到的策略梯度以及值函数误差,并根据汇总结果更新全局参数,并将更新的全局参数反馈给每一局部卷积神经网络模型。
23.作为一种优选方案,所述奖励函数为
24.r(s
t
,a
t
)=r
success
(s
t
,a
t
)+r
distance
(s
t
,a
t
)+r
collision
(s
t
,a
t
)+r
time
(s
t
,a
t
);
25.所述状态价值函数为:v(s
t
)=sum{p(s
t
,a
t
,s
t+1
)
×
[r(s
t
,a
t
)+γv(s
t+1
)]};
[0026]
其中,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,r(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的即时奖励;r
success
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的基于距离的稀疏奖励,r
distance
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的距离奖励,r
collision
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的碰撞奖励,r
time
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的时间奖励;p(s
t
,a
t
,s
t+1
)表示在当前状态s
t
下采取动作a
t
后转移到下一状态s
t+1
的概率,γ是折扣因子,v(s
t
)是在当前状态s
t
的价值函数,v(s
t+1
)是下一状态s
t+1
的价值函数。
[0027]
作为一种优选方案,所述损失函数为:l
policy
(θa)=[logw(s
t
,a
t
;θa)
×
td]2;
[0028]
其中,θa是局部卷积神经网络模型的网络参数,包括权重和偏置参数,l
policy
(θa)为损失值,td为时序差分误差,td=r(s
t
,a
t
)+ηv(s
t+1
,a
t+1
)-v(s
t
,a
t
),η为折扣因子,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,w(s
t
,a
t
,θa)为在当前状态s
t
下,由网络参数θa计算出的动作a
t
被选择的概率。
[0029]
作为一种优选方案,所述动作价值函数为q(s
t
,a
t
)=maxπ{e[r(s
t
,a
t
)+γr(s
t+1
,a
t+1
)+γ2r(s
t+2
,a
t+2
)+

]|a
t
=a,s
t
=s};
[0030]
所述优势函数为a(s
t
,a
t
)=q(s
t
,a
t
)-v(s
t
,a
t
);
[0031]
其中,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,r(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的即时奖励,r(s
t+1
,a
t+1
)表示局部卷积神经网络模型在下一状态s
t+1
下选择的动作a
t+1
的即时奖励,π(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的策略函数,q(s
t
,a
t
)表示在给定状态s和动作a的情况下的动作价值,v(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的价值函数,a(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的预期收益差异。
[0032]
本发明实施例提供一种轴孔装配策略模型构建装置,所述装置包括:
[0033]
数据获取模块,用于采集轴孔装配场景的图像数据;
[0034]
模型构建模块,用于根据对全局卷积神经网络模型中全局策略网络和全局值函数网络设置的初始化参数,创建若干独立运行的局部卷积神经网络模型;
[0035]
策略生成模块,用于根据设置的奖励函数和状态价值函数确定所述图像数据对应状态的最优策略,通过迭代优化局部卷积神经网络模型中局部值函数网络的参数;
[0036]
计算模块,用于根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数;
[0037]
参数更新模块,用于根据所述优势函数更新所述状态价值函数,进而优化局部卷积神经网络模型中局部策略网络的参数;
[0038]
参数应用模块,用于将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型,得到策略模型。
[0039]
作为一种优选方案,所述策略生成模块具体用于:
[0040]
根据所述奖励函数计算局部值函数网络的状态价值函数;
[0041]
通过状态价值函数进行递归迭代,确定最优的状态价值函数,对应确定最优策略;
[0042]
根据设置的奖励函数和状态价值函数计算局部策略网络的损失函数;
[0043]
通过迭代训练,最小化损失函数,改进局部策略网络的参数。
[0044]
作为一种优选方案,所述计算模块具体用于:
[0045]
根据所述奖励函数和所述状态价值函数计算局部策略网络的动作价值函数;
[0046]
根据所述动作价值函数和所述状态价值函数计算所述优势函数。
[0047]
作为一种优选方案,所述参数应用模块,具体用于:
[0048]
每一局部卷积神经网络模型将优化局部值函数网络的参数产生的策略梯度,以及优化局部策略网络的参数产生的值函数误差反馈给所述全局卷积神经网络模型;
[0049]
所述全局卷积神经网络模型通过累加策略或平均策略汇总收到的策略梯度以及值函数误差,并根据汇总结果更新全局参数,并将更新的全局参数反馈给每一局部卷积神经网络模型。
[0050]
作为一种优选方案,所述奖励函数为r(s
t
,a
t
)=r
success
(s
t
,a
t
)+r
distance
(s
t
,a
t
)+r
collision
(s
t
,a
t
)+r
time
(s
t
,a
t
);
[0051]
所述状态价值函数为:v(s
t
)=sum{p(s
t
,a
t
,s
t+1
)
×
[r(s
t
,a
t
)+γv(s
t+1
)]};
[0052]
其中,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,r(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的即时奖励;r
success
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的基于距离的稀疏奖励,r
distance
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的距离奖励,r
collision
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的碰撞奖励,r
time
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的时间奖励;p(s
t
,a
t
,s
t+1
)表示在当前状态s
t
下采取动作a
t
后转移到下一状态s
t+1
的概率,γ是折扣因子,v(s
t
)是在当前状态s
t
的价值函数,v(s
t+1
)是下一状态s
t+1
的价值函数。
[0053]
作为一种优选方案,所述损失函数为:l
policy
(θa)=[logw(s
t
,a
t
;θa)
×
td]2;
[0054]
其中,其中,θa是局部卷积神经网络模型的网络参数,包括权重和偏置参数,l
policy
(θa)为损失值,td为时序差分误差,td=r(s
t
,a
t
)+ηv(s
t+1
,a
t+1
)-v(s
t
,a
t
),η为折扣因子,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,w(s
t
,a
t
,θa)为在当前状态s
t
下,由网络参数θa计算出的动作a
t
被选择的概率。
[0055]
作为一种优选方案,所述动作价值函数为
[0056]
q(s
t
,a
t
)=maxπ{e[r(s
t
,a
t
)+γr(s
t+1
,a
t+1
)+γ2r(s
t+2
,a
t+2
)+

]|a
t
=a,s
t
=s};
[0057]
所述优势函数为a(s
t
,a
t
)=q(s
t
,a
t
)-v(s
t
,a
t
);
[0058]
其中,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,r(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的即时奖励,r(s
t+1
,a
t+1
)表示局部卷积神经网络模型在下一状态s
t+1
下选择的动作a
t+1
的即时奖励,π(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的策略函数,q(s
t
,a
t
)表示在给定状态s和动作a的情况下的动作价值,v(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的价值函数,a(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的预期收益差异。
[0059]
本发明实施例还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例中任意一项所述的轴孔装配策略模型构建方法。
[0060]
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例中任意一项所述的轴孔装配策略模型构建方法。
[0061]
本发明提供的轴孔装配策略模型构建方法、装置、设备及介质,采集轴孔装配场景的图像数据;根据对全局卷积神经网络模型中全局策略网络和全局值函数网络设置的初始化参数,创建若干独立运行的局部卷积神经网络模型;根据设置的奖励函数和状态价值函数确定所述图像数据对应状态的最优策略,通过迭代优化局部卷积神经网络模型中局部值函数网络的参数;根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数;根据所述优势函数更新所述状态价值函数,进而优化局部卷积神经网络模型中局部策略网络的参数;将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型,得到策略模型。通过构建的策略模型,能够解决复杂环境下装配精准度不够和鲁棒性不足的问题。
附图说明
[0062]
图1是本发明实施例提供一种轴孔装配策略模型构建方法的流程示意图;
[0063]
图2是本发明另一实施例提供一种轴孔装配策略模型构建方法的流程示意图;
[0064]
图3是本发明实施例提供的轴孔装配策略模型构建装置的结构示意图;
[0065]
图4是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
[0066]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0067]
参见图1,是本发明实施例提供一种轴孔装配策略模型构建方法的流程示意图,所述方法包括步骤s1~s6:
[0068]
s1,采集轴孔装配场景的图像数据;
[0069]
s2,根据对全局卷积神经网络模型中全局策略网络和全局值函数网络设置的初始化参数,创建若干独立运行的局部卷积神经网络模型;
[0070]
s3,根据设置的奖励函数和状态价值函数确定所述图像数据对应状态的最优策略,通过迭代优化局部卷积神经网络模型中局部值函数网络的参数;
[0071]
s4,根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数;
[0072]
s5,根据所述优势函数更新所述状态价值函数,进而优化局部卷积神经网络模型中局部策略网络的参数;
[0073]
s6,将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型,得到策略模型。
[0074]
在本实施例具体实施时,使用相机采集轴孔装配场景的图像数据,并对图像进行归一化处理,这使得模型对光照条件的变化具有一定的鲁棒性,从而提高模型在复杂下的适应能力。
[0075]
参见图2,是本发明另一实施例提供的轴孔装配策略模型构建方法的流程示意图;通过对全局卷积神经网络模型进行初始化,即初始化一个全局大网络模型,全局卷积神经网络模型包括全局策略网络和全局值函数网络,即全局actor网络以及全局critic网络,设置初始化参数,全局卷积神经网络模型将用于参数共享和异步训练。
[0076]
根据全局卷积神经网络模型创建三个工作线程:创建多个工作线程,每个线程独立运行一个智能体,并与环境交互:每个工作线程为智能体创建一个局部小网络模型,作为该线程的私有模型,分别为局部小网络模型1、局部小网络模型2以及局部小网络模型3。这些局部小模型是从全局大网络模型复制而来的,并且初始参数相同,每一局部小网络模型由局部actor网络以及局部critic网络构成。
[0077]
设置奖励函数和状态价值函数,根据设置的奖励函数和状态价值函数确定所述图像数据对应状态的最优策略。策略网络的输入是当前装配孔位的图像数据,输出是动作的概率分布函数,智能体通过概率分布函数来判断下一步动作,确定最优策略。
[0078]
通过迭代优化局部卷积神经网络模型中局部值函数网络的参数;
[0079]
根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数;
[0080]
根据所述优势函数更新所述状态价值函数,进而优化局部卷积神经网络模型中局部策略网络的参数;
[0081]
将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型,得到策略模型。
[0082]
在本发明提供的又一实施例中,所述步骤s3具体包括:
[0083]
根据所述奖励函数计算局部值函数网络的状态价值函数;
[0084]
通过状态价值函数进行递归迭代,确定最优的状态价值函数,对应确定最优策略;
[0085]
根据设置的奖励函数和状态价值函数计算局部策略网络的损失函数;
[0086]
通过迭代训练,最小化损失函数,改进局部策略网络的参数。
[0087]
在本实施例具体实施时,强化学习也是机器学习领域的一个分支,旨在通过代理在与环境交互的过程中学习如何做出决策,以最大化长期累积奖励。在强化学习中,代理通过观察环境的状态并执行动作来与环境进行交互,然后根据环境给予的奖励信号来调整其策略,从而逐步学习到在不同环境下做出最优决策的能力,具体的,基于对状态、动作、奖励、策略以及值函数的分析,确定最优策略。
[0088]
卷积神经网络模型中的动作是代理根据当前状态采取的行动或决策。动作可以是离散的,例如在棋盘游戏中选择一步棋;或连续的,例如在机器人控制中选择关节角度。
[0089]
卷积神经网络模型中的奖励是环境根据代理的动作和状态提供的反馈信号,用于评估代理行为的好坏。奖励可以是即时奖励,例如在游戏中得分;或延迟奖励,例如在驾驶车辆中到达目的地。
[0090]
卷积神经网络模型中的策略是代理根据当前状态选择动作的决策规则。策略可以是确定性的,每个状态选择一个确定的动作;或随机的,根据概率分布选择动作。
[0091]
卷积神经网络模型中的值函数用于评估状态或状态-动作对的价值,表示代理在当前状态下的长期累积奖励预期。值函数可以分为状态值函数,表示在状态s下的预期回报,和动作值函数,表示在状态s采取动作a后的预期回报。
[0092]
根据所述奖励函数计算局部值函数网络的状态价值函数;
[0093]
状态价值函数是递归定义,通过值迭代可以得到最优的状态价值函数,从而找到最优策略。
[0094]
根据设置的奖励函数和状态价值函数计算局部策略网络的损失函数;
[0095]
通过训练来逐步调整以最小化损失函数,改进局部策略网络的参数,从而改进策略网络的性能。
[0096]
actor策略网络的输入是当前装配孔位的视觉图像,输出是动作的概率分布函数π(s
t
,a
t
),智能体通过概率分布函数来判断下一步动作。例如:输入一张预处理过的视觉图像到actor网络后,经策略网络的学习,会给出六种概率分布:向前、向后、向上、向下、向左和向右,其概率分别是0.1,0.1,0.1,0.1,0.5和0.1;actor网络会选择概率最大的动作“向左”,说明在此状态下智能体执行“向左”的动作是最优策略,至此完成一次对actor网络的动作更新。
[0097]
深度强化学习算法能够通过试错和优化过程来自动学习最佳的装配策略,尤其是a3c算法可以并行化执行,即多个代理可以同时与环境进行交互和学习,使得多个装配策略可以同时进行评估和比较,使得装配过程更加自适应和智能化。
[0098]
在本方发明提供的又一实施例中,所述步骤s4具体包括:
[0099]
根据所述奖励函数和所述状态价值函数计算局部策略网络的动作价值函数;
[0100]
根据所述动作价值函数和所述状态价值函数计算所述优势函数
[0101]
在本实施例具体实施时,根据所述奖励函数和所述状态价值函数计算局部策略网络的动作价值函数;
[0102]
所述动作价值函数和所述状态价值函数的差值可以表示优势函数,从而得到在当前策略下相对于平均水平的预期收益差异。
[0103]
根据优势函数可以更新状态价值函数,可以更准确地估计状态的价值,进而指导智能体的决策策略,并最大化积累奖励的期望值。
[0104]
在本发明提供的又一实施例中,所述步骤s6具体包括:
[0105]
每一局部卷积神经网络模型将优化局部值函数网络的参数产生的策略梯度,以及优化局部策略网络的参数产生的值函数误差反馈给所述全局卷积神经网络模型;
[0106]
所述全局卷积神经网络模型通过累加策略或平均策略汇总收到的策略梯度以及值函数误差,并根据汇总结果更新全局参数,并将更新的全局参数反馈给每一局部卷积神
经网络模型。
[0107]
在本实施例具体实施时,在每个线程中,更新局部参数,将局部参数的改变应用到全局参数,使用一定的同步策略来确保参数的一致性。每个线程在开始时从全局参数中拷贝一份参数,形成自己的本地副本参数;每个线程使用自己的本地副本参数与环境进行交互,执行动作并观察环境的反馈,收集一定数量的状态转换数据(如状态、动作、奖励等);使用收集到的数据,线程根据当前的本地副本参数计算策略梯度和值函数误差。策略梯度用于更新局部actor网络的参数,值函数误差用于更新局部critic网络的参数。
[0108]
线程将计算得到的策略梯度和值函数误差发送给全局参数,而不是直接更新全局参数。全局参数接收到来自所有线程的策略梯度和值函数误差后,根据一定的策略,如累加策略或平均策略,将这些信息汇总起来,并使用汇总后的信息更新全局参数,全局参数更新后,将更新后的全局参数拷贝回每个线程的本地副本参数,以保持线程之间的一致性。
[0109]
在本发明提供的又一实施例中,所述奖励函数为r(s
t
,a
t
)=r
success
(s
t
,a
t
)+r
distance
(s
t
,a
t
)+r
collision
(s
t
,a
t
)+r
time
(s
t
,a
t
);
[0110]
所述状态价值函数为:v(s
t
)=sum{p(s
t
,a
t
,s
t+1
)
×
[r(s
t
,a
t
)+γv(s
t+1
)]};
[0111]
其中,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,r(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的即时奖励;r
success
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的基于距离的稀疏奖励,r
distance
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的距离奖励,r
collision
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的碰撞奖励,r
time
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的时间奖励;p(s
t
,a
t
,s
t+1
)表示在当前状态s
t
下采取动作a
t
后转移到下一状态s
t+1
的概率,γ是折扣因子,v(s
t
)是在当前状态s
t
的价值函数,v(s
t+1
)是下一状态s
t+1
的价值函数。
[0112]
在本实施例具体实施时,所述奖励函数为:
[0113]
r(s
t
,a
t
)=r
success
(s
t
,a
t
)+r
distance
(s
t
,a
t
)+r
collision
(s
t
,a
t
)+r
time
(s
t
,a
t
);
[0114]
所述状态价值函数为:v(s
t
)=sum{p(s
t
,a
t
,s
t+1
)
×
[r(s
t
,a
t
)+γv(s
t+1
)]};
[0115]
其中,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,r(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的即时奖励;r
success
(s
t
,a
t
)表示在当前状态基于距离的稀疏奖励,若轴孔之间的距离非常接近期望值,智能体就会获得奖励;r
distance
(s
t
,a
t
)表示在当前状态的距离奖励,若轴孔之间的距离越近,得到的奖励就越高;r
collision
(s
t
,a
t
)表示在当前状态的碰撞奖励,若轴孔之间发生碰撞,就会得到负奖励;r
time
(s
t
,a
t
)表示在当前状态的时间奖励,强制智能体尽快完成任务,否则每步就会得到一个很小的负奖励。
[0116]
v(s
t
)是在当前状态s
t
的价值函数,v(s
t+1
)是下一状态s
t+1
的价值函数,p(s
t
,a
t
,s
t+1
)表示在当前状态s
t
下采取动作a
t
后转移到下一状态s
t+1
的概率,r(s
t
,a
t
)表示在当前状态智能体的即时奖励,γ是折扣因子,当γ接近0时,智能体更加重视即时回报,即它更加关注当前的奖励,对未来的奖励折扣较大,因此更注重短期利益;当γ接近1时,智能体更加重视未来回报,即它更加关注长期累积奖励,对未来的奖励折扣较小,因此更注重长期利益。
[0117]
在本发明提供的又一实施例中,所述损失函数为:l
policy
(θa)=[logw(s
t
,a
t
;θa)
×
td]2;
[0118]
其中,θa是局部卷积神经网络模型的网络参数,包括权重和偏置参数,l
policy
(θa)为损失值,td为时序差分误差,td=r(s
t
,a
t
)+ηv(s
t+1
,a
t+1
)-v(s
t
,a
t
),η为折扣因子,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,w(s
t
,a
t
,θa)为在当前状态s
t
下,由网络参数θa计算出的动作a
t
被选择的概率。
[0119]
在本实施例具体实施时,根据设置的奖励函数和状态价值函数计算时序差分误差td;
[0120]
td=r(s
t
,a
t
)+ηv(s
t+1
,a
t+1
)-v(s
t
,a
t
);
[0121]
其中,η为折扣因子,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作;
[0122]
构建actor网络的损失函数l
policy
(θa);
[0123]
l
policy
(θa)=[logw(s
t
,a
t
;θa)
×
td]2;
[0124]
其中,θa是局部卷积神经网络模型的网络参数,包括权重和偏置参数,w(s
t
,a
t
,θa)为在当前状态s
t
下,由网络参数θa计算出的动作a
t
被选择的概率。
[0125]
通过训练来逐步调整局部卷积神经网络模型的权重和偏置参数以最小化损失函数,从而改进策略网络的性能。
[0126]
在本发明提供的又一实施例中,所述动作价值函数为q(s
t
,a
t
)=maxπ{e[r(s
t
,a
t
)+γr(s
t+1
,a
t+1
)+γ2r(s
t+2
,a
t+2
)+

]|a
t
=a,s
t
=s};
[0127]
所述优势函数为a(s
t
,a
t
)=q(s
t
,a
t
)-v(s
t
,a
t
);
[0128]
其中,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,r(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的即时奖励,r(s
t+1
,a
t+1
)表示局部卷积神经网络模型在下一状态s
t+1
下选择的动作a
t+1
的即时奖励,π(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的策略函数,q(s
t
,a
t
)表示在给定状态s和动作a的情况下的动作价值,v(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的价值函数,a(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的预期收益差异,e[]表示对其中内容求期望。
[0129]
在本实施具体实施时,局部actor网络的动作价值函数为:
[0130]
q(s
t
,a
t
)=maxπ{e[r(s
t
,a
t
)+γr(s
t+1
,a
t+1
)+γ2r(s
t+2
,a
t+2
)+

]|a
t
=a,s
t
=s};
[0131]
其中,π(s
t
,a
t
)表示策略函数,γ是折扣因子,上述表示在给定状态s和动作a的情况下,通过最大化预期累积回报的方式来计算动作价值函数q(s
t
,a
t
),s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,r(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的即时奖励,r(s
t+1
,a
t+1
)表示局部卷积神经网络模型在下一状态s
t+1
下选择的动作a
t+1
的即时奖励,π(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的策略函数,q(s
t
,a
t
)表示在给定状态s和动作a的情况下的动作价值,v(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的价值函数,a(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的预期收益差异。
[0132]
更新的局部critic网络优势函数为:
[0133]
a(s
t
,a
t
)=q(s
t
,a
t
)-v(s
t
,a
t
);
[0134]
其中,q(s
t
,a
t
)表示状态值函数,v(s
t
,a
t
)表示价值值函数,通过其差值可以表示优势函数,从而得到在当前策略下相对于平均水平的预期收益差异,优势函数可以更新价值值函数v(s
t
,a
t
),可以更准确地估计状态的价值,进而指导智能体的决策策略,并最大化
积累奖励的期望值。
[0135]
本发明能够提升在复杂环境下处理轴孔装配时的精准度和鲁棒性。在处理不同形状、不同尺寸的轴孔装配时,使用a3c算法并行执行使得装配过程更加自适应和智能化。
[0136]
本方发明实施例还提供一种轴孔装配策略模型构建装置,参见图3,是本发明实施例提供的轴孔装配策略模型构建装置的结构示意图,所述装置包括:
[0137]
数据获取模块,用于采集轴孔装配场景的图像数据;
[0138]
模型构建模块,用于根据对全局卷积神经网络模型中全局策略网络和全局值函数网络设置的初始化参数,创建若干独立运行的局部卷积神经网络模型;
[0139]
策略生成模块,用于根据设置的奖励函数和状态价值函数确定所述图像数据对应状态的最优策略,通过迭代优化局部卷积神经网络模型中局部值函数网络的参数;
[0140]
计算模块,用于根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数;
[0141]
参数更新模块,用于根据所述优势函数更新所述状态价值函数,进而优化局部卷积神经网络模型中局部策略网络的参数;
[0142]
参数应用模块,用于将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型,得到策略模型。
[0143]
需要说明的是,本发明实施例提供的所述轴孔装配策略模型构建装置能够执行上述实施例中任意实施例所述的轴孔装配策略模型构建方法,对轴孔装配策略模型构建装置的具体功能在此不作赘述。
[0144]
参见图4,是本发明实施例提供的一种终端设备的结构示意图。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如轴孔装配策略模型构建程序。所述处理器执行所述计算机程序时实现上述各个轴孔装配策略模型构建方法实施例中的步骤,例如图1所示的步骤s1~s6。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能。
[0145]
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。例如,所述计算机程序可以被分割成各个模块,各模块具体功能再次不作赘述。
[0146]
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
[0147]
所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器
等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
[0148]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0149]
其中,所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
[0150]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

技术特征:
1.一种轴孔装配策略模型构建方法,其特征在于,所述方法包括:采集轴孔装配场景的图像数据;根据对全局卷积神经网络模型中全局策略网络和全局值函数网络设置的初始化参数,创建若干独立运行的局部卷积神经网络模型;根据设置的奖励函数和状态价值函数确定所述图像数据对应状态的最优策略,通过迭代优化局部卷积神经网络模型中局部值函数网络的参数;根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数;根据所述优势函数更新所述状态价值函数,进而优化局部卷积神经网络模型中局部策略网络的参数;将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型,得到策略模型。2.如权利要求1所述的轴孔装配策略模型构建方法,其特征在于,所述根据设置的奖励函数和状态价值函数确定最优策略,通过迭代优化局部卷积神经网络模型的局部值函数网络的参数,具体包括:根据所述奖励函数计算局部值函数网络的状态价值函数;通过状态价值函数进行递归迭代,确定最优的状态价值函数,对应确定最优策略;根据设置的奖励函数和状态价值函数计算局部策略网络的损失函数;通过迭代训练,最小化损失函数,改进局部策略网络的参数。3.如权利要求1所述的轴孔装配策略模型构建方法,其特征在于,所述根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数,具体包括:根据所述奖励函数和所述状态价值函数计算局部策略网络的动作价值函数;根据所述动作价值函数和所述状态价值函数计算所述优势函数。4.如权利要求1所述的轴孔装配策略模型构建方法,其特征在于,所述将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型中,具体包括:每一局部卷积神经网络模型将优化局部值函数网络的参数产生的策略梯度,以及优化局部策略网络的参数产生的值函数误差反馈给所述全局卷积神经网络模型;所述全局卷积神经网络模型通过累加策略或平均策略汇总收到的策略梯度以及值函数误差,并根据汇总结果更新全局参数,并将更新的全局参数反馈给每一局部卷积神经网络模型。5.如权利要求2所述的轴孔装配策略模型构建方法,其特征在于,所述奖励函数为r(s
t
,a
t
)=r
success
(s
t
,a
t
)+r
distance
(s
t
,a
t
)+r
collision
(s
t
,a
t
)+r
time
(s
t
,a
t
);所述状态价值函数为:v(s
t
)=sum{p(s
t
,a
t
,s
t+1
)
×
[r(s
t
,a
t
)+γv(s
t+1
)]};其中,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,r(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的即时奖励;r
success
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的基于距离的稀疏奖励,r
distance
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的距离奖励,r
collision
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的碰撞奖励,r
time
(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的时间奖励;p(s
t
,a
t
,s
t+1
)表示在当前状态s
t
下采取动作a
t
后转移到下一状态s
t+1
的概率,γ是折扣因子,v(s
t
)是在当前状态s
t
的价值函数,v
(s
t+1
)是下一状态s
t+1
的价值函数。6.如权利要求2所述的轴孔装配策略模型构建方法,其特征在于,所述损失函数为:l
policy

a
)=[logw(s
t
,a
t
;θ
a
)
×
td]2;其中,θ
a
是局部卷积神经网络模型的网络参数,包括权重和偏置参数,l
policy

a
)为损失值,td为时序差分误差,td=r(s
t
,a
t
)+ηv(s
t+1
,a
t+1
)-v(s
t
,a
t
),η为折扣因子,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,w(s
t
,a
t

a
)为在当前状态s
t
下,由网络参数θ
a
计算出的动作a
t
被选择的概率。7.如权利要求3所述的轴孔装配策略模型构建方法,其特征在于,所述动作价值函数为q(s
t
,a
t
)=maxπ{e[r(s
t
,a
t
)+γr(s
t+1
,a
t+1
)+γ2r(s
t+2
,a
t+2
)+

]|a
t
=a,s
t
=s};所述优势函数为a(s
t
,a
t
)=q(s
t
,a
t
)-v(s
t
,a
t
);其中,s
t
表示时刻t的当前状态,a
t
表示在当前状态s
t
下选择的动作,r(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的即时奖励,γr(s
t+1
,a
t+1
)表示局部卷积神经网络模型在下一状态s
t+1
下选择的动作a
t+1
的即时奖励,π(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的策略函数,q(s
t
,a
t
)表示在给定状态s和动作a的情况下的动作价值,v(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的价值函数,a(s
t
,a
t
)表示局部卷积神经网络模型在当前状态s
t
下选择的动作a
t
的预期收益差异。8.一种轴孔装配策略模型构建装置,其特征在于,所述装置包括:数据获取模块,用于采集轴孔装配场景的图像数据;模型构建模块,用于根据对全局卷积神经网络模型中全局策略网络和全局值函数网络设置的初始化参数,创建若干独立运行的局部卷积神经网络模型;策略生成模块,用于根据设置的奖励函数和状态价值函数确定所述图像数据对应状态的最优策略,通过迭代优化局部卷积神经网络模型中局部值函数网络的参数;计算模块,用于根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数;参数更新模块,用于根据所述优势函数更新所述状态价值函数,进而优化局部卷积神经网络模型中局部策略网络的参数;参数应用模块,用于将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型,得到策略模型。9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的轴孔装配策略模型构建方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的轴孔装配策略模型构建方法。

技术总结
本发明公开了轴孔装配策略模型构建方法、装置、设备及介质,采集轴孔装配场景的图像数据;根据对全局卷积神经网络模型中全局策略网络和全局值函数网络设置的初始化参数,创建局部卷积神经网络模型;根据设置的奖励函数和状态价值函数确定所述图像数据对应状态的最优策略,通过迭代优化局部卷积神经网络模型中局部值函数网络的参数;根据所述奖励函数和所述状态价值函数计算局部卷积神经网络模型的优势函数;根据所述优势函数更新所述状态价值函数,进而优化局部卷积神经网络模型中局部策略网络的参数;将所有局部卷积神经网络模型参数的改变应用到全局卷积神经网络模型,得到策略模型。能够解决复杂环境下装配精准度不够和鲁棒性不足的问题。棒性不足的问题。棒性不足的问题。


技术研发人员:张鹏飞 卢晓雄 李珏 张洁 陈凯华 张吟妹 吴庚尧 陈佳 胡三影 李青雪 马笛 万亦如 余小梦 吴昊 孙晓玮 陈超芳
受保护的技术使用者:国网浙江省电力有限公司杭州供电公司
技术研发日:2023.07.25
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐