一种基于行为交互网络的灵长类动物动作自动评分的方法与流程

未命名 09-22 阅读:72 评论:0


1.本发明涉及智能医学技术领域,特别涉及一种基于行为交互网络的灵长类动物动作自动评分的方法。


背景技术:

2.在药物评估等领域中,灵长类动物(如食蟹猴)是一种重要的评估模型,对食蟹猴进行药物干预后的行为学观测是一项重要的观测指标。然而,以往的行为学评价往往依赖于特殊的评价装置,通过事先制定好评价规则,由人为进行打分,而且给出的分数往往是离散的,难以量化。通过基于深度学习的方法对灵长类动物的行为进行打分能够提供连续的更为精准且客观的评分,并且能够减少对人力物力的依赖,有助于为药物评估提供更可靠的依据。
3.在现有技术的视频理解领域中,经过良好训练的网络能够对视频中的信息进行理解并用于各种下游任务,比如对视频中主体的行为进行评价。随着深度学习的发展和许多大规模数据集的公开,越来越多的方法被用于对视频数据中的主体进行动作自动评分,其中,3d卷积神经网络在提取时空信息上取得了优秀的表现。然而,单纯的卷积神经网络的可解释性弱,难以对网络进行针对性的提升,并且依赖于规模大且丰富度高的数据集。目前,并没有公开的用于灵长类动物动作评分的大规模数据集,并且提出这样一个数据集是花费巨大的。并且由于非人灵长类动物并不像人一样配合,数据的质量往往存在很大的问题。


技术实现要素:

4.本发明提出一种基于行为交互网络的灵长类动物动作自动评分的方法,能够适用于小规模的灵长类动物数据集并且具有更强的可解释性。
5.本发明提出了一种基于行为交互网络的灵长类动物动作自动评分的方法,所述基于行为交互网络的灵长类动物动作自动评分的方法包括以下步骤:
6.步骤1,采集灵长类动物视频图像,并进行评分及标注;
7.步骤2,通过标注的视频图像训练神经网络;
8.在步骤1中,灵长类动物视频图像包括正常行为情况、用药后行为情况以及做假手术行为情况;
9.在步骤2中,所述神经网络提取灵长类动物视频图像的时空特征在步骤2中,所述神经网络提取灵长类动物视频图像的时空特征其中t,c,h,w分别代表时间、通道数、特征图的高和特征图的宽四个维度上的尺寸;在t对应的维度上进行全局平均池化,将二者输出张量相加,得到猴子特征m∈r
cxhxw

10.通过猴子特征所述对所述神经网络进行三次训练,第一次训练网络输入正常行为情况的猴子特征,第二次训练网络输入做假手术行为情况的猴子特征,第三次训练网络输入用药后行为情况的猴子特征;
11.通过gap层和全连接层输出灵长类动物动作评分。
12.更近一步地,在步骤1中还包括以下步骤:
13.步骤11,拍摄群体灵长类动物正常行为情况的视频图像,将群体灵长类动物分为2组,分别进行用药处理和假手术处理,同时获取用药后行为情况以及做假手术行为情况的视频图像;
14.步骤12,对视频数据进行筛选,并获取涉及同一动作的视频段;
15.步骤13,人工对灵长类动物的动作进行评分,并将评分标注在视频段上作为训练的标注数据。
16.更近一步地,在步骤2中,所述视频段长度固定为2秒输入神经网络中。
17.更近一步地,在步骤2中,所述正常行为情况的猴子特征和假手术行为情况的猴子特征在训练中传入三个不同的2d卷积层,进而得到三个张量:查询q、键k、值v;所述药后行为情况的猴子特征只输入对应生成查询q和值v张量的卷积层,所述键k张量将由前两次训练学习到的权重来初始化并且保持不变。
18.更近一步地,在步骤2中,所述查询q、键k、值v通过multiplication层将药物干预后行为的特征和两个对照组的行为特征进行交互,该层可表示为如下公式:
[0019][0020]
z=sum(att
·
v)
[0021]
其中,att表示注意力权重,q表示查询query,k表示键key,v表示值value,d表示特征的通道数,z表示用于最终评分的行为交互特征矩阵;
[0022]
所述multiplication层采用矩阵点乘能够使得不同猴子的特征进行交互而不是相同猴子局部特征见的交互。
[0023]
更近一步地,在步骤12中,对记录灵长类动物同一动作的不同表现形式的视频段数量进行平衡。
[0024]
本技术的有益效果是:
[0025]
本发明相比于传统的通过设计特殊的笼具的方法,本方案是无接触式的自动评分方法,更加简单,成本低,易于大规模开展。另一方面,传统的方法需要人工对猴子进行评分,容易受主观因素影响。而本方案基于深度学习模型对动作进行打分,能够提供更为客观公正的结果。
[0026]
本发明引入了关系推理来提高模型识别动作的准确率。判断一个目标的行为时常常需要结合其所处的环境做出判断,比如在双人花样滑冰项目中,需要通过两位运动员以及周围环境的交互来作出评分。而在猕猴动作的评分中,猕猴在不同位置执行相同的行为所表达的意义是有差异的,因此有必要推理目标和其他物体等周围管环境的关系。在本方案中,模型第一次训练时multiplication层对猕猴和周围环境的关秀进行了推理,有利于模型准确率的提升。
[0027]
本发明提出了一种多次训练的方法,能提升模型对用药后的猴子识别的准确率。在本方案所提出的模型的第三次训练中,传给multiplication层的键key是在前两次训练中从未用药的猴子学习到的权重生成的,意在将用药后的猴子和未用药的猴子所生成的特征进行交互,进而提升对用药后猴子行为视屏的准确率。
附图说明
[0028]
图1为本发明提出实施例中一种基于行为交互网络的灵长类动物动作自动评分的方法的流程示意图。
具体实施方式
[0029]
为了能够更清楚地理解本技术的上述目的、特征和优点,下面结合附图和具体实施方式对本技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互结合。
[0030]
在下面的描述中,阐述了很多具体细节以便于充分理解本技术,但是,本技术还可以采用其他不同于在此描述的其他方式来实施,因此,本技术的保护范围并不受下面公开的具体实施例的限制。
[0031]
本发明设计了一种基于行为交互网络的灵长类动物动作自动评分的方法,该方法包括以下步骤:
[0032]
步骤1,数据采集及行为评分标注;
[0033]
步骤11,通过普通的摄像头对单体猴笼中生活的猴子进行拍摄,本发明使用10只食蟹猴,第一步拍摄10只猴子正常的行为情况,为期一周。然后将10只猴子均分为两组同时进行拍摄,第一组为用药后的猴子,第二组为做假手术的猴子,为期一周。最终获取3组包含猴子行为的视频数据。这里相机采用1080p的分辨率,30fps的格式;拍摄对象是食蟹猴。
[0034]
步骤12,对视频数据进行筛选,将涉及同一动作的视频段裁剪出来。这里,由于猴子在作出同一动作时其具体的表现形式依据其习惯存在长尾分布特征,需要通过手动筛选使各种类型的数据量进行平衡;例如猴子的进食动作可能存在坐姿进食、站姿进食以及单手悬吊进食等多种表现形式。然后将筛选后的视频段裁剪至一定的时长作为最短输入时长,使得模型的精度更高,这里采用2秒。
[0035]
步骤13,请专业人员观看剪辑后的视频段,对猴子的运动能力进行打分,更密集地评分标准有利于提升模型的行为评分能力。这里,评分等级为0,0.5,1

10分。
[0036]
步骤2,行为交互网络搭建;
[0037]
该网络主要包括四个部分:视频分割模块、时空特征提取模块、行为交互模块、量化评分模块。如图1所示:
[0038]
视频分割模块通过计算机基本的ffmpeg操作将输入的任意长度的原始视频分割为长度固定为2秒的视频段输入到网络中。
[0039]
时空特征提取模块采用的是视频理解领域经典的3d卷积神经网络,如slowfast。该模块能够提取输入的2秒长的视频中猴子行为的时空特征,该特征是两个四维的张量,记为其中t,c,h,w分别代表时间、通道数、特征图的高和特征图的宽四个维度上的尺寸。然后在t对应的维度上进行全局平均池化操作(global average pooling,gap),将二者输出张量相加,得到猴子特征m∈r
cxhxw

[0040]
行为交互模块根据训练阶段有所改变。在第一次和第二次训练阶段,网络输入的数据分别为正常猴子和做了假手术的猴子的数据,此时将猴子特征m传入三个不同的2d卷积层,进而得到三个张量查询q、键k、值v。而在第三次训练阶段,输入的是药物干预后猴子的数据,此时猴子特征m将通过和前两次训练中对应的2d卷积层conv2d_1和conv2d_3来生
成查询q和值v,张量键k将由前两次训练学习到的权重来初始化并且保持不变。
[0041]
最后通过multiplication层将药物干预后行为的特征和两个对照组的行为特征进行交互,该层可表示为如下公式:
[0042][0043]
z=sum(att
·
v)
[0044]
其中,att表示注意力权重,q表示查询query,k表示键key,v表示值value,d表示特征的通道数,z表示用于最终评分的行为交互特征矩阵;
[0045]
multiplication层采用的是矩阵点乘而不是注意力机制中的矩阵叉乘操作,这样能够使得不同猴子的特征进行交互而不是相同猴子局部特征见的交互。
[0046]
量化评分模块将multiplication层生成的行为交互特征z传入gap层和全连接层(full connection,fc),输出一个0到1之间的数值o
p
,扩大10倍即为网络给出的行为评价分数,相应地,传入二值交叉熵损失函数中的预测值为10倍的o
p

[0047]
在本方案所提出的模型的第三次训练中,传给multiplication层的键key是在前两次训练中从未用药的猴子学习到的权重生成的,意在将用药后的猴子和未用药的猴子所生成的特征进行交互,进而提升对用药后猴子行为视屏的准确率。
[0048]
尽管参考附图详地公开了本技术,但应理解的是,这些描述仅仅是示例性的,并非用来限制本技术的应用。本技术的保护范围由附加权利要求限定,并可包括在不脱离本技术保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

技术特征:
1.一种基于行为交互网络的灵长类动物动作自动评分的方法,其特征在于,所述基于行为交互网络的灵长类动物动作自动评分的方法包括以下步骤:步骤1,采集灵长类动物视频图像,并进行评分及标注;步骤2,通过标注的视频图像训练神经网络;在步骤1中,灵长类动物视频图像包括正常行为情况、用药后行为情况以及做假手术行为情况;在步骤2中,所述神经网络提取灵长类动物视频图像的时空特征在步骤2中,所述神经网络提取灵长类动物视频图像的时空特征其中t,c,h,w分别代表时间、通道数、特征图的高和特征图的宽四个维度上的尺寸;在t对应的维度上进行全局平均池化,将二者输出张量相加,得到猴子特征m∈r
cxhxw
;通过猴子特征所述对所述神经网络进行三次训练,第一次训练网络输入正常行为情况的猴子特征,第二次训练网络输入做假手术行为情况的猴子特征,第三次训练网络输入用药后行为情况的猴子特征;通过gap层和全连接层输出灵长类动物动作评分。2.根据权利要求1所述基于行为交互网络的灵长类动物动作自动评分的方法,其特征在于,在步骤1中还包括以下步骤:步骤11,拍摄群体灵长类动物正常行为情况的视频图像,将群体灵长类动物分为2组,分别进行用药处理和假手术处理,同时获取用药后行为情况以及做假手术行为情况的视频图像;步骤12,对视频数据进行筛选,并获取涉及同一动作的视频段;步骤13,人工对灵长类动物的动作进行评分,并将评分标注在视频段上作为训练的标注数据。3.根据权利要求2所述基于行为交互网络的灵长类动物动作自动评分的方法,其特征在于,在步骤2中,所述视频段长度固定为2秒输入神经网络中。4.根据权利要求1所述基于行为交互网络的灵长类动物动作自动评分的方法,其特征在于,在步骤2中,所述正常行为情况的猴子特征和假手术行为情况的猴子特征在训练中传入三个不同的2d卷积层,进而得到三个张量:查询q、键k、值v;所述药后行为情况的猴子特征只输入对应生成查询q和值v张量的卷积层,所述键k张量将由前两次训练学习到的权重来初始化并且保持不变。5.根据权利要求4所述基于行为交互网络的灵长类动物动作自动评分的方法,其特征在于,在步骤2中,所述查询q、键k、值v通过multiplication层将药物干预后行为的特征和两个对照组的行为特征进行交互,该层可表示为如下公式:z=sum(att
·
v)其中,att表示注意力权重,q表示查询query,k表示键key,v表示值value,d表示特征的通道数,z表示用于最终评分的行为交互特征矩阵;所述multiplication层采用矩阵点乘能够使得不同猴子的特征进行交互而不是相同猴子局部特征见的交互。
6.根据权利要求2所述基于行为交互网络的灵长类动物动作自动评分的方法,其特征在于,在步骤12中,对记录灵长类动物同一动作的不同表现形式的视频段数量进行平衡。

技术总结
一种基于行为交互网络的灵长类动物动作自动评分的方法包括以下步骤:步骤1,采集灵长类动物视频图像,并进行评分及标注;灵长类动物视频图像包括正常行为情况、用药后行为情况以及做假手术行为情况;步骤2,通过神经网络提取灵长类动物视频图像的猴子特征;通过猴子特征所述对所述神经网络进行三次训练,第一次训练网络输入正常行为情况的猴子特征,第二次训练网络输入做假手术行为情况的猴子特征,第三次训练网络输入用药后行为情况的猴子特征;最后通过GAP层和全连接层输出灵长类动物动作评分。分。分。


技术研发人员:朱磊 杨森
受保护的技术使用者:北京信智文科技有限公司
技术研发日:2023.06.16
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐