基于二分图结构进行人物交互检测的多模态特征融合方法
未命名
08-02
阅读:49
评论:0

1.本发明属于计算机视觉中的人与物体交互检测领域,具体的说是涉及一种基于二分图结构进行人与物体交互检测的多模态特征融合方法。
背景技术:
2.人物交互检测(human-object interaction,hoi)是计算机视觉研究领域中一个重要方向,为相关的高级视觉任务提供重要线索,在图像理解和机器人技术中都有广泛应用。该任务的目的是定位场景中的人和物体位置并识别他们之间的交互关系。即给定输入图像,识别出所有的“人-动词-物体”三元关系组。
3.由于其在输出表示上和目标检测本质上是相似的,hoi检测通常作为目标检测的下游任务来处理。然而hoi识别任务不同于图像识别,图像识别主要是区分场景类型以及突出的对象类型,重点在于图像的整体理解,而hoi识别任务是在更精细的水平上来识别出人和物体之间的交互,不仅仅涉及人和对象实例,还需要获取图像中人和物体实例的上下文线索,对人和物体实例以及上下文线索进行推理以此来达到人和物体之间更精确的交互关系识别。
4.不同的hoi检测方法区别主要体现在交互识别阶段对实例对象采用的策略不同,目前基于全局实例的方法有三种实现方式,分别是融合空间位置信息、融合外观信息以及融合人体姿态信息。基于空间位置信息的方法偏向于快速定位与特定动作相关联的对象;基于外观特征的方法常利用人或物体的外观为条件,缩小目标对象的搜索空间;基于人体姿态信息的方法强调靠近交互区域的人体部位在检测时不同的重要程度。
5.但是上述三种实现方式都在不同的程度上影响了最后的识别的结果,导致准确性和鲁棒性差,影响识别的准确性。
技术实现要素:
6.为了解决上述技术问题,本发明提供了一种基于二分图结构进行人与物体交互检测的多模态特征融合方法,该方法从图片中提取视觉信息,空间信息以及人体姿态信息来构造相应的特征,将经过消息传递后的特征进行融合来实现最后的交互推理,提高人物交互检测的准确率和鲁棒性。
7.为了实现上述目的,本发明是通过以下技术方案实现的:
8.本发明是一种基于二分图结构进行人与物体交互检测的多模态特征融合方法,该方法包括以下步骤:
9.步骤1)输入一个批次图片;
10.步骤2)对步骤1)中的每张图片使用faster r-cnn目标检测算法检测出图片中存在的人和物体实例,生成一个初始检测集合;
11.步骤3)将步骤2)获取到的初始检测集合输入到resnet50-fpn骨干网络中来提取视觉特征和空间特征;
12.步骤4)将步骤2)获取到的人和物体实例构造成二分图中的异构节点,并一一匹配成对,构建人物对;
13.步骤5)将步骤4)得到的人物对的特征在二分图中进行消息传递以消除消极的人物对,之后进行交互推理得到分类逻辑输出class logits1;
14.步骤6)对步骤4)构建的人物对进行关键点提取,将关键点信息输入到关键点特征处理网络模块,得到人体关键点特征信息和分类逻辑输出class logits2;
15.步骤7)对步骤5)以及步骤6)分别得到的分类逻辑输出进行融合得到最后的分类结果,从而实现人与物体之间的交互关系检测。
16.本发明的进一步改进在于:步骤4)包括以下步骤:
17.步骤41)将人和物体实例对应的候选框投影到features map上生成相应的特征;
18.步骤42)将人和物体的特征在二分图中以节点的形式表示;
19.步骤43)对于生成的n个节点,将类别为人的节点置于顶部,获取前n_h个节点特征,也就是人节点的特征;
20.步骤44)剩余的n-n_h个节点就是物体节点,然后将人节点和物体节点一一匹配成对。
21.本发明的进一步改进在于:步骤5)包括以下步骤:
22.步骤51)人和物体节点之间的消息传递函数表示如下;
23.人节点的更新:
[0024][0025][0026]
物体节点的更新:
[0027][0028][0029]
其中ln表示的是layernorm操作,σ是relu激活函数,α表示的是邻接矩阵中节点之间的邻接权值,而是消息传递时通过对具有相同索引i的值执行softmax得到的;同样是通过对具有相同索引j的值执行softmax得到的,分别表示的是行归一化和列归一化。m是消息传递函数,对于不同的方向有不同的参数,表示的是融合物体节点以及当前迭代次数下人节点和物体节点的边缘特征后对人节点的特征进行迭代更新,类似的则是更新物体节点。e
ij
为边缘特征,将空间特征经过mlp映射到1024维度得到;xi,yj分别表示人和物体的视觉特征,同样经过mlp处理为1024维度。
[0030]
步骤52)将人和物体的视觉特征和空间特征进行融合后经过mlp处理得到一个分类逻辑输出class logits1。
[0031]
本发明的进一步改进在于:步骤6)所述的人体关键点特征提取包括以下步骤:
[0032]
步骤61)获取图片中人体的17个关键点的位置坐标(xi,yi);
[0033]
步骤62)将第i个关键点特征用以下公式表示:
[0034][0035]
其中w,h分别表示图片的宽度和高度;(x,y)是检测框的中心坐标。
[0036]
步骤63)人体关键点特征处理网络模块由batch norm层、relu层、dropout层和全连接层组成。首先设置四个全连接层维数分别为128,64,256以及数据集交互类别种类数k。将(n,17,2)维的向量通过全连接层以及后接fixed layer最后得到一个(n,k)维的分类逻辑输出class logits2。其中fixed layer是由batch norm层、relu层和dropout层组合而成。
[0037]
本发明的进一步改进在于:步骤7)所述的特征融合包括以下步骤:
[0038]
步骤71)将步骤5和步骤6)得到的两个逻辑输出进行融合;
[0039]
步骤72)训练过程引入焦损(focal loss)作为二元分类损失函数,降低大量消极样本在训练中所占的权重,focal loss函数的公式为:
[0040][0041]
其中是某一动作类别的概率分数,y∈{0,1}是二元标签,β∈[0,1]以及是超参数。β用来平衡积极样本和消极样本的比例,γ用来调节简单样本权重降低的速率。
[0042]
本发明的有益效果是:
[0043]
本发明首先获取一批次图片,从图片中分别提取视觉信息,空间信息以及姿态信息,然后利用二分图初始化人和物体节点的特征表示,构建人物对,随后进行人和物体之间的双向消息传递来消除复杂交互中的消极的人物对,通过关键点特征处理网络模块对提取的17个关键点进行处理得到姿态特征,最后将视觉特征,空间特征以及姿态特征经过处理之后的分类结果进行融合并引入焦损来进行训练,从而实现更精确的人与物体交互关系检测。
[0044]
具体来说:
[0045]
(1)本发明利用二分图结构来初始化人和物体节点,得到人和物体节点的特征表示。
[0046]
(2)本发明引入双向消息传递算法来进行人和物体节点的更新,以此来消除复杂交互中的消极人物对实例。
[0047]
(3)本发明运用多模态特征融合方法对图片中的视觉特征,空间特征以及姿态特征进行特征融合,得到更精细的特征表示,有效提高人与物体交互关系检测的准确性和可靠性。
附图说明
[0048]
图1是本发明多模态特征综合方法流程图。
[0049]
图2是本发明基于二分图结构的多模态特征融合架构图。
[0050]
图3是本发明关键点特征处理网络模块图。
具体实施方式
[0051]
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
[0052]
如图1-3所示,本发明是一种基于二分图结构进行人与物体交互检测的多模态特征融合方法,包括以下步骤:
[0053]
步骤1、输入一个批次图片;
[0054]
步骤2、对步骤1中的每张图片使用faster r-cnn目标检测算法检测出图片中存在的人和物体实例,生成一个初始检测集合;
[0055]
步骤3、将步骤2获取到的初始检测集合输入到resnet50-fpn骨干网络中来提取视觉特征和空间特征;
[0056]
步骤4、将步骤2获取到的人和物体实例构造成二分图中的异构节点,并一一匹配成对,构建人物对,具体包括如下步骤:
[0057]
步骤41、将人和物体实例对应的候选框投影到features map上生成相应的特征;
[0058]
步骤42、将人和物体的特征在二分图中以节点的形式表示;
[0059]
步骤43、对于生成的n个节点,将类别为人的节点置于顶部,获取前n_h个节点特征,也就是人节点的特征;
[0060]
步骤44、剩余的n-n_h个节点就是物体节点,然后将人节点和物体节点一一匹配成对。
[0061]
步骤5、将步骤4得到的人物对的特征在二分图中进行消息传递以消除消极的人物对,之后进行交互推理得到分类逻辑输出class logits1。
[0062]
包括以下步骤:
[0063]
步骤51、人和物体节点之间的消息传递函数表示如下;
[0064]
人节点的更新:
[0065][0066][0067]
物体节点的更新:
[0068][0069][0070]
其中ln表示的是layernorm操作,σ是relu激活函数,α表示的是邻接矩阵中节点之间的邻接权值,而是消息传递时通过对具有相同索引i的值执行softmax得到的;同样是通过对具有相同索引j的值执行softmax得到的,分别表示的是行归一化和列归一化。m是消息传递函数,对于不同的方向有不同的参数,表示的是融合物体节点以及当前迭代次数下人节点和物体节点的边缘特征后对人节点的特征进行迭代更新,类似的
则是更新物体节点。e
ij
为边缘特征,将空间特征经过mlp映射到1024维度得到;xi,yj分别表示人和物体的视觉特征,同样经过mlp处理为1024维度。
[0071]
步骤52、将人和物体的视觉特征和空间特征进行融合后经过mlp处理得到一个分类逻辑输出class logits1。
[0072]
步骤6、对步骤4构建的人物对进行关键点提取,将关键点信息输入到关键点特征处理网络模块,得到人体关键点特征信息和分类逻辑输出class logits2。
[0073]
其中,人体关键点特征提取包括以下步骤:
[0074]
步骤61)获取图片中人体的17个关键点的位置坐标(xi,yi);
[0075]
步骤62)将第i个关键点特征用以下公式表示:
[0076][0077]
其中w,h分别表示图片的宽度和高度;(x,y)是检测框的中心坐标。
[0078]
步骤63)人体关键点特征处理网络模块由batch norm层、relu层、dropout层和全连接层组成。首先设置四个全连接层维数分别为128,64,256以及数据集交互类别种类数k。将(n,17,2)维的向量通过全连接层以及后接fixed layer最后得到一个(n,k)维的分类逻辑输出class logits2。其中fixed layer是由batch norm层、relu层和dropout层组合而成。
[0079]
步骤7、对步骤5以及步骤6分别得到的分类逻辑输出进行融合得到最后的分类结果,从而实现人与物体之间的交互关系检测。
[0080]
其中,特征融合包括以下步骤:
[0081]
步骤71、将步骤5和步骤6得到的两个逻辑输出进行融合;
[0082]
步骤72、训练过程引入焦损(focal loss)作为二元分类损失函数,降低大量消极样本在训练中所占的权重,focal loss函数的公式为:
[0083][0084]
其中是某一动作类别的概率分数,y∈{0,1}是二元标签,β∈[0,1]以及是超参数。β用来平衡积极样本和消极样本的比例,γ用来调节简单样本权重降低的速率。
[0085]
本发明主要是利用图片中的视觉信息和空间信息构建人物对,通过消息传递迭代进行人和物体节点信息的更新,以此来消除复杂交互中的消极人物对实例。通过人物对构造人体姿态信息,输入到关键点处理网络模块得到人体姿态特征以用来提升模型的分类性能。最后将视觉信息,空间信息和姿态信息进行融合后输入到行为分类网络进行人物交互关系的推理。
技术特征:
1.一种基于二分图结构进行人物交互检测的多模态特征融合方法,其特征在于:所述多模态特征融合方法包括如下步骤:步骤1、输入一个批次图片;步骤2、对步骤1中的每张图片使用faster r-cnn目标检测算法检测出图片中存在的人和物体实例,生成一个初始检测集合;步骤3、将步骤2获取到的初始检测集合输入到resnet50-fpn骨干网络中来提取视觉特征和空间特征;步骤4、将步骤2获取到的人和物体实例构造成二分图中的异构节点,并一一匹配成对,构建人物对;步骤5、将步骤4得到的人物对的特征在二分图中进行消息传递以消除消极的人物对,之后进行交互推理得到分类逻辑输出class logits1;步骤6、对步骤4构建的人物对进行关键点提取,将关键点信息输入到关键点特征处理网络模块,得到人体关键点特征信息和分类逻辑输出class logits2;步骤7、对步骤5得到的分类逻辑输出class logits1以及步骤6得到的分类逻辑输出class logits2进行融合得到最后的分类结果,从而实现人与物体之间的交互关系检测。2.根据权利要求1所述的基于二分图结构进行人物交互检测的多模态特征融合方法,其特征在于:所述步骤4包括以下步骤:步骤4-1:将人和物体实例对应的候选框投影到features map上生成相应的特征;步骤4-2:将人和物体的特征在二分图中以节点的形式表示;步骤4-3:对于生成的n个节点,将类别为人的节点置于顶部,获取前n_h个节点特征即人节点的特征;步骤:4-4:剩余的n-n_h个节点就是物体节点,然后将人节点和物体节点一一匹配成对。3.根据权利要求1所述的基于二分图结构进行人物交互检测的多模态特征融合方法,其特征在于:所述步骤5将得到的人物对的特征在二分图中进行消息传递以消除消极的人物对,之后进行交互推理得到分类逻辑输出class logits1,包括以下步骤:步骤5-1:人和物体节点之间的消息传递函数表示如下:人节点的更新:人节点的更新:物体节点的更新:物体节点的更新:其中ln表示的是layernorm操作,σ是relu激活函数,α表示的是邻接矩阵中节点之间的
邻接权值,是消息传递时通过对具有相同索引i的值执行softmax得到的,是通过对具有相同索引j的值执行softmax得到的,分别表示的是行归一化和列归一化,m是消息传递函数,对于不同的方向有不同的参数,表示的是融合物体节点以及当前迭代次数下人节点和物体节点的边缘特征后对人节点的特征进行迭代更新,是更新物体节点,e
ij
为边缘特征,将空间特征经过mlp映射到1024维度得到,x
i
,y
j
分别表示人和物体的视觉特征,同样经过mlp处理为1024维度;步骤5-2:将人和物体的视觉特征和空间特征进行融合后经过mlp处理得到一个分类逻辑输出class logits1。4.根据权利要求1所述的基于二分图结构进行人物交互检测的多模态特征融合方法,其特征在于:步骤6中人体关键点特征提取具体包括以下步骤:步骤6-1:获取图片中人体的关键点的位置坐标(x
i
,y
i
);步骤6-2:将第i个关键点特征用以下公式表示:其中w,w分别表示图片的宽度和高度,(x,y)是检测框的中心坐标。5.根据权利要求4所述的基于二分图结构进行人物交互检测的多模态特征融合方法,其特征在于:所述步骤6中的人体关键点特征提取通过人体关键点特征处理网络模块完成,所述人体关键点特征处理网络模块由batch norm层、relu层、dropout层和全连接层组成,首先设置四个全连接层维数分别为128,64,256以及数据集交互类别种类数k,将(n,17,2)维的向量通过全连接层以及后接fixed layer最后得到一个(n,k)维的分类逻辑输出class logits2,其中fixed layer是由batch norm层、relu层和dropout层组合而成。6.根据权利要求1所述的基于二分图结构进行人物交互检测的多模态特征融合方法,其特征在于:步骤7中,对步骤5得到的分类逻辑输出class logits1以及步骤6得到的分类逻辑输出class logits2进行融合具体包括以下步骤:步骤7-1:将步骤5和步骤6得到的两个逻辑输出进行融合;步骤7-2:训练过程引入焦损(focal loss)作为二元分类损失函数,降低大量消极样本在训练中所占的权重,focal loss函数的公式为:其中是某一动作类别的概率分数,y∈{0,1}是二元标签,β∈[0,1]以及是超参数,β用来平衡积极样本和消极样本的比例,γ用来调节简单样本权重降低的速率。
技术总结
本发明属于计算机视觉中的人与物体交互检测领域,公开一种基于二分图结构进行人物交互检测的多模态特征融合方法,该方法首先获取一个批次的图片生成初始检测集合,然后将初始检测集合输入到骨干特征提取网络中来提取图片中的视觉信息和空间信息,再通过姿态估计提取图片中人的关键点输入到关键点特征处理网络模块进行姿态信息的获取;接着将提取到的视觉特征和空间特征进行融合输入到推理网络中得到分类逻辑输出以及通过关键点特征处理网络得到分类逻辑输出,最后将两者的逻辑输出进行融合得到最后的分类结果。本发明充分利用图片中存在的各种信息,能够得到更全面的特征表示,有效提高人与物体交互检测的准确性和鲁棒性。性。性。
技术研发人员:陈志 王俊 岳文静 袁强健 刘洁 王晓晓
受保护的技术使用者:南京邮电大学
技术研发日:2023.04.28
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/