一种基于MediaPipe框架采集手势的人机交互识别系统

未命名 09-03 阅读:148 评论:0

一种基于media pipe框架采集手势的人机交互识别系统
技术领域
1.本发明新型涉及人机交互技术领域,具体为一种基于media pipe框架采集手势的人机交互识别系统。


背景技术:

2.随着人工智能、人机交互,以及vr/ar技术的不断发展,虚拟沉浸式场景体验成为了人们生活中的热门话题。目前,实现人与虚拟场景的交互方式主要有三种:虚拟交互、物理交互、直接交互。前两种交互模式大多依靠机器实现,第三种直接交互模式,通过数据手套或者手势识别,人体自身做出不同的手势动作,从而被机器捕捉,控制虚拟场景中的物体移动。
3.高发展的人机交互技术带来了一定的行业热潮,基于视觉的深度学习手势识别方法正是目前研究的热点。但是与此同时,深度学习手势识别算法有一定的不足,它需要大量的手势样本数据用于训练手势识别系统,如果样本容量过小,深度学习算法往往会出现过拟合的情况。


技术实现要素:

4.针对上述情况,为弥补上述现有缺陷,本方案提供了一种基于media pipe框架采集手势的人机交互识别系统。
5.本发明新型采取的技术方案如下:一种基于media pipe框架采集手势的人机交互识别系统,包括手势设计、手掌检测器、屏幕交互映射和手部关键点检测器;
6.所述手势设计基于手势识别的首要工作是先设计好能被识别的手势,手势的设计要遵循几个原则:首先,在用户使用方面,手势的设计要方便简单,符合用户习惯,便于用户理解和掌握;其次,在交互过程方面,要求手势的设计保证流畅和降低操作疲劳;最后,在系统实现方面,由于手势识别的准确度与传统的交互方式存在一定的差距,识别过程容易出现误判,要求手势的设计功能交叉少,风格统一,使系统存在一定的容错性和可靠性。
7.所述手掌检测器部分基于部分由media pipe模块中的手掌检测模型blaze palm detector直接实现;使用正方形的边界框来建模手掌,可以忽略其他长宽比,减少锚框的数量;使用类似于特征金字塔网络的编码解码器进行特征提取;在训练过程中使用focal loss损失函数,用于支持大尺度方差所产生的大量的锚框;最后通过消融对比实验,检测focal loss损失函数对于降低样本损失度的实用性。
8.屏幕交互映射部分对手势坐标进行捕获时,主要以五指的指关节为主,但因手部整体的完整性和不规则性,故对整体手掌的移动区域做出规定。利用框图建立手掌移动区域,保证手势运动过程中手掌被捕捉的完整性。
9.手部关键点检测器基于手节点,操作手掌检测模型blaze palm定义的手部图像区域,高精度地回手部关键点,并将输入图像到映射21个关键点位置关键点位置ρi∈r3。
10.其中,手势设计包括以下步骤:
11.1)基于用户使用,初步设定简单易懂的基础手势,方便用户掌握、使用。
12.2)在交互层方面,进一步提高基础手势的流畅度、完整性,设计保持流畅,降低掌握学习难度。
13.3)在系统实现层面,保证设计功能交叉少、风格统一,提高后续手势识别容错度与可靠性。
14.4)改变手势识别的评判标准,取消以距离单向摄像头远近程度为基准,判断手势识别完成度完成情况。考虑增设以手指弯曲程度为基准,给予不同手势语义的设计标准,进一步提高单向摄像头对于深度层面的信息获取。
15.其中,手掌检测器部分包括以下几个步骤:
16.1)训练校准度较高的手掌检测器,来代替易受干扰的手指检测器
17.2)使用非极大值抑制算法,检测面对手掌,nms是否可以正常处理,划定边框范围。
18.3)遍历输入单幕摄像头所呈手掌图像上所有可能的锚框,经过测试选出正确的目标框,并对位置和大小进行调整,降低手掌建模难度,完成目标检测任务。
19.4)使用fpn(特征金字塔网络)编解码特征提取器,提高对大、小物体的检测能力。fpn(特征金字塔网络)提供了一条自上而下的路径,从语义丰富的层构建高分辨率的层,通过横向连接将自下而上以及自上而下路径连接,从而使目标检测物体位置判断更加精确。
20.5)训练过程中使用了focal loss损失函数来支撑由大尺度方差产生出来的锚框。focal loss基于二分类交叉熵ce。为动态缩放的交叉熵损失,通过一个动态缩放因子,可以动态降低训练过程中易区分样本的权重,从而将重心快速聚焦在那些难区分的样本。
21.6)消融对比实验,检测focal loss方法对于降低样本损失的可实用性,进一步扩大本发明的泛用性。
22.其中,屏幕交互映射部分包括以下步骤:
23.1)建立屏幕交互映射关系(如图5所示),按照嵌入关系将屏幕显示区域划分为4部分,包括手掌框选区p
ha
、手势动作区p
mo
、相机捕获区p
ca
、屏幕显示区p
sc

24.2)建立手掌坐标与屏幕显示区域的坐标映射关系。
25.定义屏幕显示区左下角和手势动作区左下角为坐标原点(0,0),坐标相对于手势动作区p
mo
表示为(x
mo
,y
mo
),相对于屏幕显示区域p
sc
表示为(x
sc
,y
sc
),屏幕显示区域的长度和宽度记为w
sc
和h
sc

26.3)建立交互指令,对手掌不同关节点之间的距离和角度做出判断后,定义手指状态a0,并针对不同手势状态下的指尖方向定义uf(指尖向上状态)和df(指尖向下状态),进行不同的变量赋值。定义公式如下:
27.a0=uf+df28.a0={x|x=0,1}
29.后续实验检测发明可实用性,使用衡量分类模型中的常用方法即混淆矩阵,对下述五种动作手势进行准确度检测。
30.其中,手部关键点检测部分包括以下步骤:
31.1)我们利用media pipe所配备的hand landmark模型,用于识别3d手节点。
32.2)操作手掌检测模型blaze palm定义的手部图像区域,高精度返回手部关键点。在识别出的手部区域,该模型通过回归算法将关键点精确定位在手部的三维关节坐标上,
并且对部分可见和遮挡的手部动作具有很高的鲁棒性。
33.在上述技术方案中,本发明提供的技术效果和优点:
34.1、本发明基于media pipe多机器手掌检测学习框架,提供了一种实时的不需要大容量手势识别样本的算法,能够处理应对低容量样本的手势识别算法模型,更容易被复杂情况所兼容,更好地解决当前存在手势难以识别、无法兼容多种复杂情况等问题。
35.2、本发明对研发更加精确的vr/ar人机交互系统、促进科技革新,引领行业趋势,基于media pipe框架采集手势的人机交互识别系统具有时代性、必要性的意义与价值。
附图说明
36.附图用来提供对本发明新型的进一步理解,并且构成说明书的一部分,与本发明新型的实施例一起用于解释本发明新型,并不构成对本发明新型的限制。在附图中:
37.图1为本发明新型提供的一种基于media pipe框架采集手势的人机交互识别系统的流程图。
38.图2为本发明新型提供的一种基于media pipe框架采集手势的人机交互识别系统的media pipe手掌关节点坐标图;
39.图3为本发明新型提供的一种基于media pipe框架采集手势的人机交互识别系统的3d指关节坐标图;
40.图4为本发明新型提供的一种基于media pipe框架采集手势的人机交互识别系统的交互系统示意图;
41.图5为本发明新型提供的一种基于media pipe框架采集手势的人机交互识别系统的目标检测特征金字塔网络示意图;
42.图6为本发明新型提供的一种基于media pipe框架采集手势的人机交互识别系统的屏幕区域交互映射关系示意图。
具体实施方式
43.下面将结合本发明新型实施例中的附图,对本发明新型实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明新型一部分实施例,而不是全部的实施例;基于本发明新型中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明新型保护的范围。
44.如图1至图6所示,发明新型采取的技术方案如下:一种基于media pipe框架采集手势的人机交互识别系统,一种基于media pipe框架采集手势的人机交互识别系统,包括手势设计、手掌检测器、屏幕交互映射和手部关键点检测器;
45.所述手势设计基于手势识别的首要工作是先设计好能被识别的手势,手势的设计要遵循几个原则:首先,在用户使用方面,手势的设计要方便简单,符合用户习惯,便于用户理解和掌握;其次,在交互过程方面,要求手势的设计保证流畅和降低操作疲劳;最后,在系统实现方面,由于手势识别的准确度与传统的交互方式存在一定的差距,识别过程容易出现误判,要求手势的设计功能交叉少,风格统一,使系统存在一定的容错性和可靠性
46.所述手掌检测器是基于部分由media pipe模块中的手掌检测模型blaze palm detector直接实现;使用正方形的边界框来建模手掌,可以忽略其他长宽比,减少锚框的数
量;使用类似于特征金字塔网络的编码解码器进行特征提取;在训练过程中使用focal loss损失函数,用于支持大尺度方差所产生的大量的锚框;最后通过消融对比实验,检测focal loss损失函数对于降低样本损失度的实用性。
47.屏幕交互映射部分对手势坐标进行捕获时,主要以五指的指关节为主,但因手部整体的完整性和不规则性,故对整体手掌的移动区域做出规定。利用框图建立手掌移动区域,保证手势运动过程中手掌被捕捉的完整性。
48.手部关键点检测器基于手节点,操作手掌检测模型blaze palm定义的手部图像区域,高精度地回手部关键点,并将输入图像到映射21个关键点位置关键点位置ρi∈r3。
49.手势设计包括以下步骤:
50.1)基于用户使用,初步设定简单易懂的基础手势,方便用户掌握、使用。
51.2)在交互层方面,进一步提高基础手势的流畅度、完整性,设计保持流畅,降低掌握学习难度。
52.3)在系统实现层面,保证设计功能交叉少、风格统一,提高后续手势识别容错度与可靠性。
53.4)改变手势识别的评判标准,取消以距离单向摄像头远近程度为基准,判断手势识别完成度完成情况。考虑增设以手指弯曲程度为基准,给予不同手势语义的设计标准,进一步提高单向摄像头对于深度层面的信息获取。
54.手掌检测器包括以下几个步骤:
55.1)训练校准度较高的手掌检测器,来代替易受干扰的手指检测器
56.2)使用非极大值抑制算法,检测面对手掌,nms是否可以正常处理,划定边框范围。
57.其中,梯度方向上边框范围极大值检测过程如下;
58.梯度方向上边框非极大值检测通常在0、90、45以及135四个方向上来进行操作。每个像素点梯度方向按照相近程度用这四个方向来代替。我们取p点作为基准点,各个像素点与p点的相近程度,我们选取四个不同取值来定义。四种取值如下:
59.(1)a与b同号
60.ga>gb61.ga<gb62.(2)a与b异号
63.ga>gb64.ga<gb65.通过a,b方向的梯度大小,可以进一步判断点a、b靠近x轴与y轴的情况,由此可以判断像素点的清晰度,进一步测试nms是否可以准确精密测量手掌边框。具体情况分析如下:
66.(1)ga>gb[0067][0068]
g2=g(i-1,j)
[0069]
g4=g(i+1,j)
[0070]
如果处于同号情况下:
[0071]
g1=g(i-1,i-1)
[0072]
g3=g(i+1,i+1)
[0073]
如果处于异号情况下:
[0074]
g1=g(i-1,i+1)
[0075]
g3=g(i+1,i-1)
[0076]
(2)ga>gb[0077][0078]
g2=g(i,j-1)
[0079]
g4=g(i,j+1)
[0080]
如果处于同号情况下:
[0081]
g1=g(i+1,i-1)
[0082]
g3=g(i-1,i+1)
[0083]
如果处于异号情况下:
[0084]
g1=g(i-1,i-1)
[0085]
g3=g(i+1,i+1)
[0086]
根据以上公式,可以得出相邻两像素点的梯度大小,由此得:
[0087]
ga=w*g1+(1w)*g2
[0088]
gb=w*g3+(1w)*g4
[0089]
通过比较a、b两点与基准点p的不同梯度大小,来判断p点是否为冗余点,需要删除。最终分析得出:nms在面对复杂情况的手掌识别过程中,可以良好检测手掌边框,划定其大致范围。
[0090]
3)遍历输入单幕摄像头所呈手掌图像上所有可能的锚框,经过测试选出正确的目标框,并对位置和大小进行调整,降低手掌建模难度,完成目标检测任务。
[0091]
屏幕交互映射部分包括以下步骤:
[0092]
具体过程如下:
[0093]
(1)对原图进行采样处理,得到feature map,在feature map中生成锚框,减少了先验框的数量的同时,覆盖大多数情况。
[0094]
(2)规定锚框的尺度与宽高比,在同一位置生成不同大小的锚框,提高预测成功率。
[0095]
生成锚框的参数描述如下:
[0096]
1)假设基准锚框的宽和高是a和b,最终生成锚框的宽和高为x和y,宽高比为k。得到关系如下:
[0097]
a*b=x*y
[0098]
y/x=k
[0099]
解得:
[0100]
x=(a*b)/k
[0101]
y=a*b*k
[0102]
式中,a为基准锚框的宽度,b为基准锚框的高度,
[0103]
2)根据以上结果,得出最终锚框坐标表达公式为:(中心横坐标,中心纵坐标,锚框的宽,锚框的高)
[0104]
3)针对目标框以及其具体坐标,生成很多先验框并选取了一个iou(交并比)最大的先验框。接下来需要对先验框的类别(包括分类头预测以及回归头预测)做出预测,再对先验框的位置和大小进行修改。
[0105]
根据公式:
[0106][0107][0108][0109][0110]
式中,对位置信息进行归一化处理,得出:偏向于正方形的边框更适用于手掌模型建模。
[0111]
1)使用fpn(特征金字塔网络)编解码特征提取器,提高对大、小物体的检测能力。fpn(特征金字塔网络)提供了一条自上而下的路径,从语义丰富的层构建高分辨率的层,通过横向连接将自下而上以及自上而下路径连接,从而使目标检测物体位置判断更加精确。
[0112]
具体过程如下:
[0113]
(1)第一步bottom-up:自下而上的路径。取深度卷积网络,也就是backbone网络中每个stage的输出作为我们金字塔的一个层,例如以resnet作为backbone,我们取conv2,conv3,conv4,conv5这几个残差块的最后输出组成特征金字塔。我们记为{c2,c3,c4,c5},对应的stride为{4,8,16,32}。考虑到内存占据空间较大的问题,没有取第一个残差块的输出,作为特征金字塔网络层次。
[0114]
(2)第二步top-down:自上而下的路径。首先将{c2,c3,c4,c5}执行卷积来降低通道维度,再将空间信息少但是语义信息强的深层卷积层输出进行2倍的上采样,记上采样得到{p2,p3,p4,p5}。
[0115]
(3)第三步lateral connection:横向连接。利用横向连接将第一步和第二步的结果merge到一起,该连接可以使位置检测更加准确。
[0116]
2)训练过程中使用了focal loss:因为能够支撑由大尺度方差产生出来的锚框。
[0117]
focal loss损失函数基于二分类交叉熵ce。它是一个动态缩放的交叉熵损失,通过一个动态缩放因子,可以动态降低训练过程中易区分样本的权重,从而将重心快速聚焦在那些难区分的样本。
[0118]
不同于cross entropy loss(基于二分类的交叉熵损失)以及balanced cross entropy(常见的解决类不平衡方法),在面对简单样本和难分样本时,focal loss引入调制因子,用以聚焦难分样本。
[0119]
具体过程如下:
[0120]
设定一个参数γ,范围在[0,5],当γ为0时,为ce损失函数:
[0121]
fl(ρ
t
)=-(1-ρ
t
)
γ
log(ρ
t
)
[0122]
定义(1-ρ
t
)
γ
为调制因子,用来减低易分样本的损失贡献,从而增加难分样本的损失比例。当样本特性为易区分样本时,ρ
t
趋向于1,调制因子(1-ρ
t
)
γ
同时趋向于0,说明易区分样本损失较小,从而减低了易区分样本的损失比例。当ρ
t
很小,也就是假如某个样本被分到正样本,但是该样本为前景的概率较小,此时调制因子(1-ρ
t
)
γ
同样趋向于1,对样本损失没有太大影响。
[0123]
随γ不断增大,损失概率逐渐趋向于0。同时,结合cross entropy loss(基于二分类的交叉熵损失)以及balanced cross entropy(常见的解决类不平衡方法)对正负样本以及难易样本进行分析,公式结合,得到最终focal loss形式:
[0124]
fl(ρ
t
)=-α
t
(1-ρ
t
)
γ
log(p
t
)
[0125]
注:α
t
用来抑制正负样本的数量失衡;γ用来控制简单/难区分样本数量失衡;(1-ρ
t
)
γ
用来减低易分样本的损失贡献。
[0126]
3)消融对比实验,检测focal loss方法对于降低样本损失的可实用性,进一步扩大本发明的泛用性。
[0127]
手部关键点检测部分包括以下步骤:
[0128]
1)我们利用media pipe所配备的hand landmark模型,用于识别3d手节点。
[0129]
2)操作手掌检测模型blaze palm定义的手部图像区域,高精度返回手部关键点。在识别出的手部区域,该模型通过回归算法将关键点精确定位在手部的三维关节坐标上,并且对部分可见和遮挡的手部动作具有很高的鲁棒性。
[0130]
3)手掌检测模型检测过捕获后的整个手部关节点模型(如图1所示),随后手部地标模型与图像结合,在被检测到的手部区域精确定位出21个3d指关节坐标。
[0131]
4)使用单目相机采集到手势图像后运行media pipe并返回关键点坐标。在得到手部关键点的坐标后,通过计算欧氏距离,对检测到的手部关键点之间的距离和单个手指的关节曲率进行计算,而后根据自定义的判断条件规定手势动作和动作语义,即可实现系统的手势识别。
[0132]
具体过程如下:
[0133]
定义两指向量之间的夹角为θf,当θf的角度值大于某一角度阈值时认为此时该关节处于“伸直”,小于某一角度阈值时定义处于关节“折弯”。对于不同的食指关节点坐标(x,y),使用空间距离公式和反三角函数求得关节点之间的距离lf和角度θf。
[0134][0135][0136]
屏幕交互映射部分包括以下步骤:
[0137]
1)建立屏幕交互映射关系(如图5所示),按照嵌入关系将屏幕显示区域划分为4部分,包括手掌框选区p
ha
、手势动作区p
mo
、相机捕获区p
ca
、屏幕显示区p
sc

[0138]
2)建立手掌坐标与屏幕显示区域的坐标映射关系。
[0139]
定义屏幕显示区左下角和手势动作区左下角为坐标原点(0,0),坐标相对于手势动作区p
mo
表示为(x
mo
,y
mo
),相对于屏幕显示区域p
sc
表示为(x
sc
,y
sc
),屏幕显示区域的长度和宽度记为w
sc
和h
sc
;手势运动时,坐标位置在手势动作区p
mo
和屏幕显示区p
sc
之间的映射关系为:
[0140][0141][0142]
3)建立交互指令,对手掌不同关节点之间的距离和角度做出判断后,定义手指状态ao,并针对不同手势状态下的指尖方向定义uf(指尖向上状态)和df(指尖向下状态),进行不同的变量赋值。定义公式如下:
[0143]
a0=uf+df[0144]
a0={x|x=0,1}
[0145]
下面将通过不同的手势动作,进行详细分析:
[0146]
1)手掌移动a1动作
[0147]
当手掌移动动作指令首次出现时,记该动作为s
a1
,此后在手势动作区域内对食指-指尖关节进行目标追踪,移动结束动作记为f
a1
;手掌模型在手势动作区内p
mo
发生移动,并通过映射关系指针在屏幕显示区p
sc
上发生移动。
[0148]
a1={0,1,0,0,0}
[0149]
a1=s
a1
+f
a1
[0150]
2)单击确认a2动作
[0151]
单击动作以拇指-指尖关节和食指-指尖关节为判断点,当只有拇指指尖和食指指尖向其余手指弯曲时,定义进入预单击状态,记为p
a2
。完成预单击动作后,判断两个指尖索引点的距离h
a1
,如果指尖距离h
a1
<0.3mm,则定义完成单击动作c
a2
,确定当前手掌模型位置。
[0152]
a2={1,1,0,0,0}
[0153]
a2=p
a2
+c
a2
,h
a1
<0.3mm
[0154]
3)模型拖拽a3动作
[0155]
此动作控制数字模型的空间旋转,当手掌的指尖都“向下”,此时手掌进入握拳状态即五指全部处于df时,定义进入预拖拽状态,记为p
a3
。完成预拖拽动作后,保持p
a3
状态,时长t
a3
≥0.5s,在手势动作区p
mo
内进行自由拖拽,记为d
a3
。若手势移动范围p
a3
超出手势动作区p
mo
时,可利用手掌移动动作a1将手掌模型移动回p
mo
区域内,实现对数字模型的自由拖拽。
[0156]
a3={0,0,0,0,0}
[0157]
a3=p
a3
+d
a3
,t
a3
≥0.5s,p
a3
<p
mo
[0158]
a3=p
a3
+d
a3
+a1,t
a3
≥0.5s,p
a3
≥p
mo
[0159]
4)模型放大a4动作
[0160]
此动作控制数字模型的特征放大。当五指动作为指尖全部为“向上”即五指均处于uf,开始以当前索引点食指-指间关节的坐标点为中心点进行模型放大。若需以其他特征
点进行放大,即需利用动作a1移动索引点食指-指间关节至特征点,重复模型放大动作a4。由此实现对数字模型特征的放大,记为b
a4

[0161]
a4={1,1,1,1,1}
[0162]
a4=b
a4
+a1[0163]
5)模型放大a5动作
[0164]
此动作控制数字模型的特征缩小,当五指指尖“向下”为df其余四指均为“向上”uf时,同样开始以当前索引点食指-指间关节的坐标点为中心点进行模型缩小。与a4动作相同,可利用a1动作对其他特征点实现缩小效果,记为s
a4

[0165]
a5={0,1,1,1,1}
[0166]
a5=s
a4
+a1[0167]
后续实验检测发明可实用性包括以下步骤:
[0168]
1)使用衡量分类模型中的常用方法即混淆矩阵,对上述五种动作手势进行准确度检测。
[0169]
2)我们定义变量pr为精确度(正样本且预测正确的数量占所有模型认为正样本的比例);re为召回率(正样本且预测正确的数量占所有正样本的比例);tp为正样本预测为正样本的个数;tn正样本预测为负样本的个数;fp为负样本预测为正样本的个数;tn为负样本预测为负样本的个数。公式如下:
[0170][0171][0172]
选取3000个样本进行数据准确度检测,其中正确交互次数达到2897个,未实现交互次数为103个,整体检测模型准确率达到99%,样本数据分析准确度较高。
[0173]
要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物料或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物料或者设备所固有的要素。
[0174]
尽管已经示出和描述了本发明新型的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明新型的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明新型的范围由所附权利要求及其等同物限定。

技术特征:
1.一种基于media pipe框架采集手势的人机交互识别系统,其特征在于:包括手势设计、手掌检测器、屏幕交互映射和手部关键点检测器;所述手势设计基于手势识别的首要工作是先设计好能被识别的手势,手势的设计要遵循几个原则:首先,在用户使用方面,手势的设计要方便简单,符合用户习惯,便于用户理解和掌握;其次,在交互过程方面,要求手势的设计保证流畅和降低操作疲劳;最后,在系统实现方面,由于手势识别的准确度与传统的交互方式存在一定的差距,识别过程容易出现误判,要求手势的设计功能交叉少,风格统一,使系统存在一定的容错性和可靠性。所述手掌检测器部分基于部分由media pipe模块中的手掌检测模型blaze palm detector直接实现;使用正方形的边界框来建模手掌,可以忽略其他长宽比,减少锚框的数量;使用类似于特征金字塔网络的编码解码器进行特征提取;在训练过程中使用focal loss损失函数,用于支持大尺度方差所产生的大量的锚框;最后通过消融对比实验,检测focal loss损失函数对于降低样本损失度的实用性。屏幕交互映射部分对手势坐标进行捕获时,主要以五指的指关节为主,但因手部整体的完整性和不规则性,故对整体手掌的移动区域做出规定。利用框图建立手掌移动区域,保证手势运动过程中手掌被捕捉的完整性。手部关键点检测器基于手节点,操作手掌检测模型blaze palm定义的手部图像区域,高精度地回手部关键点,并将输入图像到映射21个关键点位置关键点位置ρ
i
∈r3。2.根据权利要求1所述的一种基于media pipe框架采集手势的人机交互识别系统,其特征在于:手势设计包括以下步骤:1)基于用户使用,初步设定简单易懂的基础手势,方便用户掌握、使用。2)在交互层方面,进一步提高基础手势的流畅度、完整性,设计保持流畅,降低掌握学习难度。3)在系统实现层面,保证设计功能交叉少、风格统一,提高后续手势识别容错度与可靠性。4)改变手势识别的评判标准,取消以距离单向摄像头远近程度为基准,判断手势识别完成度完成情况。考虑增设以手指弯曲程度为基准,给予不同手势语义的设计标准,进一步提高单向摄像头对于深度层面的信息获取。3.根据权利要求1所述的一种基于media pipe框架采集手势的人机交互识别系统,其特征在于:手掌检测器部分包括以下几个步骤:1)训练校准度较高的手掌检测器,来代替易受干扰的手指检测器2)使用非极大值抑制算法,检测面对手掌,nms是否可以正常处理,划定边框范围。3)遍历输入单幕摄像头所呈手掌图像上所有可能的锚框,经过测试选出正确的目标框,并对位置和大小进行调整,降低手掌建模难度,完成目标检测任务。4)使用fpn(特征金字塔网络)编解码特征提取器,提高对大、小物体的检测能力。fpn(特征金字塔网络)提供了一条自上而下的路径,从语义丰富的层构建高分辨率的层,通过横向连接将自下而上以及自上而下路径连接,从而使目标检测物体位置判断更加精确。5)训练过程中使用了focal loss损失函数来支撑由大尺度方差产生出来的锚框。focal loss基于二分类交叉熵ce。为动态缩放的交叉熵损失,通过一个动态缩放因子,可以动态降低训练过程中易区分样本的权重,从而将重心快速聚焦在那些难区分的样本。
6)消融对比实验,检测focal loss方法对于降低样本损失的可实用性,进一步扩大本发明的泛用性。4.根据权利要求3所述的一种基于media pipe框架采集手势的人机交互识别系统,其特征在于:屏幕交互映射部分包括以下步骤:1)建立屏幕交互映射关系(如图5所示),按照嵌入关系将屏幕显示区域划分为4部分,包括手掌框选区p
ha
、手势动作区p
mo
、相机捕获区p
ca
、屏幕显示区p
sc
;2)建立手掌坐标与屏幕显示区域的坐标映射关系。定义屏幕显示区左下角和手势动作区左下角为坐标原点(0,0),坐标相对于手势动作区p
mo
表示为(x
mo
,y
mo
),相对于屏幕显示区域p
sc
表示为(x
sc
,y
sc
),屏幕显示区域的长度和宽度记为w
sc
和h
sc
。3)建立交互指令,对手掌不同关节点之间的距离和角度做出判断后,定义手指状态a0,并针对不同手势状态下的指尖方向定义u
f
(指尖向上状态)和d
f
(指尖向下状态),进行不同的变量赋值。定义公式如下:a0=u
f
+d
f
a0={x|x=0,1}后续实验检测发明可实用性,使用衡量分类模型中的常用方法即混淆矩阵,对下述五种动作手势进行准确度检测。5.根据权利要求4所述的一种基于media pipe框架采集手势的人机交互识别系统,其特征在于:手部关键点检测部分包括以下步骤:1)我们利用media pipe所配备的hand landmark模型,用于识别3d手节点。2)操作手掌检测模型blaze palm定义的手部图像区域,高精度返回手部关键点。在识别出的手部区域,该模型通过回归算法将关键点精确定位在手部的三维关节坐标上,并且对部分可见和遮挡的手部动作具有很高的鲁棒性。

技术总结
本发明公开了一种基于Media Pipe框架采集手势的人机交互识别系统,包括手势设计、手掌检测器、屏幕交互映射和手部关键点检测器;所述手势设计基于手势识别的首要工作是先设计好能被识别的手势;所述手掌检测器部分基于部分由Media Pipe模块中的手掌检测模型Blaze Palm Detector直接实现;屏幕交互映射部分对手势坐标进行捕获时;手部关键点检测器基于手节点,操作手掌检测模型Blaze palm定义的手部图像区域本发明涉及人机交技术领域,具体为具体为一种基于Media Pipe框架采集手势的人机交互识别系统。交互识别系统。交互识别系统。


技术研发人员:丁琪芮 杨建文 袁心月 陈彦冰 邹堉莹 周欣蕴
受保护的技术使用者:安徽大学
技术研发日:2023.06.06
技术公布日:2023/8/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐