连续手语识别分词方法及装置

未命名 09-03 阅读:90 评论:0


1.本发明涉及人智能的技术领域,尤其是涉及一种连续手语识别分词方法及装置。


背景技术:

2.手语是一门视觉语言,作为听障人群的主要日常交流方式,手语通过手部和身体其他部位的运动,包括:手势变化及其运动轨迹、面部及口部表情变化、头部及身体动作幅度变化等方式,协作进行信息传达。手语拥有与自然口语不同的语法结构和表达方式,使得听障人士与健听人在日常生活中难以有效交流。作为人工智能促进听障人群与健听人群无障碍交流的核心研究,连续手语识别(continuous sign language recognition,cslr)利用计算机视觉及自然语言处理技术,将一段手语视频中对应的多个手语单词连续逐一识别出来。
3.为了有效捕捉手语动作,模型需要搭建有效的时序感受野提取时序特征,现有技术采用如下手段:1)采用二维卷积神经网络2d cnn(convolutional neural networks,cnn)与长短期记忆网络(long short-termmemory,lstm)相结合的方式,或者采用三维卷积神经网络3d cnn与扩张卷积模型(dilated model)结合的方式更为有效地增大视觉特征提取网络的时序感受野,仅注重手语中长时视觉信息提取。2)因为较多数手语动作并不属于长时间演示的动作,因此采用二维卷积神经网络2d cnn(convolutional neural networks,cnn)与时序卷积神经网络(temporal convolutional neural networks,1d-tcn)相结合的方式,搭建短时时序感受野,仅注重较多数短时手语动作的视觉信息提取。3)为了更加全面地捕捉手语动作,许多方法采用二维卷积神经网络2d cnn(convolutional neural networks,cnn)与时序卷积神经网络(temporal convolutional neural networks,1d-tcn)和长短期记忆网络(long short-term memory,lstm)相结合的方式,旨在搭建长-短时时序感受野,能够同时实现长时、短时手语动作的视觉信息提取。4)采用ctc最大化视频帧与句子中手语单词之间所有可行对齐路径的概率和,以此获得每一视频帧的概率标签,从而能够以全监督的方式端到端地训练模型。
4.尽管目前的方法采用搭建长短时时序感受野相结合的方式提取手语动作的视觉信息,但是他们搭建的时序感受野是固定的,导致提取结果是局限在两种感受野之内的,并不能精细地去刻画每一种时序长度的手语动作,因此他们面临难以有效捕捉任意时序长度手语动作的问题。此外,由于多数手语动作的外观和运动轨迹很相似,仅通过使用ctc训练模型也面临着相似手语动作的概率标签不准确的问题,导致难以有效捕捉多种时序长度手语动作。


技术实现要素:

5.有鉴于此,本发明的目的在于提供连续手语识别分词方法及装置,以精细地去刻画每一种时序长度的手语动作,对手语动作精细分词。
6.本技术提供了一种连续手语识别分词方法,应用于连续手语识别分词系统,所述
连续手语识别分词系统包括文本提取模型以及并行多尺度视觉特征特提取模型,具体包括如下步骤:
7.将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征;
8.利用连续手语识别数据集确定手语识别数据视频,将所述手语识别数据视频输入至所述并行多尺度视觉特征特提取模型,以对所述手语识别数据视频按照不同的时间跨度进行分割,提取多尺度手语视觉特征;
9.利用所述手语单词文本特征以及所述多尺度手语视觉特征对所述连续手语识别分词系统进行训练。
10.通过本技术的技术方案可以精细地去刻画每一种时序长度的手语动作,对手语动作精细分词。
11.一种可能的方式是,所述文本提取模型包括:文本特征提取子模型以及映射子模型。
12.所述将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征的步骤包括:
13.将连续手语识别数据集输入至文本特征提取子模型以提取连续手语文本特征
14.将所述连续手语文本特征输入至映射子模型,对所述连续手语文本特征进行维度转换,输出所述手语单词文本特征。
15.一种可能的方式是,所述利用连续手语识别数据集确定手语识别数据视频,将所述手语识别数据视频输入至所述并行多尺度视觉特征特提取模型,以对所述手语识别数据视频按照不同的时间跨度进行分割,提取多尺度手语视觉特征的步骤中,
16.所述并行多尺度视觉特征提取模型包括resnet18g
sp
(.;θ
sp
)、并行多尺度时序网络g
hpt
(.;θ
hpt
)和视频帧序列网络g
se
(.;θ
se
)。
17.一种可能的方式是,所述并行多尺度时序网络包含h层并行时序网络;
18.第h层并行时序网络的操作如下:
[0019][0020]
—第h层并行时序网络中的第r个一维扩张卷积层;
[0021]
—第h层并行时序网络的输入特征,f
in
=f
sp
表示第一个pt网络结构的输入特征;
[0022]
—第h层并行时序网络的输出特征;
[0023]
—第h层并行时序网络中单个一维扩张卷积层的输出特征;
[0024]
*—卷积运算;
[0025]
wr∈d×3,br∈d—指代扩张卷积层的权重和偏置,
[0026]
d—特征维数;
[0027]
r1×1—卷积核为1的1d卷积层;
[0028]
bn—批次归一化层;
[0029]
relu—relu激活函数;
[0030]
—多尺度手语时序视觉特征。
[0031]
一种可能的方式是,所述视频帧序列网络g
se
(.;θ
se
)由bi-gru单元以及全连接层组成,具体结构如下:
[0032]fgru
=g
se
(f
hpt
);
[0033]
—bi-gru的输出特征,表示整合了手语视频中多尺度时序信息和序列信息的手语视觉特征;
[0034]fcls
=g
se
(f
hpt
)=fc(bigru(f
hpt
));
[0035]
—|c|类的类别概率矩阵,|c|表示手语语料库中单词的总数;
[0036]
bigru—bi-gru层;
[0037]
fc—全连接层;
[0038]
一种可能的方式是,所述利用所述手语单词文本特征以及所述多尺度手语视觉特征对所述连续手语识别分词系统进行训练的步骤中,
[0039]
构建目标函数,将所述目标函数加入至所述文本提取模型以及行所述多尺度视觉特征特提取模型以对连续手语识别分词系统进行训练。
[0040]
一种可能的方式是,所述目标函数包括:
[0041]
构建跨模态对齐约束以及ctc目标函数组建目标函数的步骤包括:
[0042]
所述目标函数为:
[0043][0044]
λ—控制跨模态对齐约束部分贡献度的超参数,
[0045]
θ
sp
—所述多尺度视觉特征特提取模型所述resnet18参数;
[0046]
θ
hpt
—所述多尺度视觉特征提取模型的参数;
[0047]
θ
se
—所述视频帧序列网络中bi-gru单元和全连接层参数;
[0048]
l
ctc
—ctc目标函数。
[0049]
l
sdtw
—跨模态对齐约束代价函数。
[0050]
一种可能的方式是,所述ctc目标函数包括:
[0051]
l
ctc
=-logp(y|x);
[0052]
logp(y|x)—给定x的条件下,所有可行对齐路径的概率之和;
[0053]
其中,对齐路径π的条件概率计算如下:
[0054][0055]
π—视频中所有帧x与其对应单词的对齐路径集合;
[0056]
c—连续手语识别数据集中所有单词类别数量;
[0057]
blank—空白类别;
[0058]
给定x的条件下,采用如下公式获取所有可行对齐路径的概率之和
[0059][0060]
β—将π中重复的标签和blank类去掉的映射。
[0061]
一种可能的方式是,所述跨模态对齐约束代价函数包括:
[0062]
—手语单词文本特征;
[0063]
—手语视觉特征;
[0064]
l
sdtw
—代价函数;
[0065]di,j
=d
i,j
+min(d
i-1,j
,d
i,j-1
,d
i-1,j-1
),i∈l,j∈t
[0066][0067]
式中为了使得d
i,j
的计算可微引入最小算子min
γ
(a1,...,an);
[0068][0069]
γ—平滑系数;
[0070]
第二方面,本技术提供了一种连续手语识别分词装置,应用于连续手语识别分词系统,所述连续手语识别分词系统包括文本提取模型以及行多尺度视觉特征特提取模型,包括:
[0071]
第一提取模块:用于将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征;
[0072]
第二提取模块:用于利用连续手语识别数据集确定手语识别数据视频,将所述手语识别数据视频输入至所述并行多尺度视觉特征特提取模型,以对所述手语识别数据视频按照不同的时间跨度进行分割,提取多尺度手语视觉特征;
[0073]
训练模块:用于利用所述手语单词文本特征以及所述多尺度手语视觉特征对所述连续手语识别分词系统进行训练。
[0074]
本发明实施例带来了以下有益效果:。
[0075]
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0076]
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0077]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0078]
图1为本技术实施例提供的一种连续手语识别分词方法流程图;
[0079]
图2为本技术实施例提供的一种连续手语识别分词装置结构图。
具体实施方式
[0080]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0081]
目前,采用搭建长短时时序感受野相结合的方式提取手语动作的视觉信息,但是他们搭建的时序感受野是固定的,导致提取结果是局限在两种感受野之内的,并不能精细地去刻画每一种时序长度的手语动作,因此他们面临难以有效捕捉任意时序长度手语动作的问题。此外,由于多数手语动作的外观和运动轨迹很相似,仅通过使用ctc训练模型也面临着相似手语动作的概率标签不准确的问题,导致难以有效捕捉多种时序长度手语动作。
[0082]
基于此,本发明实施例提供的一种连续手语识别分词方法及装置,可以捕捉不同时序长度的手语动作,对手语进行精确分词。
[0083]
为便于对本实施例进行理解,首先对本发明实施例所公开的一种连续手语识别分词方法进行详细介绍,
[0084]
请参照图1,图1为本技术实施例提供的一种连续手语识别分词方法流程图,应用于连续手语识别分词系统,所述连续手语识别分词系统包括文本提取模型以及行多尺度视觉特征特提取模型,具体包括如下步骤:
[0085]
s101:将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征;
[0086]
具体的,在此步骤中,所述文本提取模型包括:文本特征提取子模型以及映射子模型,所述将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征的步骤包括:
[0087]
将连续手语识别数据集输入至文本特征提取子模型以提取连续手语文本特征
[0088]
将所述连续手语文本特征输入至映射子模型,对所述连续手语文本特征进行维度转换,输出所述手语单词文本特征。
[0089]
更进一步将,本领域人员可实现的方式是,采用bilstm模型构建文本特征提取子模型,同时利用三个全连接层构建映射子模型;
[0090]
也就是说,映射子模型包括:;
[0091]omlp1
=f
mlp1
(w
mlp1
·ot
+b
mlp1
);
[0092]omlp2
=f
mlp2
(w
mlp2
·omlp1
+b
mlp2
);
[0093]omlp3
=f
mlp3
(w
mlp3
·omlp2
+b
mlp3
)。
[0094]wmlp
—映射子模型的参数;
[0095]bmlp
—映射子模型的偏置;
[0096]omlp
—映射子模型的输出;
[0097]
s102:利用连续手语识别数据集确定手语识别数据视频,将所述手语识别数据视频输入至所述并行多尺度视觉特征特提取模型,以对所述手语识别数据视频按照不同的时间跨度进行分割,提取多尺度手语视觉特征;
[0098]
需要说明的是,不同的时间跨度代表着不同的时间间隔,示例性的,假定一个视频有100秒,在本技术之中可按照2秒、5秒、10秒20秒为时间跨度对视频进行分割;
[0099]
也就是说,按照将100秒的视频每隔两秒进行视频分割,并每隔5秒进行视频分割,每隔10秒进行视频分割,当然,前述仅仅作为一个示例,在本技术之中,对时间跨度的设置为k+2
τ-1,{τ0,...,τ
r-1
},τ
r-1
=2
r-1
,r表示第h层并行时序网络中第r个卷积核为k的1维扩张卷积层,根据经验将r的值域设置为r=1,2,3,4,5;
[0100]
通过此种方式可以针对将连续手语视频按照不同的时间跨度进行分割,可以在后续训练时可以精细地去刻画每一种时序长度的手语动作,对手语动作精细分词;
[0101]
可选的,在此步骤中,所述并行多尺度视觉特征提取模型包括resnet18g
sp
(.;θ
sp
)、并行多尺度时序网络g
hpt
(.;θ
hpt
)和视频帧序列网络g
se
(.;θ
se
)。
[0102]
一种可能的方式是,所述并行多尺度时序网络包含h层并行时序网络;
[0103]
第h层并行时序网络的操作如下:
[0104][0105]
—第h层并行时序网络中的第r个一维扩张卷积层;
[0106]
—第h层并行时序网络的输入特征,f
in
=f
sp
表示第一个pt网络结构的输入特征;
[0107]
—第h层并行时序网络的输出特征;
[0108]
—第h层并行时序网络中单个一维扩张卷积层的输出特征;
[0109]
*—卷积运算;
[0110]
wr∈d×3,br∈d—指代扩张卷积层的权重和偏置,
[0111]
d—特征维数;
[0112]
r1×1—卷积核为1的1d卷积层;
[0113]
bn—批次归一化层;
[0114]
relu—relu激活函数;
[0115]
—多尺度手语时序视觉特征。
[0116]
同时,所述视频帧序列网络g
se
(.;θ
se
)由bi-gru单元以及全连接层组成,具体结构如下:
[0117]fgru
=g
se
(f
hpt
);
[0118]
—bi-gru的输出特征,表示整合了手语视频中多尺度时序信息和序列信息的手语视觉特征;
[0119]fcls
=g
se
(f
hpt
)=fc(bigru(f
hpt
));
[0120]
—|c|类的类别概率矩阵,|c|表示手语语料库中单词的总数;
[0121]
bigru—bi-gru层;
[0122]
fc—全连接层;
[0123]
s103:利用所述手语单词文本特征以及所述多尺度手语视觉特征对所述连续手语识别分词系统进行训练。
[0124]
可选的,在此步骤中,构建目标函数,将所述目标函数加入至所述文本提取模型以及行所述多尺度视觉特征特提取模型以对连续手语识别分词系统进行训练。
[0125]
具体的,所述目标函数包括:
[0126]
构建跨模态对齐约束以及ctc目标函数组建目标函数的步骤包括:
[0127]
所述目标函数为:
[0128][0129]
λ—控制跨模态对齐约束部分贡献度的超参数,
[0130]
θ
sp
—所述并行多尺度视觉特征特提取模型所述resnet18参数;
[0131]
θ
hpt
—所述并行多尺度视觉特征提取模型的参数;
[0132]
θ
se
—所述视频帧序列网络中bi-gru单元和全连接层参数;
[0133]
l
ctc
—ctc目标函数。
[0134]
l
sdtw
—跨模态对齐约束代价函数。
[0135]
一种可能的方式是,所述ctc目标函数包括:
[0136]
l
ctc
=-logp(y|x);
[0137]
logp(y|x)—给定x的条件下,所有可行对齐路径的概率之和;
[0138]
其中,对齐路径π的条件概率计算如下:
[0139][0140]
π—视频中所有帧x与其对应单词的对齐路径集合;
[0141]
c—连续手语识别数据集中所有单词类别数量;
[0142]
blank—空白类别;
[0143]
给定x的条件下,采用如下公式获取所有可行对齐路径的概率之和
[0144]
β—将π中重复的标签和blank类去掉的映射。
[0145]
一种可能的方式是,所述跨模态对齐约束代价函数包括:
[0146][0147]
—手语单词文本特征;
[0148]
—手语视觉特征;
[0149]
l
sdtw
—代价函数;
[0150]di,j
=d
i,j
+min(d
i-1,j
,d
i,j-1
,d
i-1,j-1
),i∈l,j∈t
[0151][0152]
式中为了使得d
i,j
的计算可微引入最小算子min
γ
(a1,...,an);
[0153][0154]
γ—平滑系数;
[0155]
通过s101至s103的步骤,可以将手语连续视频按照不同的时间跨度进行分割,扩
种了数据集,以此作为数据集,提升了精度,精细地去刻画每一种时序长度的手语动作,对手语动作精细分词。
[0156]
图2为本技术实施例提供的一种连续手语识别分词装置结构图,应用于连续手语识别分词系统,所述连续手语识别分词系统包括文本提取模型以及行多尺度视觉特征特提取模型,包括:
[0157]
第一提取模块:用于将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征;
[0158]
第二提取模块:用于利用连续手语识别数据集确定手语识别数据视频,将所述手语识别数据视频输入至所述并行多尺度视觉特征特提取模型,以对所述手语识别数据视频按照不同的时间跨度进行分割,提取多尺度手语视觉特征;
[0159]
训练模块:用于利用所述手语单词文本特征以及所述多尺度手语视觉特征对所述连续手语识别分词系统进行训练。
[0160]
以下为本技术的一个具体示例,在本发明提供的实施例中,对多尺度视觉特征提取及跨模态对齐模型进行训练,首先对样本进行数据增强,将所有的视频帧进行重定义尺寸,随机多尺度裁剪和随机水平翻转。在重定义尺寸中,将视频帧重定义尺寸为(宽*高)256
×
256。多尺度裁剪是在重定义尺寸的基础上,从(1.0,0.875,0.75,0.66)中随机挑选一个裁剪比例,与目标裁剪的尺寸(224
×
224)相乘后生成裁剪区域进行裁剪,最后将视频帧的尺寸重定义为224
×
224。随机水平翻转是对所有的视频帧,按照50%的几率进行水平180度翻转。本发明在测试时,仅对视频帧进行重定义尺寸(宽*高)256
×
256,以及裁剪区域为(224
×
224)的中心裁剪,中心裁剪是在重定义尺寸(宽*高)256
×
256的基础上,根据最终视频帧的尺寸(224
×
224)计算并裁剪视频帧的中心区域。
[0161]
为了验证本发明的有效性,在连续手语识别数据集rwth-2014,rwth-2014t和csl500上进行了评测。本发明使用ctc beamsearch预测手语视频对应的手语句子,并采用了误字率(wer)作为评价指标,其被广泛应用于连续手语识别任务[5,6,7,12,13]。wer衡量的是将一个预测句子转换为标准参考句子所需的最少“插入”,“删除”和“替换”的操作数量,该指标越低表示评测效果越好:
[0162][0163]
其中,ni,nd,ns分别是“插入”,“删除”和“替换”的操作数量,l为标准参考句子的单词数量。
[0164]
在训练时为了能够有效缓解视频帧存在的冗余性,与sfl的选帧策略相同,本发明在rwth-2014,rwth-2014t数据集的训练中,将每一视频的所有视频帧均匀地、随机地抽取一半。对于csl500数据集,在训练时将每一段视频的所有视频帧均匀地、随机地抽取20帧。对于以上这三个数据集,实验总共设置80个训练epoch,模型采用adam优化器,初始学习率设置为1e

4,在训练的第30个epoch和第60个epoch时学习率乘0.1,超参数λ被设置为5e-5,训练批次设置为4。在模型测试时,ctc beamsearch的beam width被设置为10。
[0165]
其他先进的连续手语识别算法与本发明的性能比较如表1、表2、表3所示,多尺度视觉特征提取及跨模态对齐模型在rwth-2014数据集上的消融实验如表4所示。
[0166]
表1在rwth-2014数据集上与其他连续手语识别算法的对比
[0167][0168]
表2在rwth-2014t数据集上与其他连续手语识别算法的对比
[0169][0170]
表3在csl500数据集split-ii上与其他连续手语识别算法的对比
[0171][0172]
表4多尺度视觉特征提取及跨模态对齐模型在rwth-2014数据集上的消融实验。
[0173][0174]
从表1、表2以及表3中可以看出,本发明提出的多尺度视觉特征提取及跨模态对齐模型在多个公开的连续手语识别数据集上具有先进的识别性能,经证明,本发明提出的并行多尺度视觉特征提取模型hpt能够有效地捕捉到一段手语视频中不同时序长度的手语动作,带来了明显的分词性能提升。而本发明提出的跨模态对齐约束能在高维特征空间中有效地将视频帧的视觉特征与其对应的手语单词特征进行对齐,有效地提高视频视觉特征的泛化能力。
[0175]
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
[0176]
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0177]
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0178]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明
的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

技术特征:
1.一种连续手语识别分词方法,其特征在于,应用于连续手语识别分词系统,所述连续手语识别分词系统包括文本提取模型以及并行多尺度视觉特征特提取模型,具体包括如下步骤:将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征;利用连续手语识别数据集确定手语识别数据视频,将所述手语识别数据视频输入至所述并行多尺度视觉特征特提取模型,以对所述手语识别数据视频按照不同的时间跨度进行分割,提取多尺度手语视觉特征;利用所述手语单词文本特征以及所述多尺度手语视觉特征对所述连续手语识别分词系统进行训练。2.根据权利要求1所述的方法,其特征在于,所述文本提取模型包括:文本特征提取子模型以及映射子模型。所述将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征的步骤包括:将连续手语识别数据集输入至文本特征提取子模型以提取连续手语文本特征将所述连续手语文本特征输入至映射子模型,对所述连续手语文本特征进行维度转换,输出所述手语单词文本特征。3.根据权利要求1所述的方法,其特征在于,所述利用连续手语识别数据集确定手语识别数据视频,将所述手语识别数据视频输入至所述并行多尺度视觉特征特提取模型,以对所述手语识别数据视频按照不同的时间跨度进行分割,提取多尺度手语视觉特征的步骤中,所述并行多尺度视觉特征提取模型包括resnet18g
sp
(.;θ
sp
)、并行多尺度时序网络g
hpt
(.;θ
hpt
)和视频帧序列网络g
se
(.;θ
se
)。4.根据权利要求3所述的方法,其特征在于,所述并行多尺度时序网络包含h层并行时序网络;第h层并行时序网络的操作如下:第h层并行时序网络的操作如下:—第h层并行时序网络中的第r个一维扩张卷积层;—第h层并行时序网络的输入特征,表示第一个pt网络结构的输入特征;—第h层并行时序网络的输出特征;—第h层并行时序网络中单个一维扩张卷积层的输出特征;*—卷积运算;w
r

d
×3,b
r

d
—指代扩张卷积层的权重和偏置,d—特征维数;r1×1—卷积核为1的1d卷积层;bn—批次归一化层;relu—relu激活函数;
—多尺度手语视觉特征。5.根据权利要求4所述的方法,其特征在于,所述视频帧序列网络g
se
(.;θ
se
)由bi-gru单元以及全连接层组成,具体结构如下:f
gru
=g
se
(f
hpt
);—bi-gru的输出特征,表示整合了手语视频中多尺度时序信息和序列信息的手语视觉特征;f
cls
=g
se
(f
hpt
)=fc(bigru(f
hpt
));—|c|类的类别概率矩阵,|c|表示手语语料库中单词的总数;bigru—bi-gru层;fc—全连接层。6.根据权利要求5所述的方法,其特征在于,所述利用所述手语单词文本特征以及所述多尺度手语视觉特征对所述连续手语识别分词系统进行训练的步骤中,构建目标函数,将所述目标函数加入至所述文本提取模型以及行所述多尺度视觉特征特提取模型以对连续手语识别分词系统进行训练。7.根据权利要求6所述的方法,其特征在于,所述目标函数包括:构建跨模态对齐约束以及ctc目标函数组建目标函数的步骤包括:所述目标函数为:λ—控制跨模态对齐约束部分贡献度的超参数,θ
sp
—所述并行多尺度视觉特征特提取模型所述resnet18参数;θ
hpt
—所述并行多尺度视觉特征提取模型的参数;θ
se
—所述视频帧序列网络中bi-gru单元和全连接层参数;l
ctc
—ctc目标函数。l
sdtw
—跨模态对齐约束代价函数。8.根据权利要求7所述的方法,其特征在于,所述ctc目标函数包括:l
ctc
=-log p(y|x);log p(y|x)—给定x的条件下,所有可行对齐路径的概率之和;其中,对齐路径π的条件概率计算如下:π—视频中所有帧x与其对应单词的对齐路径集合;c—连续手语识别数据集中所有单词类别数量;blank—空白类别;给定x的条件下,采用如下公式获取所有可行对齐路径的概率之和β—将π中重复的标签和blank类去掉的映射。
9.根据权利要求7所述的方法,其特征在于,所述跨模态对齐约束代价函数包括:9.根据权利要求7所述的方法,其特征在于,所述跨模态对齐约束代价函数包括:—手语单词文本特征;—手语视觉特征;l
sdtw
—代价函数;d
i,j
=d
i,j
+min(d
i-1,j
,d
i,j-1
,d
i-1,j-1
),i∈l,j∈t式中为了使得d
i,j
的计算可微引入最小算子min
γ
(a1,...,a
n
);γ—平滑系数。10.一种连续手语识别分词装置,其特征在于,应用于连续手语识别分词系统,所述连续手语识别分词系统包括文本提取模型以及行多尺度视觉特征特提取模型,包括:第一提取模块:用于将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征;第二提取模块:用于利用连续手语识别数据集确定手语识别数据视频,将所述手语识别数据视频输入至所述并行多尺度视觉特征特提取模型,以对所述手语识别数据视频按照不同的时间跨度进行分割,提取多尺度手语视觉特征;训练模块:用于利用所述手语单词文本特征以及所述多尺度手语视觉特征对所述连续手语识别分词系统进行训练。

技术总结
本发明提供了一种手语识别分词方法及装置,涉及人工智能的技术领域,应用于连续手语识别分词系统,连续手语识别分词系统包括文本提取模型以及并行多尺度视觉特征特提取模型,具体包括如下步骤:将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征;利用连续手语识别数据集确定手语识别数据视频,将手语识别数据视频输入至所述并行多尺度视觉特征特提取模型,以对所述手语识别数据视频按照不同的时间跨度进行分割,提取多尺度手语视觉特征;利用所述手语单词文本特征以及所述多尺度手语视觉特征对所述连续手语识别分词系统进行训练,通过本申请可以精细地去刻画每一种时序长度的手语动作,对手语识别精细分词。对手语识别精细分词。对手语识别精细分词。


技术研发人员:孙悦 薛万利 刘敬泽 康泽 刘清华 郭乐铭
受保护的技术使用者:天津理工大学
技术研发日:2023.06.11
技术公布日:2023/8/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐