局部特征增强的语音识别方法、系统、设备及介质与流程

未命名 09-24 阅读:61 评论:0


1.本发明涉及计算机技术领域,具体涉及一种局部特征增强的语音识别方法、系统、设备及介质。


背景技术:

2.随着深度学习技术的发展,transformer网络已成为自动语音识别领域中的一种极具潜力和应用前景的新兴方法。然而,现有的transformer网络在语音识别领域的应用中,捕捉局部特征以及局部特征和全局特征融合处理是自动语音识别领域中至关重要的一环,由于transformer网络的全局特征建立机制,使得transformer网络无法有效获取局部特征,这也导致语音识别模型的性能和精度受到制约,语音识别的准确率降低。
3.此外,设置固定的滑动窗口来获取局部信息,也不是一个有效的解决方案,因为不同的transformer层所关注的token范围不同,而固定窗口限制了令牌之间的交互,不能很好地提取局部信息。这就导致了算法的局限性,其性能和精度会受到一定的制约
4.因此,亟需一种能够提取局部特征并添加到全局特征中实现局部特征增强和特征融合处理的局部特征增强的语音识别方法。


技术实现要素:

5.针对现有技术的不足,本发明提出一种局部特征增强的语音识别方法、系统、设备及介质。
6.本发明第一方面公开了一种局部特征增强的语音识别方法,包括:
7.s1:对原始音频进行预处理,获得音频特征x=(x1,

,x
t1
);
8.s2:基于嵌入层提取局部特征的可变性滑动窗口模块,构建语音识别网络模型;
9.s3:基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果y=(y1,

,ym)。
10.在一个可选的实施例中,所述对原始音频进行预处理,获得音频特征x=(x1,

,x
t1
)包括:
11.s101:通过前端模块将所述原始音频从时域转换到频域以获得l og me l特征序列;
12.s102:通过数据增强模块对频谱图进行数据增强;
13.s103:通过归一化层使用均值方差对所述特征序列进行归一化处理;
14.s104:将归一化处理后的所述特征序列通过卷积下采样模块进行下采样,对下采样数据进行位置编码,获得带有位置编码的音频特征x=(x1,

,x
t1
)。
15.在一个可选的实施例中,所述语音识别网络模型包括由n个编码器层组成的编码器以及m个解码器层组成的解码器,所述编码器层包括局部增强型多头自注意力模块、可变性滑动窗口模块以及前馈网络模块,所述解码器层包括局部增强型多头自注意力模块、多头自注意力模块、可变性滑动窗口模块以及前馈网络模块,所述可变性滑动窗口模块通过
嵌入层输入为不同的所述编码器层和所述解码器层选择不同的局部增强感受野。
16.在一个可选的实施例中,所述局部增强型多头自注意力模块、多头自注意力模块、可变性滑动窗口模块以及前馈网络模块均包含残差连接和层归一化。
17.在一个可选的实施例中,所述基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果y=(y1,

,ym),其具体包括:
18.基于所述编码器层的所述可变性滑动窗口模块,对两相同所述音频特征x=(x1,

,x
t1
)进行不同的线性层变换,再通过点积运算获得当前嵌入层的注意力分数,结合掩码技术的掩码矩阵限制令牌的交互范围,获得特征融合到编码器层对应的注意力得分ci,i表示为所述编码器层对应的第i层;
19.基于所述编码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分ci,进行注意力机制中上下文交互范围的控制,对编码器层进行局部特征增强,输出编码器层对应的注意力加权;
20.基于所述编码器层的所述前馈网络模块,对编码器层的输出进行线性映射和或/非线性映射,输出所述编码器中每一个编码器层对应的高水平特征x=(x1,

,xn)以及对应所述高水平特征位置的标签序列y=(y1,

,y
t2
),所述n表示所述编码器的编码器层数;
21.基于所述解码器层的所述可变性滑动窗口模块,将所述编码器输出的高水平特征x=(x1,

,xn)以及标签序列y=(y1,

,y
t2
)作为输入,结合掩码技术进行融合计算解码器层的注意力得分uj;
22.基于所述解码器层的所述多头自注意力模块,采用注意力机制结合多头方案进行并行计算,通过标签序列y=(y1,

,y
t2
)将不同序列全局上下文信息进行标记关联,获得解码器层的注意力矩阵;
23.基于所述解码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分uj,进行注意力机制中上下文交互范围的控制,对解码器层进行局部特征增强,输出解码器层对应的注意力加权;
24.基于所述解码器层的所述前馈网络模块,对解码器层的输出进行线性映射和或/非线性映射,输出语音识别结果y=(y1,

,ym)。
25.在一个可选的实施例中,所述基于所述编码器层的所述可变性滑动窗口模块,对两相同所述音频特征x=(x1,

,x
t1
)进行不同的线性层变换,再通过点积运算获得当前嵌入层的注意力分数,结合掩码技术的掩码矩阵限制令牌的交互范围,获得特征融合到编码器层对应的注意力得分ci,其计算公式为:
[0026][0027]
其中,t1表示音频特征的长度,ci表示编码器层的注意力得分,w为常数且计算每一个注意力得分ci对应的w取值均不同,i表示对应编码器层的层数,t表示矩阵转置,表示缩放因子,mask表示掩码技术用于保留矩阵对角线上w范围内的特征元素。
[0028]
在一个可选的实施例中,所述基于所述解码器层的所述可变性滑动窗口模块,将所述编码器输出的高水平特征x=(x1,

,xn)以及标签序列y=(y1,

,y
t2
)作为输入,结合掩码技术进行融合计算解码器层的注意力得分uj,其计算公式为:
[0029][0030]
其中,uj表示解码器层的注意力得分,,y表示标签序列中的元素,xn表示高水平特征中的元素,t2表示为标签序列的长度,w为常数且计算每一个注意力得分uj对应的w取值均不同,t表示矩阵转置,j表示对应解码器层的层数,表示缩放因子,mask表示掩码技术用于保留矩阵对角线上w范围内的特征元素,t表示矩阵转置。
[0031]
在一个可选的实施例中,所述基于所述编码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分ci,进行注意力机制中上下文交互范围的控制,对编码器层进行局部特征增强,输出编码器层对应的注意力加权,其计算公式为:
[0032][0033]
其中,x
i-1
表示前一编码器层输出的高水平特征x,ci表示当前编码器层的注意力得分,表示缩放因子,t表示矩阵转置,attni()表示注意力机制,softmax()表示层归一化。
[0034]
在一个可选的实施例中,所述基于所述编码器层的所述前馈网络模块,对编码器层的输出进行线性映射和或/非线性映射,输出所述编码器中每一个编码器层对应的高水平特征x=(x1,

,xn),其计算公式为:
[0035]
xn=ffn[lmha(x
n-1
,x
n-1
,x
n-1
,cn)]
[0036]
其中,xn表示当前编码器层输出的高水平特征,x
n-1
表示前一编码器层输出的高水平特征,cn表示输出当前高水平特征对应编码器层的注意力得分,ffn表示前馈网络模块的线性变化函数和或/非线性变化函数,lmha表示局部增强型多头自注意力函数。
[0037]
在一个可选的实施中,所述基于所述解码器层的所述多头自注意力模块,采用注意力机制结合多头方案进行并行计算,通过标签序列y=(y1,

,y
t2
)将不同序列全局上下文信息进行标记关联,获得解码器层的注意力矩阵,其计算公式为:
[0038]
mha(q,k,v)=concat(head1,

,headh)wo[0039]
headi=attn(q,k,v)
[0040][0041]
q=ywq,k=ywk,v=ywv[0042]
其中,标签序列y=(y1,

,y
t2
)通过不同的线性变换分别得到查询向量q、键向量k和值向量v,和值向量v,并且wq为查询向量q的线性变化矩阵,wk为键向量k线性变化矩阵,wv为值向量v的线性变化矩阵,h表示为多头自注意力模块中h个注意力空间,便于捕获
不同空间的注意力特征,t表示矩阵转置,表示缩放因子,mha表示多头自注意力函数。
[0043]
在一个可选的实施中,所述基于所述解码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分uj,进行注意力机制中上下文交互范围的控制,对解码器层进行局部特征增强,输出解码器层对应的注意力加权,其计算公式为:
[0044][0045]
其中,y
j-1
表示前一解码器层输出的语言识别结果y,t表示矩阵转置,表示缩放因子,uj表示当前解码器层对应的注意力得分,xn表示编码器输出的高水平特征x。
[0046]
在一个可选的实施例中,所述基于所述解码器层的所述前馈网络模块,对解码器层的输出进行线性映射和或/非线性映射,输出语音识别结果y=(y1,

,ym),其计算公式为:
[0047]
ym=ffn[lmha(xn,xn,mha,um)]
[0048]
其中,um表示当前解码器层对应的注意力得分,mha表示多头自注意力函数,lmha表示局部增强型多头自注意力函数,ffn表示前馈网络函数,xn表示编码器输出的高水平特征x,m表示对应解码器的总层数,n表示对应编码器的总层数。
[0049]
本发明第二方面公开了一种局部特征增强的语音识别系统,所述系统包括:
[0050]
预处理模块,用于对原始音频进行预处理,获得音频特征x=(x1,

,x
t1
);
[0051]
模型构建模块,用于基于嵌入层提取局部特征的可变性滑动窗口模块,构建语音识别网络模型;
[0052]
识别结果输出模块,用于基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果y=(y1,

,ym)。
[0053]
本发明第三方面公开了一种局部特征增强的语音识别设备,包括:
[0054]
至少一个处理器,以及,
[0055]
与所述至少一个处理器通信连接的存储器;其中,
[0056]
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本发明第一方面公开的任一项所述的局部特征增强的语音识别方法。
[0057]
本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如本发明第一方面公开的任一项所述的局部特征增强的语音识别方法。
[0058]
与现有技术相比,本发明具有以下优点:
[0059]
(1)本发明通过可变性滑动窗口技术与端到端transformer网络相结合,构建局部特征增强的语音识别网络,能够提取局部特征并添加到全局特征中实现局部特征增强和特征融合处理,从而提升模型重点关注对象,改善模型性能。
[0060]
(2)本发明通过结合可变性滑动窗口对嵌入层特征之间的交互进行限制,将嵌入层特征与网络其它层融合计算,提取有效的特征与网络层融合,能够提取局部特征并添加
到全局特征中实现局部特征增强和特征融合处理,提升语音识别模型的性能和精度,提高语音识别结果的准确率。
附图说明
[0061]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0062]
图1为本发明局部特征增强的语音识别方法的流程图;
[0063]
图2为本发明局部特征增强的语音识别系统的示意图。
具体实施方式
[0064]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0065]
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0066]
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0067]
实施例1
[0068]
参见图1,本发明实施方式公开了一种局部特征增强的语音识别方法,包括:
[0069]
s1:对原始音频进行预处理,获得音频特征x=(x1,

,x
t1
);
[0070]
s2:基于嵌入层提取局部特征的可变性滑动窗口模块,构建语音识别网络模型;
[0071]
s3:基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果y=(y1,

,ym)。
[0072]
在一个可选的实施例中,所述对原始音频进行预处理,获得音频特征x=(x1,

,x
t1
)包括:
[0073]
s101:通过前端模块将所述原始音频从时域转换到频域以获得l og me l特征序列;
[0074]
s102:通过数据增强模块对频谱图进行数据增强;
[0075]
s103:通过归一化层使用均值方差对所述特征序列进行归一化处理;
[0076]
s104:将归一化处理后的所述特征序列通过卷积下采样模块进行下采样,对下采
样数据进行位置编码,获得带有位置编码的音频特征x=(x1,

,x
t1
)。
[0077]
在一个可选的实施例中,所述语音识别网络模型包括由n个编码器层组成的编码器以及m个解码器层组成的解码器,所述编码器层包括局部增强型多头自注意力模块、可变性滑动窗口模块以及前馈网络模块,所述解码器层包括局部增强型多头自注意力模块、多头自注意力模块、可变性滑动窗口模块以及前馈网络模块,所述可变性滑动窗口模块通过嵌入层输入为不同的所述编码器层和所述解码器层选择不同的局部增强感受野。
[0078]
在一个可选的实施例中,所述局部增强型多头自注意力模块、多头自注意力模块、可变性滑动窗口模块以及前馈网络模块均包含残差连接和层归一化。
[0079]
在一个可选的实施例中,所述基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果y=(y1,

,ym),其具体包括:
[0080]
基于所述编码器层的所述可变性滑动窗口模块,对两相同所述音频特征x=(x1,

,x
t1
)进行不同的线性层变换,再通过点积运算获得当前嵌入层的注意力分数,结合掩码技术的掩码矩阵限制令牌的交互范围,获得特征融合到编码器层对应的注意力得分ci,i表示为所述编码器层对应的第i层;
[0081]
基于所述编码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分ci,进行注意力机制中上下文交互范围的控制,对编码器层进行局部特征增强,输出编码器层对应的注意力加权;
[0082]
基于所述编码器层的所述前馈网络模块,对编码器层的输出进行线性映射和或/非线性映射,输出所述编码器中每一个编码器层对应的高水平特征x=(x1,

,xn)以及对应所述高水平特征位置的标签序列y=(y1,

,y
t2
),所述n表示所述编码器的编码器层数;
[0083]
基于所述解码器层的所述可变性滑动窗口模块,将所述编码器输出的高水平特征x=(x1,

,xn)以及标签序列y=(y1,

,y
t2
)作为输入,结合掩码技术进行融合计算解码器层的注意力得分uj;
[0084]
基于所述解码器层的所述多头自注意力模块,采用注意力机制结合多头方案进行并行计算,通过标签序列y=(y1,

,y
t2
)将不同序列全局上下文信息进行标记关联,获得解码器层的注意力矩阵;
[0085]
基于所述解码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分uj,进行注意力机制中上下文交互范围的控制,对解码器层进行局部特征增强,输出解码器层对应的注意力加权;
[0086]
基于所述解码器层的所述前馈网络模块,对解码器层的输出进行线性映射和或/非线性映射,输出语音识别结果y=(y1,

,ym)。
[0087]
在一个可选的实施例中,所述基于所述编码器层的所述可变性滑动窗口模块,对两相同所述音频特征x=(x1,

,x
t1
)进行不同的线性层变换,再通过点积运算获得当前嵌入层的注意力分数,结合掩码技术的掩码矩阵限制令牌的交互范围,获得特征融合到编码器层对应的注意力得分ci,其计算公式为:
[0088][0089]
其中,t1表示音频特征的长度,ci表示编码器层的注意力得分,w为常数且计算每
[0104]
其中,标签序列y=(y1,

,y
t2
)通过不同的线性变换分别得到查询向量q、键向量k和值向量v,和值向量v,并且wq为查询向量q的线性变化矩阵,wk为键向量k线性变化矩阵,wv为值向量v的线性变化矩阵,h表示为多头自注意力模块中h个注意力空间,便于捕获不同空间的注意力特征,t表示矩阵转置,表示缩放因子用于降低由于qk
t
点乘计算给softmax(
·
)函数带来的影响,mha表示多头自注意力函数。
[0105]
在一个可选的实施中,所述基于所述解码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分uj,进行注意力机制中上下文交互范围的控制,对解码器层进行局部特征增强,输出解码器层对应的注意力加权,其计算公式为:
[0106][0107]
其中,y
j-1
表示前一解码器层输出的语言识别结果y,t表示矩阵转置,表示缩放因子,uj表示当前解码器层对应的注意力得分,xn表示编码器输出的高水平特征x。
[0108]
在一个可选的实施例中,所述基于所述解码器层的所述前馈网络模块,对解码器层的输出进行线性映射和或/非线性映射,输出语音识别结果y=(y1,

,ym),其计算公式为:
[0109]
ym=ffn[lmha(xn,xn,mha,um)]
[0110]
其中,um表示当前解码器层对应的注意力得分,mha表示多头自注意力函数,lmha表示局部增强型多头自注意力函数,ffn表示前馈网络函数,xn表示编码器输出的高水平特征x,m表示对应解码器的总层数,n表示对应编码器的总层数。
[0111]
本发明通过可变性滑动窗口技术与端到端transformer网络相结合,构建局部特征增强的语音识别网络,能够提取局部特征并添加到全局特征中实现局部特征增强和特征融合处理,从而提升模型重点关注对象,改善模型性能,通过结合可变性滑动窗口对嵌入层特征之间的交互进行限制,将嵌入层特征与网络其它层融合计算,提取有效的特征与网络层融合,能够提取局部特征并添加到全局特征中实现局部特征增强和特征融合处理,提升语音识别模型的性能和精度,提高语音识别结果的准确率。
[0112]
实施例2
[0113]
如图2所示,本发明第二方面公开了一种局部特征增强的语音识别系统,所述系统包括:
[0114]
预处理模块,用于对原始音频进行预处理,获得音频特征x=(x1,

,x
t1
);
[0115]
模型构建模块,用于基于嵌入层提取局部特征的可变性滑动窗口模块,构建语音识别网络模型;
[0116]
识别结果输出模块,用于基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果y=(y1,

,ym)。
[0117]
本发明通过可变性滑动窗口技术与端到端transformer网络相结合,构建局部特
征增强的语音识别网络,能够提取局部特征并添加到全局特征中实现局部特征增强和特征融合处理,从而提升模型重点关注对象,改善模型性能,通过结合可变性滑动窗口对嵌入层特征之间的交互进行限制,将嵌入层特征与网络其它层融合计算,提取有效的特征与网络层融合,能够提取局部特征并添加到全局特征中实现局部特征增强和特征融合处理,提升语音识别模型的性能和精度,提高语音识别结果的准确率。
[0118]
实施例3
[0119]
本发明第三方面公开了一种局部特征增强的语音识别设备,包括:
[0120]
至少一个处理器,以及,
[0121]
与所述至少一个处理器通信连接的存储器;其中,
[0122]
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本发明第一方面公开的任一项所述的局部特征增强的语音识别方法。
[0123]
该计算机设备可以是终端,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现局部特征增强的语音识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0124]
实施例4
[0125]
本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如本发明第一方面公开的任一项所述的局部特征增强的语音识别方法。
[0126]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各通过局部特征增强的语音识别方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0127]
或者,本发明上述模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算
机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、终端、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、ram、rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0128]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种局部特征增强的语音识别方法,其特征在于,所述方法包括:s1:对原始音频进行预处理,获得音频特征x=(x1,

,x
t1
);s2:基于嵌入层提取局部特征的可变性滑动窗口模块,构建语音识别网络模型;s3:基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果y=(y1,

,y
m
)。2.根据权利要求1所述的局部特征增强的语音识别方法,其特征在于,所述对原始音频进行预处理,获得音频特征x=(x1,

,x
t1
)包括:s101:通过前端模块将所述原始音频从时域转换到频域以获得log mel特征序列;s102:通过数据增强模块对频谱图进行数据增强;s103:通过归一化层使用均值方差对所述特征序列进行归一化处理;s104:将归一化处理后的所述特征序列通过卷积下采样模块进行下采样,对下采样数据进行位置编码,获得带有位置编码的音频特征x=(x1,

,x
t1
)。3.根据权利要求1所述的局部特征增强的语音识别方法,其特征在于,所述语音识别网络模型包括由n个编码器层组成的编码器以及m个解码器层组成的解码器,所述编码器层包括局部增强型多头自注意力模块、可变性滑动窗口模块以及前馈网络模块,所述解码器层包括局部增强型多头自注意力模块、多头自注意力模块、可变性滑动窗口模块以及前馈网络模块,所述可变性滑动窗口模块通过嵌入层输入为不同的所述编码器层和所述解码器层选择不同的局部增强感受野。4.根据权利要求3所述的局部特征增强的语音识别方法,其特征在于,所述局部增强型多头自注意力模块、多头自注意力模块、可变性滑动窗口模块以及前馈网络模块均包含残差连接和层归一化。5.根据权利要求4所述的局部特征增强的语音识别方法,其特征在于,所述基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果y=(y1,

,y
m
),其具体包括:基于所述编码器层的所述可变性滑动窗口模块,对两相同所述音频特征x=(x1,

,x
t1
)进行不同的线性层变换,再通过点积运算获得当前嵌入层的注意力分数,结合掩码技术的掩码矩阵限制令牌的交互范围,获得特征融合到编码器层对应的注意力得分c
i
,i表示为所述编码器层对应的第i层;基于所述编码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分c
i
,进行注意力机制中上下文交互范围的控制,对编码器层进行局部特征增强,输出编码器层对应的注意力加权;基于所述编码器层的所述前馈网络模块,对编码器层的输出进行线性映射和或/非线性映射,输出所述编码器中每一个编码器层对应的高水平特征x=(x1,

,x
n
)以及对应所述高水平特征位置的标签序列y=(y1,

,y
t2
),所述n表示所述编码器的编码器层数;基于所述解码器层的所述可变性滑动窗口模块,将所述编码器输出的高水平特征x=(x1,

,x
n
)以及标签序列y=(y1,

,y
t2
)作为输入,结合掩码技术进行融合计算解码器层的注意力得分u
j
;基于所述解码器层的所述多头自注意力模块,采用注意力机制结合多头方案进行并行计算,通过标签序列y=(y1,

,y
t2
)将不同序列全局上下文信息进行标记关联,获得解码器层的注意力矩阵;
基于所述解码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分u
j
,进行注意力机制中上下文交互范围的控制,对解码器层进行局部特征增强,输出解码器层对应的注意力加权;基于所述解码器层的所述前馈网络模块,对解码器层的输出进行线性映射和或/非线性映射,输出语音识别结果y=(y1,

,y
m
)。6.根据权利要求5所述的局部特征增强的语音识别方法,其特征在于,所述基于所述编码器层的所述可变性滑动窗口模块,对两相同所述音频特征x=(x1,

,x
t1
)进行不同的线性层变换,再通过点积运算获得当前嵌入层的注意力分数,结合掩码技术的掩码矩阵限制令牌的交互范围,获得特征融合到编码器层对应的注意力得分c
i
,其计算公式为:其中,t1表示音频特征的长度,c
i
表示编码器层的注意力得分,w为常数且计算每一个注意力得分c
i
对应的w取值均不同,i表示对应编码器层的层数,t表示矩阵转置,表示缩放因子,mask表示掩码技术用于保留矩阵对角线上w范围内的特征元素。7.根据权利要求5所述的局部特征增强的语音识别方法,其特征在于,所述基于所述解码器层的所述可变性滑动窗口模块,将所述编码器输出的高水平特征x=(x1,

,x
n
)以及标签序列y=(y1,

,y
t2
)作为输入,结合掩码技术进行融合计算解码器层的注意力得分u
j
,其计算公式为:其中,u
j
表示解码器层的注意力得分,,y表示标签序列中的元素,x
n
表示高水平特征中的元素,t2表示为标签序列的长度,w为常数且计算每一个注意力得分u
j
对应的w取值均不同,t表示矩阵转置,j表示对应解码器层的层数,表示缩放因子,mask表示掩码技术用于保留矩阵对角线上w范围内的特征元素,t表示矩阵转置。8.根据权利要求5所述的局部特征增强的语音识别方法,其特征在于,所述基于所述编码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分c
i
,进行注意力机制中上下文交互范围的控制,对编码器层进行局部特征增强,输出编码器层对应的注意力加权,其计算公式为:其中,x
i-1
表示前一编码器层输出的高水平特征x,c
i
表示当前编码器层的注意力得分,表示缩放因子,t表示矩阵转置,attn
i
()表示注意力机制,softmax()表示层归一化。9.根据权利要求5所述的局部特征增强的语音识别方法,其特征在于,所述基于所述编码器层的所述前馈网络模块,对编码器层的输出进行线性映射和或/非线性映射,输出所述编码器中每一个编码器层对应的高水平特征x=(x1,

,x
n
),其计算公式为:
x
n
=ffn[lmha(x
n-1
,x
n-1
,x
n-1
,c
n
)]其中,x
n
表示当前编码器层输出的高水平特征,x
n-1
表示前一编码器层输出的高水平特征,c
n
表示输出当前高水平特征对应编码器层的注意力得分,ffn表示前馈网络模块的线性变化函数和或/非线性变化函数,lmha表示局部增强型多头自注意力函数。10.根据权利要求5所述的局部特征增强的语音识别方法,其特征在于,所述基于所述解码器层的所述多头自注意力模块,采用注意力机制结合多头方案进行并行计算,通过标签序列y=(y1,

,y
t2
)将不同序列全局上下文信息进行标记关联,获得解码器层的注意力矩阵,其计算公式为:mha(q,k,v)=concat(head1,

,head
h
)w
o
head
i
=attn(q,k,v)q=yw
q
,k=yw
k
,v=ywv其中,标签序列y=(y1,

,y
t2
)通过不同的线性变换分别得到查询向量q、键向量k和值向量v,向量v,并且w
q
为查询向量q的线性变化矩阵,w
k
为键向量k线性变化矩阵,wv为值向量v的线性变化矩阵,h表示为多头自注意力模块中h个注意力空间,便于捕获不同空间的注意力特征,t表示矩阵转置,表示缩放因子,mha表示多头自注意力函数。11.根据权利要求5所述的局部特征增强的语音识别方法,其特征在于,所述基于所述解码器层的所述局部增强型多头自注意力模块,结合所述可变性滑动窗口以及所述掩码技术输出的注意力得分u
j
,进行注意力机制中上下文交互范围的控制,对解码器层进行局部特征增强,输出解码器层对应的注意力加权,其计算公式为:其中,y
j-1
表示前一解码器层输出的语言识别结果y,t表示矩阵转置,表示缩放因子,u
j
表示当前解码器层对应的注意力得分,x
n
表示编码器输出的高水平特征x。12.根据权利要求5所述的局部特征增强的语音识别方法,其特征在于,所述基于所述解码器层的所述前馈网络模块,对解码器层的输出进行线性映射和或/非线性映射,输出语音识别结果y=(y1,

,y
m
),其计算公式为:y
m
=ffn[lmha(x
n
,x
n
,mha,u
m
)]其中,u
m
表示当前解码器层对应的注意力得分,mha表示多头自注意力函数,lmha表示局部增强型多头自注意力函数,ffn表示前馈网络函数,x
n
表示编码器输出的高水平特征x,m表示对应解码器的总层数,n表示对应编码器的总层数。13.一种局部特征增强的语音识别系统,其特征在于,所述系统包括:预处理模块,用于对原始音频进行预处理,获得音频特征x=(x1,

,x
t1
);
模型构建模块,用于基于嵌入层提取局部特征的可变性滑动窗口模块,构建语音识别网络模型;识别结果输出模块,用于基于语音识别网络模型对音频特征进行识别处理,得到语音识别结果y=(y1,

,y
m
)。14.一种局部特征增强的语音识别设备,其特征在于,包括:至少一个处理器,以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至12任一项所述的局部特征增强的语音识别方法。15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-12任一项所述的局部特征增强的语音识别方法。

技术总结
本发明提出了一种局部特征增强的语音识别方法、系统、设备及介质,方法包括:对原始音频进行预处理,获得音频特征x=(x1,


技术研发人员:黄海亮 魏光勇 段志奎 白剑 梁瑛玮 张海林 鲁和平 李长杰 陈焕然 李乐 王浩 洪行健 冷冬 丁一
受保护的技术使用者:易方信息科技股份有限公司
技术研发日:2023.07.31
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐