降低语音误识别的方法、装置、设备和介质与流程
未命名
10-28
阅读:99
评论:0
1.本发明涉及语音识别技术领域,特别涉及一种降低语音误识别的方法、装置、设备和介质。
背景技术:
2.命令词识别属于语音识别,广泛应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等。随着深度学习技术的发展,命令词的正识别率有显著提升,已基本满足用户需求。但仍存在较多的误识别情形,即用户没有特意呼喊命令词,而设备却误识别到命令词并做出响应;或者,由于部分命令词词语较短、偏向口语化,而被误识别。因此,如何降低对命令词的误识别是目前需要解决的问题。
技术实现要素:
3.本发明提供一种降低语音误识别的方法、装置、设备和介质,旨在降低对命令词的误识别。
4.为了实现上述发明目的,本发明第一方面提出一种降低语音误识别的方法,所述方法包括:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。
5.进一步地,所述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列之前,还包括:获取用于语音训练的待处理样本,所述待处理样本为多个独立的命令词;采用pypinyin工具将所述命令词进行音素转换,得到对应的音素序列。
6.进一步地,所述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列,包括:在所述音素序列的开头插入第一位置信息、在所述音素序列的结尾插入第二位置信息,以及在所述音素序列中的声母和韵母之间插入第三位置信息,得到第一音素序列。
7.进一步地,所述对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列,包括:在所述第一音素序列中,于所述第一位置信息上增加前缀b的位置标记,于所述第二位置信息上增加后缀e的位置标记,以及于所述第三位置信息上插入字符i的位置标记,得到第二音素序列。
8.进一步地,所述按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列,包括:
按照随机概率在所述第二音素序列的开头增加标识sil;和/或,按照随机概率在所述第二音素序列的结尾增加标识sil,得到目标音素序列。
9.进一步地,所述使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型,包括:将所述目标音素序列输入待训练语音识别模型;在所述待训练语音识别模型中,对存在以前缀b开头、以后缀e结尾,以及存在标识sil的所述目标音素序列进行识别,直至所述待训练语音识别模型收敛,得到语音识别模型。
10.进一步地,所述待训练语音识别模型的结构为conformer的结构;或者,所述待训练语音识别模型的结构为dfsmn的结构;所述待训练语音识别模型的目标函数为ctc的语音识别目标函数。
11.本技术还提供一种降低语音误识别的装置,所述装置包括:引入模块,用于根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;第一标记模块,用于对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;第二标记模块,用于按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;训练模块,用于使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。
12.本技术还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的降低语音误识别的方法的步骤。
13.本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的降低语音误识别的方法的步骤。
14.有益效果:在本技术中,根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列,使得目标音素序列与普通的音素序列存在区别,进而使得用户通过命令词进行语音控制时,其前后没有其它发音的特征与误识别情况进行区分,并且,模型的训练过程仅使用简短的命令词进行识别训练,而无需改变网络结构和框架,也不需要复杂的后处理,该实现方式简单有效,显著提高了对命令词的识别准确度,有效解决对命令词的误识别的问题。
附图说明
15.图1为本技术降低语音误识别的方法的一实施例流程示意图;图2为本技术降低语音误识别的方法的另一实施例流程示意图;图3为本技术降低语音误识别的方法的另一实施例流程示意图;图4为本技术降低语音误识别的方法的另一实施例流程示意图;图5为本技术降低语音误识别的装置的一实施例结构示意图;
图6为本技术计算机设备的一实施例结构示意框图。
16.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
17.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
18.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。
19.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
20.参照图1,本发明实施例提供一种降低语音误识别的方法,包括以下步骤s1-s4:s1:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列。
21.以智能终端为执行主体,该执行主体中配置有对应的软件程序,该软件程序可以是安装于智能终端上的应用软件或植入于智能终端的智能系统中的程序,软件程序应用于需要进行语音识别的环境中。在进行语音识别训练之前,还需对用于模型训练的训练样本进行处理,使得训练样本符合模型的训练要求,其中,训练样本为多个独立命令词的音素序列,训练样本的处理过程包括位置插入、位置标记以及增加识别标识;对于在训练样本中进行位置插入包括:在音素序列的开头插入第一位置信息、在该音素序列的结尾插入第二位置信息,以及,在音素序列中的声母和韵母之间插入第三位置信息,进而得到第一音素序列;在音素序列中插入位置信息,为后续根据该位置信息插入位置标记提供有效依据。
22.s2:对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列。
23.在音素序列中引入位置信息,得到第一音素序列之后,则根据该位置信息对第一音素序列进行位置标记,即第一音素序列中存在第一位置信息、第二位置信息以及第三位置信息,在其位置信息上增加对应的位置标记,进而得到带有位置标记的第二音素序列,具体的,在第一音素序列中,于第一位置信息上增加前缀b的位置标记,于第二位置信息上增加后缀e的位置标记,以及于第三位置信息上插入字符i的位置标记,进而得到第二音素序列。对音素序列进行位置标记,有利于后续进行语音识别训练时,提高语音识别的准确性。
24.s3:按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列。
25.在对第一音素序列的位置信息进行位置标记,得到第二音素序列之后,还按照随机概率在第二音素序列中增加识别标识,以获取到目标音素序列,按照随机概率在第二音
素序列的开头增加标识sil;和/或,按照随机概率在第二音素序列的结尾增加标识sil;其中,随机概率为根据实际识别需要进行设置;标识sil用于区分是否为命令词,相当于唤醒词,增加标识sil有利于提高模型对命令词的识别准确度。
26.s4:使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。
27.在按照随机概率在第二音素序列中增加识别标识,得到目标音素序列之后,即可使用目标音素序列训练待训练语音识别模型,进而得到语音识别模型,具体的,将目标音素序列输入至待训练语音识别模型中,在该待训练语音识别模型中,对存在以前缀b开头、以后缀e结尾,以及存在标识sil的目标音素序列进行识别,直至该待训练语音识别模型收敛,进而得到语音识别模型;该语音识别模型以用户通过命令词进行语音控制时,其前后没有其它发音的特征与误识别情况进行区分,仅使用简短的命令词进行识别训练,而无需改变网络结构和框架,也不需要复杂的后处理,该实现方式简单有效,显著提高了对命令词的识别准确度,有效解决对命令词的误识别的问题。该语音识别模型可应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等智能家居的命令词识别,辅助用户对智能家居进行语音控制。
28.本实施例提供了一种降低语音误识别的方法,根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列,使得目标音素序列与普通的音素序列存在区别,进而使得用户通过命令词进行语音控制时,其前后没有其它发音的特征与误识别情况进行区分,并且,模型的训练过程仅使用简短的命令词进行识别训练,而无需改变网络结构和框架,也不需要复杂的后处理,该实现方式简单有效,显著提高了对命令词的识别准确度,有效解决对命令词的误识别的问题。
29.参照图2,在一个实施例中,上述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列之前,还包括:s11:获取用于语音训练的待处理样本,所述待处理样本为多个独立的命令词;s12:采用pypinyin工具将所述命令词进行音素转换,得到对应的音素序列。
30.如上所述,用于模型训练的训练样本为命令词的音素序列,其中,该音素序列通过pypinyin工具将命令词文本进行音素转换而得到,具体的,获取用于语音训练的待处理样本,该待处理样本为多个独立的命令词,该命令词包括应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等智能家居语音控制的命令词,该命令词通过pypinyin工具转化为即可得到对应的音素序列,其中,pypinyin工具指的是一个python库,具备将汉字转换为拼音的功能,能执行中文文本处理、拼音转换、拼音排序等操作,它提供了简单易用的接口,可以方便地将中文字符串转换为拼音字符串。将命令词转换为音素序列,为后续在音素序列中插入位置信息、进行位置标记以及增加识别标识提供有效依据。
31.在一个实施例中,上述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列,包括:在音素序列的开头插入第一位置信息、在所述音素序列的结尾插入第二位置信息,以及在所述音素序列中的声母和韵母之间插入第三位置信息,得到第一音素序列。
32.如上所述,根据声母属性和韵母属性在音素序列中引入位置信息,即音素序列为
声母+韵母的组合形式,在该音素序列的开头插入第一位置信息、在该音素序列的结尾插入第二位置信息,以及在该音素序列中的声母和韵母之间插入第三位置信息,即可得到第一音素序列。在一个实施例中,命令词为“开灯”,其对应的音素序列为kai deng,由于命令词中的声母只能在开头或中间,而韵母只能在中间或结束,因此,在该音素序列中,其插入位置信息之后的表达形式为:_k_ai_d_eng_;即第一位置信息 k 第三位置信息 ai 第三位置信息 d 第三位置信息 eng第二位置信息;在插入位置信息之后,得到的第一音素序列会变为之前的2倍,但中文不带音调的音素只有65个,其音素本身个数较少,在变成之前的2倍之后,也仅为130个,基于此,即使引入位置信息也不会增加其计算量,即引入额外的计算较少,增加的计算耗时可控。
33.在一个实施例中,上述对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列,包括:在所述第一音素序列中,于所述第一位置信息上增加前缀b的位置标记,于所述第二位置信息上增加后缀e的位置标记,以及于所述第三位置信息上插入字符i的位置标记,得到第二音素序列。
34.如上所述,根据第一音素序列中的位置信息进行位置标记,即可得到第二音素序列,具体的,在第一音素序列中,于第一位置信息上增加前缀b的位置标记,于第二位置信息上增加后缀e的位置标记,以及于第三位置信息上插入字符i的位置标记,其中,在音素序列中引入的位置信息为 b i e 即 begin、internal、end;即可得到带有位置标记的第二音素序列。在一个实施例中,以命令词“开灯”为例,其第一音素序列为:_k_ai_d_eng_,根据其不同的位置信息增加不同的标记,即第二音素序列的表达式为:k_b、ai_i、d_i、eng_e;增加的位置标记是为了后续进行语音识别训练时,模型可根据位置标记中的b、i、e对音素序列进行准确识别。
35.参照图3,在一个实施例中,上述按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列,包括:s31:按照随机概率在所述第二音素序列的开头增加标识sil;和/或,s32:按照随机概率在所述第二音素序列的结尾增加标识sil,得到目标音素序列。
36.如上所述,按照随机概率在第二音素序列中增加识别标识,即可得到目标音素序列;识别标识指的是标识sil,即silence(沉默)的缩写;该识别标识用于区分是否为命令词,相当于唤醒词;在一个实施例中,一段音频语音说的是播放音乐,那么对应的标注也是播放音乐,但是命令词其前后一般是没有连贯的上下文,故加入一个特殊符号,可使得命令词与非命令词的音频语音存在区别,即sil+播放音乐,使得其跟一段话中的播放音乐做区别,进而提升语音识别的准确性;按照随机概率在第二音素序列中增加识别标识时,并非是在每一个第二音素序列中均增加识别标识,而是以随机概率在第二音素序列的开头增加标识sil;和/或,以随机概率在第二音素序列的结尾增加标识sil,得到的目标音素序列的形式包括:音素序列中无识别标识、音素序列的开头存在识别标识、音素序列的结尾存在识别标识、音素序列的开头、结尾均存在识别标识,该目标音素序列包括多种标识形式,使得其区别于单一的标识形式,丰富了训练样本。
37.参照图4,在一个实施例中,上述使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型,包括:
s41:将所述目标音素序列输入待训练语音识别模型;s42:在所述待训练语音识别模型中,对存在以前缀b开头、以后缀e结尾,以及存在标识sil的所述目标音素序列进行识别,直至所述待训练语音识别模型收敛,得到语音识别模型。
38.如上所述,使用目标音素序列训练待训练语音识别模型,进而得到语音识别模型,具体的,将目标音素序列输入待训练语音识别模型,在待训练语音识别模型中,对存在以前缀b开头、以后缀e结尾,以及存在标识sil的目标音素序列进行识别,直至该待训练语音识别模型收敛,进而即可得到语音识别模型。在一个实施例中,模型在识别训练时,若存在训练样本1:sil_k_b、ai_i、d_i、eng_e_sil;训练样本2:sil_g_b、uan_i、d_i、eng_e;训练样本3:g_b、uan_i、b_i、i_e_sil;训练样本4:k_b、ai_i、q_i、i_e;在上述训练样本中,只有满足命令词以b开始、以e结束,且前后存在标识sil的命令词才被识别,即仅训练样本1会被识别,而其他训练样本则不会被识别,以此方式与误识别进行区分,进而提高模型对命令词的准确识别;在经过多轮得迭代训练之后,该待训练语音识别模型收敛,得到的语音识别模型则具备对命令词进行准确识别的性能,该语音识别模型可应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等智能家居的命令词识别,辅助用户对智能家居进行语音控制。
39.在一个实施例中,上述待训练语音识别模型的结构为conformer的结构;或者,所述待训练语音识别模型的结构为dfsmn的结构;所述待训练语音识别模型的目标函数为ctc的语音识别目标函数。
40.如上所述,待训练语音识别模型的结构可采用conformer +ctc或者dfsmn +ctc等方式,即待训练语音识别模型的目标函数为ctc的语音识别目标函数,其结构为conformer的结构或dfsmn的结构,其中,ctc(connectionist temporal classification)是一种用于序列标注任务的损失函数和解码算法,ctc通过考虑输入和输出之间的对齐问题,能够有效地训练和解码序列标注模型,被广泛应用于语音识别和其他序列标注任务中;conformer是一种语音识别网络结构,conformer通过层叠多个conformer模块来建模输入序列,每个conformer模块由两个子模块组成:一个卷积子模块和一个自注意力子模块,卷积子模块通过多层卷积神经网络对输入进行特征提取和降维,而自注意力子模块则利用自注意力机制对序列中的上下文信息进行建模,能够有效地处理语音和自然语言处理任务,具有长程依赖性建模、多尺度特征融合以及基于位置编码的序列信息的特点;dfsmn(dfsmn,deep feedforward sequential memory networks)是一种语音识别网络结构,dfsmn通过引入门控机制和分层结构来改进序列建模能力,它由多个层级组成,每个层级都由一组记忆单元和门控单元组成,记忆单元用于存储历史信息,门控单元用于控制信息的流动,进而解决传统循环神经网络梯度消失和计算效率低下的问题。
41.参照图5,是本发明实施例还提供一种降低语音误识别的装置,包括:引入模块10,用于根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;第一标记模块20,用于对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;第二标记模块30,用于按照随机概率在所述第二音素序列中增加识别标识,得到
目标音素序列;训练模块40,用于使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。
42.如上所述,降低语音误识别的装置能够实现降低语音误识别的方法。
43.在一个实施例中,上述引入模块10还包括:获取单元,用于获取用于语音训练的待处理样本,所述待处理样本为多个独立的命令词;转换单元,用于采用pypinyin工具将所述命令词进行音素转换,得到对应的音素序列。
44.在一个实施例中,上述引入模块10还包括:引入单元,用于在所述音素序列的开头插入第一位置信息、在所述音素序列的结尾插入第二位置信息,以及在所述音素序列中的声母和韵母之间插入第三位置信息,得到第一音素序列。
45.在一个实施例中,上述第一标记模块20还包括:第一标记单元,用于在所述第一音素序列中,于所述第一位置信息上增加前缀b的位置标记,于所述第二位置信息上增加后缀e的位置标记,以及于所述第三位置信息上插入字符i的位置标记,得到第二音素序列。
46.在一个实施例中,上述第二标记模块30还包括:第二标记单元,用于按照随机概率在所述第二音素序列的开头增加标识sil;和/或,第三标记单元,用于按照随机概率在所述第二音素序列的结尾增加标识sil,得到目标音素序列。
47.在一个实施例中,上述训练模块40还包括;输入单元,用于将所述目标音素序列输入待训练语音识别模型;训练单元,用于在所述待训练语音识别模型中,对存在以前缀b开头、以后缀e结尾,以及存在标识sil的所述目标音素序列进行识别,直至所述待训练语音识别模型收敛,得到语音识别模型。
48.在一个实施例中,上述训练模块40还包括;待训练语音识别模型的结构为conformer的结构;或者,所述待训练语音识别模型的结构为dfsmn的结构;所述待训练语音识别模型的目标函数为ctc的语音识别目标函数。
49.参照图6,本发明实施例还提供一种计算机设备,该计算机设备的内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储降低语音误识别的方法的相关数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。进一步地,上述计算机设备还可以设置有输入装置和显示屏等。上述计算机程序被处理器执行时以实现降低语音误识别的方法,包括如下步骤:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对所述第一音素
序列的所述位置信息进行位置标记,得到第二音素序列;按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所拍摄于其上的计算机设备的限定。
50.本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现降低语音误识别的方法,包括如下步骤:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
51.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram通过多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
52.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
53.以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种降低语音误识别的方法,其特征在于,所述方法包括:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。2.根据权利要求1所述的降低语音误识别的方法,其特征在于,所述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列之前,还包括:获取用于语音训练的待处理样本,所述待处理样本为多个独立的命令词;采用pypinyin工具将所述命令词进行音素转换,得到对应的音素序列。3.根据权利要求1所述的降低语音误识别的方法,其特征在于,所述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列,包括:在所述音素序列的开头插入第一位置信息、在所述音素序列的结尾插入第二位置信息,以及在所述音素序列中的声母和韵母之间插入第三位置信息,得到第一音素序列。4.根据权利要求3所述的降低语音误识别的方法,其特征在于,所述对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列,包括:在所述第一音素序列中,于所述第一位置信息上增加前缀b的位置标记,于所述第二位置信息上增加后缀e的位置标记,以及于所述第三位置信息上插入字符i的位置标记,得到第二音素序列。5.根据权利要求1所述的降低语音误识别的方法,其特征在于,所述按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列,包括:按照随机概率在所述第二音素序列的开头增加标识sil;和/或,按照随机概率在所述第二音素序列的结尾增加标识sil,得到目标音素序列。6.根据权利要求1所述的降低语音误识别的方法,其特征在于,所述使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型,包括:将所述目标音素序列输入待训练语音识别模型;在所述待训练语音识别模型中,对存在以前缀b开头、以后缀e结尾,以及存在标识sil的所述目标音素序列进行识别,直至所述待训练语音识别模型收敛,得到语音识别模型。7.根据权利要求6所述的降低语音误识别的方法,其特征在于,所述待训练语音识别模型的结构为conformer的结构;或者,所述待训练语音识别模型的结构为dfsmn的结构;所述待训练语音识别模型的目标函数为ctc的语音识别目标函数。8.一种降低语音误识别的装置,其特征在于,所述装置包括:引入模块,用于根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;第一标记模块,用于对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;第二标记模块,用于按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;训练模块,用于使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在
于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的降低语音误识别的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的降低语音误识别的方法的步骤。
技术总结
本发明属于语音识别技术领域,特别是涉及一种降低语音误识别的方法、装置、设备和介质,其中,方法包括:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对第一音素序列的位置信息进行位置标记,得到第二音素序列;按照随机概率在第二音素序列中增加识别标识,得到目标音素序列;使用目标音素序列训练待训练语音识别模型,得到语音识别模型。本发明以用户通过命令词进行语音控制时,其前后没有其它发音的特征与误识别情况进行区分,仅使用简短的命令词进行识别训练,而无需改变网络结构和框架,也不需要复杂的后处理,该实现方式简单有效,显著提高了对命令词的识别准确度,有效解决对命令词的误识别的问题。题。题。
技术研发人员:李杰
受保护的技术使用者:深圳市友杰智新科技有限公司
技术研发日:2023.09.06
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:单光子探测器及其方法与流程 下一篇:超薄反射镜的面形控制方法