唤醒语音的生成方法、生成装置和电子设备与流程

未命名 10-08 阅读:95 评论:0


1.本技术涉及数据处理技术领域,具体而言,涉及一种唤醒语音的生成方法、生成装置和电子设备。


背景技术:

2.相关技术中,电子设备和用户进行语音交互的过程中,通过唤醒语音实现电子设备的唤醒,通常,需要首先训练唤醒语音模型,以提高对唤醒语音的识别效果。然后将唤醒语音模型部署到电子设备中,以实现电子设备的语音唤醒功能。而在唤醒语音模型的训练过程中,需要收集大量的多样性的唤醒语音,以保证训练后的唤醒语音模型能够识别不同用户所发出的唤醒语音,进而在模型部署到电子设备后,能够保证电子设备在语音交互过程中的灵活响应。因此,如何提高唤醒语音的多样性,成为了亟待解决的技术问题。


技术实现要素:

3.本技术旨在至少解决现有技术或相关技术中存在的技术问题之一。
4.为此,本技术的第一方面提出了一种唤醒语音的生成方法。
5.本技术的第二方面提出了一种唤醒语音的生成装置。
6.本技术的第三方面提出了一种唤醒语音的生成装置。
7.本技术的第四方面提出了一种电子设备。
8.本技术的第五方面提出了一种可读存储介质。
9.本技术的第六方面提出了一种计算机程序产品。
10.有鉴于此,本技术的第一方面,提出了一种唤醒语音的生成方法,包括:获取唤醒词文本和参考语音;将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;根据第一预设算法,对目标语音进行特征增强,生成唤醒语音。
11.本技术提供的唤醒语音的生成方法,能够生成多样性的唤醒语音,可以用于唤醒电子设备进而可以通过生成的多样性的唤醒语音,对唤醒语音模型进行训练,以保证训练后的唤醒语音模型能够准确识别不同用户所发出的唤醒语音,进而在唤醒语音模型部署到电子设备中之后,能够保证电子设备在语音交互过程中的灵活响应。具体的,在用户通过语音的方式与电子设备进行交互的过程中,用户首先说出一段语音,电子设备在接收到该语音后,对语音进行识别,在确认了所接收到的语音为能够唤醒该电子设备的唤醒语音的情况下,电子设备即可进入与用户交互的过程,进一步根据用户所发出的其他语音进行运行。
12.可以理解的是,由于不同用户的音色韵律均存在一定的差异,因此要求电子设备能够准确地识别出用户所发出的语音是否为唤醒语音,则需要部署到电子设备上的唤醒语音模型在训练的过程中收集大量的不同音色音律的唤醒语音样本,也就是尽量提高模型训练过程中收集到的唤醒语音样本的多样性,这样,所得到的唤醒语音模型在接收到不同用户发出的不同音色音律的语音的情况下,能够准确识别出语音是否与唤醒语音对应,进而保证电子设备的在与用户交互过程中的灵活响应。
13.进一步的,本技术提供的唤醒语音的生成方法,能够生成大量的不同音色音律的唤醒语音,以供唤醒语音模型在训练过程中收集。同时保证唤醒语音的多样性和生成效率。
14.具体的,首先,获取唤醒词文本和参考语音。其中,唤醒词文本即为唤醒语音所对应的文本数据。参考语音可以是任何一段语音,也就是参考语音无需与唤醒词文本相对应,因此,参考语音的获取方式相对简单,无需针对特定唤醒词录制大量音频,只需在已有的数据库中获取任意的语音信息作为参考语音即可,有效地降低了参考语音的获取成本。这样,由于已有的数据库中存放有大量的不同人发出的不同语音信息,相较于针对唤醒词寻找工作人员进行唤醒语音的录制,还能够同时解决参考语音的多样性的问题,进而提高了生成的唤醒语音的多样性。
15.进一步的,在获取到唤醒词文本和参考语音后,即可将唤醒词文本和参考语音输入目标模型中进行合成,从而生成与唤醒词文本对应的目标语音。可以理解的是,通过将唤醒词文本与大量的参考语音输入至目标模型,可以使得目标模型输出的目标语音能够以大量的不同的音色音律来表达唤醒词文本的内容,从而有效地提高了目标语音的多样性。
16.需要说明的是,目标模型输出的目标语音能够以大量的不同的音色音律来表达唤醒词文本的内容,因此,该目标语音也可以作为唤醒语音供唤醒语音模型在训练过程中进行收集,相较于寻找工作人员对唤醒词进行录制,能够有效地提高唤醒语音的多样性,保证电子设备的灵活响应。
17.进一步的,在通过目标模型生成与唤醒词文本相对应的目标语音之后,还可以根据第一预设算法,对目标语音进行特征增强,特征增强后的目标语音即为所需要的唤醒语音。通过对目标语音进行特征增强,可以进一步对目标语音进行多样化处理,也即进一步提高所生成的唤醒语音多样性。例如,可以对目标语音进行声道特性增强,也就是调整目标语音的声道特性,或者对目标语音的速度特征进行增强,或者对目标语音的频域掩蔽特性进行增强,或者对目标语音的噪声特征进行增强。
18.本技术提供的唤醒语音的生成方法,首先将唤醒词文本与参考语音输入至目标模型中进行语音合成,以生成与唤醒词文本对应的目标语音,进一步通过第一预设算法对目标语音进行增强,最终生成所需要的唤醒语音。由于参考语音无需与唤醒词文本的内容相对应,因此可以从已有的数据库中获取参考语音即可,无需录制过程,一方面,可以减少唤醒语音生成的成本,另一方面,可以保证获取到的参考语音的多样性,进而有效提高生成的唤醒语音的多样性。进一步的,通过对目标语音进行特征增强,可以进一步对目标语音进行多样化处理,也即进一步提高所生成的唤醒语音多样性。进而保证电子设备的灵活响应。
19.根据本技术的第二方面,提出了一种唤醒语音的生成装置,包括:获取单元,用于获取唤醒词文本和参考语音;生成单元,用于将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;以及根据第一预设算法,对目标语音进行特征增强,生成唤醒语音。
20.根据本技术的第三方面,提出了一种唤醒语音的生成装置,包括:处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如下步骤:获取唤醒词文本和参考语音;将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;根据第一预设算法,对目标语音进行特征增强,生成唤醒语音。
21.根据本技术的第四方面,提出了一种电子设备,包括上述技术方案中任一项的唤
醒语音的生成装置。
22.根据本技术的第五方面,提出了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现如下步骤:获取唤醒词文本和参考语音;将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;根据第一预设算法,对目标语音进行特征增强,生成唤醒语音。
23.根据本技术的第六方面,提出了一种计算机程序产品,包括计算机程序或指令,计算机程序或指令被处理器执行时实现如下步骤:获取唤醒词文本和参考语音;将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;根据第一预设算法,对目标语音进行特征增强,生成唤醒语音。
24.本技术的附加方面和优点将在下面的描述部分中变得明显,或通过本技术的实践了解到。
附图说明
25.本技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
26.图1示出了本技术一个实施例提供的唤醒语音的生成方法的流程示意图;
27.图2示出了本技术又一个实施例提供的唤醒语音的生成方法的流程示意图;
28.图3示出了本技术又一个实施例提供的唤醒语音的生成方法的流程示意图;
29.图4示出了本技术又一个实施例提供的唤醒语音的生成方法的流程示意图;
30.图5示出了本技术一个实施例提供的唤醒语音的生成方法中预设模型训练的流程框图;
31.图6示出了本技术一个实施例提供中目标语音的生成方式的流程框图;
32.图7示出了本技术一个实施例提供的唤醒语音的生成方法中目标语音特征增强的流程框图。
具体实施方式
33.为了能够更清楚地理解本技术的上述目的、特征和优点,下面结合附图和具体实施方式对本技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
34.在下面的描述中阐述了很多具体细节以便于充分理解本技术,但是,本技术还可以采用其他不同于在此描述的其他方式来实施,因此,本技术的保护范围并不限于下面公开的具体实施例的限制。
35.下面参照图1至图7描述根据本技术一些实施例的提供的唤醒语音的生成方法、唤醒语音的生成装置、可读存储介质、电子设备和计算机程序产品。
36.如图1所示,根据本技术的一个实施例,提出了一种唤醒语音的生成方法,包括:
37.步骤s102,获取唤醒词文本和参考语音;
38.步骤s104,将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;
39.步骤s106,根据第一预设算法,对目标语音进行特征增强,生成唤醒语音。
40.本技术提供的唤醒语音的生成方法,能够生成多样性的唤醒语音,可以用于唤醒电子设备进而可以通过生成的多样性的唤醒语音,对唤醒语音模型进行训练,以保证训练后的唤醒语音模型能够准确识别不同用户所发出的唤醒语音,进而在唤醒语音模型部署到电子设备中之后,能够保证电子设备在语音交互过程中的灵活响应。具体的,在用户通过语音的方式与电子设备进行交互的过程中,用户首先说出一段语音,电子设备在接收到该语音后,对语音进行识别,在确认了所接收到的语音为能够唤醒该电子设备的唤醒语音的情况下,电子设备即可进入与用户交互的过程,进一步根据用户所发出的其他语音进行运行。
41.可以理解的是,由于不同用户的音色韵律均存在一定的差异,因此要求电子设备能够准确地识别出用户所发出的语音是否为唤醒语音,则需要部署到电子设备上的唤醒语音模型在训练的过程中收集大量的不同音色音律的唤醒语音样本,也就是尽量提高模型训练过程中收集到的唤醒语音样本的多样性,这样,所得到的唤醒语音模型在接收到不同用户发出的不同音色音律的语音的情况下,能够准确识别出语音是否与唤醒语音对应,进而保证电子设备的在与用户交互过程中的灵活响应。
42.进一步的,本技术提供的唤醒语音的生成方法,能够生成大量的不同音色音律的唤醒语音,以供唤醒语音模型在训练过程中收集。同时保证唤醒语音的多样性和生成效率。
43.具体的,首先,获取唤醒词文本和参考语音。其中,唤醒词文本即为唤醒语音所对应的文本数据。参考语音可以是任何一段语音,也就是参考语音无需与唤醒词文本相对应,因此,参考语音的获取方式相对简单,无需针对特定唤醒词录制大量音频,只需在已有的数据库中获取任意的语音信息作为参考语音即可,有效地降低了参考语音的获取成本。这样,由于已有的数据库中存放有大量的不同人发出的不同语音信息,相较于针对唤醒词寻找工作人员进行唤醒语音的录制,还能够同时解决参考语音的多样性的问题,进而提高了生成的唤醒语音的多样性。
44.进一步的,在获取到唤醒词文本和参考语音后,即可将唤醒词文本和参考语音输入目标模型中进行合成,从而生成与唤醒词文本对应的目标语音。可以理解的是,通过将唤醒词文本与大量的参考语音输入至目标模型,可以使得目标模型输出的目标语音能够以大量的不同的音色音律来表达唤醒词文本的内容,从而有效地提高了目标语音的多样性。
45.需要说明的是,目标模型输出的目标语音能够以大量的不同的音色音律来表达唤醒词文本的内容,因此,该目标语音也可以作为唤醒语音供电子设备收集,相较于寻找工作人员对唤醒词进行录制,能够有效地提高唤醒语音的多样性,保证电子设备的灵活响应。
46.进一步的,在通过目标模型生成与唤醒词文本相对应的目标语音之后,还可以根据第一预设算法,对目标语音进行特征增强,特征增强后的目标语音即为所需要的唤醒语音。通过对目标语音进行特征增强,可以进一步对目标语音进行多样化处理,也即进一步提高所生成的唤醒语音多样性。例如,如图7所示,可以对目标语音进行声道特性增强,也就是调整目标语音的声道特性,或者对目标语音的速度特征进行增强,或者对目标语音的频域掩蔽特性进行增强,或者对目标语音的噪声特征进行增强。
47.本技术提供的唤醒语音的生成方法,首先将唤醒词文本与参考语音输入至目标模型中进行语音合成,以生成与唤醒词文本对应的目标语音,进一步通过第一预设算法对目标语音进行增强,最终生成所需要的唤醒语音。由于参考语音无需与唤醒词文本的内容相对应,因此可以从已有的数据库中获取参考语音即可,无需录制过程,一方面,可以减少唤
醒语音生成的成本,另一方面,可以保证获取到的参考语音的多样性,进而有效提高生成的唤醒语音的多样性。进一步的,通过对目标语音进行特征增强,可以进一步对目标语音进行多样化处理,也即进一步提高所生成的唤醒语音多样性。进而保证电子设备的灵活响应。
48.根据本技术的一个实施例,如图2所示,提出了一种唤醒语音的生成方法,包括:
49.步骤s202,获取唤醒词文本和参考语音;
50.步骤s204,将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;
51.步骤s206,根据多个第一预设算法,分别对目标语音的不同特征进行特征增强,生成多个特征增强后的目标语音;
52.步骤s208,将特征增强后的多个目标语音进行混合,生成唤醒语音。
53.在该实施例中,如图7所示,第一预设算法的数量可以为多个,并且,多个第一预设算法能够分别对目标语音的不同特征进行特征增强。具体的,第一预设算法可以包括vtlp(vocal tract length perturbation)算法以及specaugment算法等。通过多个第一预设算法,可以实现对目标语音的不同特征进行特征增强,从而进一步提高目标语音的多样性。
54.进一步地,在通过多个第一预设算法生成多个特征增强后的目标语音之后,将多个特征增强后的目标语音进行混合,从而生成一段唤醒语音,该一段唤醒语音具有多个增强后的语音特征,从而进一步提高了唤醒语音的多样性。
55.根据本技术的一个实施例,如图3所示,提出了一种唤醒语音的生成方法,包括:
56.步骤s302,获取文本数据和与文本数据相对应的语音数据;
57.步骤s304,根据文本数据和语音数据对预设模型进行训练,生成目标模型;
58.步骤s306,获取唤醒词文本和参考语音;
59.步骤s308,将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;
60.步骤s310,根据多个第一预设算法,分别对目标语音的不同特征进行特征增强,生成多个特征增强后的目标语音;
61.步骤s312,将特征增强后的多个目标语音进行混合,生成唤醒语音。
62.在该实施例中,在获取唤醒词文本以及参考语音之前,首先需要进行模型训练,以得到目标模型,从而保证目标模型能够准确地将唤醒词文本与参考语音进行融合,也即通过不同的音色音律特征对唤醒词文本进行语音表达。
63.具体的,首先,获取文本数据,文本数据可以是唤醒词文本,也可以是其他文本数据。然后,获取与文本数据相对应的语音数据,也就是该语音数据所表达的内容与文本数据所表达的内容相对应。可以理解的是,文本数据和语音数据相对应,还可以包括文本数据和语音数据是具有对其的时间轴的,这样,可以进一步保证训练过程中输出的语音能够清楚地表达文本数据对应的内容。
64.进一步地,将文本数据和与文本数据对应的语音数据输入至预设模型中,已实现对预设模型进行训练,训练完成之后的预设模型,即为合成语音所需要的目标模型。
65.其中,预设模型可以为端到端(tacotron)语音合成模型,或者目标模型还可以为声学模型(fastspeech)。
66.根据本技术的一个实施例,如图4所示,提出了一种唤醒语音的生成方法,包括:
67.步骤s402,获取文本数据和与文本数据相对应的语音数据;
68.步骤s404,将文本数据和语音数据输入至预设模型,生成语音输出数据;
69.步骤s406,根据语音输出数据和语音数据,确定训练损失值;
70.步骤s408,根据训练损失值,更新预设模型的参数;
71.步骤s410,获取唤醒词文本和参考语音;
72.步骤s412,将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;
73.步骤s414,根据多个第一预设算法,分别对目标语音的不同特征进行特征增强,生成多个特征增强后的目标语音;
74.步骤s416,将特征增强后的多个目标语音进行混合,生成唤醒语音。
75.在该实施例中,针对预设模型的训练,首先,可以将文本数据和与文本数据对应的语音数据输入至预设模型中,以生成语音输出数据。也就是语音重建,将文本数据与语音数据进行融合,进行语音重建。
76.进一步的,根据语音数据和预设模型输出的语音输出数据,进行训练损失值的确定。也就是将语音输出数据与语音数据进行对比,以得到语音数据在模型训练过程中的训练损失值。进一步地,根据该训练损失值,更新预设模型的参数,然后,再次将文本数据和对应的语音数据输入至参数更新后的预设模型中,生成语音输出数据,然后确定训练损失值,根据训练损失值再次更新预设模型的参数。重复上述过程,直至得到的训练损失值小于预设损失值,即可表明训练完成,训练完成后的预设模型即为语音融合所需的目标模型。
77.在一些实施例中,可选地,如图5所示,将文本数据和语音数据输入至预设模型,生成语音输出数据,包括:预设模型的文本编码器对文本数据进行编码,生成文本特征向量;预设模型的语音编码器对语音数据进行编码,生成语音特征向量;预设模型的解码器对文本特征向量和语音特征向量进行解码,生成语音输出数据。
78.具体地,预设模型可以包括文本编码器和语音编码器,在将文本数据和语音数据输入的过程,即为将文本数据输入至预设模型的文本编码器,通过文本编码器对文本数据进行编码,生成文本特征向量。相应地,将语音数据输入至预设模型的语音编码器,从而生成语音特征向量。
79.进一步的,预设模型还包括解码器,在文本特征向量和语音特征向量生成后,即可同时将文本特征向量和语音特征向量输入至预设模型的解码器中进行解码。从而将文本特征向量和语音特征向量融合,并解码成语音输出数据。
80.在一些实施例中,可选地,语音编码器包括话者编码器和韵律编码器,通过预设模型的语音编码器对语音数据进行编码,生成语音特征向量,包括:通过话者编码器对语音数据编码,生成话者特征向量;通过韵律编码器对语音数据编码,生成韵律特征向量;将话者特征向量和韵律特征向量相连接,生成语音特征向量。
81.在该实施例中,预设模型的语音编码器可以包括话者编码器和韵律编码器,其中,在将语音数据输入至话者编码器之后,能够生成语音数据的话者特征向量,话者特征向量用于表示语音数据的话者特征,也就是说话人的特征,根据话者特征向量,在语音融合后,能够得到不同说话人特征的语音输出数据。相应地,在将语音数据输入至韵律编码器后,能够生成语音数据的韵律特征向量,根据韵律特征向量,在语音融合后,能够得到不同韵律特
征的语音输出数据。
82.在对预设模型进行训练的阶段,通过将编码器设置为话者编码器和韵律编码器,使得生成的语音输出数据能够具有语音数据所包括的不同说话人特征和韵律特征,从而进一步提高了生成的语音输出数据的特征多样性,进而在预设模型训练之后,所得到的目标模型所生成的唤醒语音的多样性。
83.进一步地,在生成了话者特征向量和韵律特征向量之后,可以将话者特征向量和韵律特征向量相连接,以生成语音特征向量。
84.在一些实施例中,可选地,预设模型的解码器对文本特征向量和语音特征向量进行解码,生成语音输出数据的步骤之前,包括:预设模型的归一化层对语音特征向量进行归一化。
85.在该实施例中,预设模型还包括归一化层,归一化层连接于编码器和解码器之间,在生成文本特征向量和语音特征向量后,首先将话者特征向量和韵律特征向量连接,生成语音特征向量。然后将语音特征向量输入归一化层进行归一化,从而使得语音特征向量的数据分布更加平稳,保证预设模型训练过程中的稳定性和泛化能力。
86.进一步地,通过预设模型的解码器对文本特征向量和语音特征向量进行解码,生成语音输出数据的步骤之前,生成方法还包括:通过预设模型的调节器对语音特征向量进行调节。
87.具体地,在将文本特征向量和语音特征向量输入至解码器之前,还可以通过预设模型的调节器对语音特征向量进行调节。通过对语音特征向量进行调节,可以进一步提高生成的语音输出数据的多样性,进而在模型训练完成之后,能够进一步提高目标模型所生成的目标语音的多样性。
88.进一步地,通过预设模型的调节器对语音特征向量进行调节的步骤,包括:调节器根据预设公式x=s
×
x+β对参考语音特征进行调节;其中,x为调节后的语音特征向量,x为调节前的语音特征向量,s为语音特征向量的缩放因子,β为语音特征向量的偏移因子,在对预设模型进行训练的阶段,s=1,β=0。
89.具体地,预设模型的调节器通过缩放因子和偏移因子实现对参考语音特征向量进行调节。可以根据预设公式对x=s
×
x+β对参考语音特征进行调节。其中,x为调节后的语音特征向量,x为调节前的语音特征向量,s为语音特征向量的缩放因子,β为语音特征向量的偏移因子。在调节过程中,通过输入缩放因子s的数值,以及输入偏移因子β的数值,实现对语音特征向量进行缩放以及偏移,从而得到更多的不同特征的语音特征向量,进而提高解码后的语音输出数据的多样性。
90.其中,在语音特征向量经过归一化层之后,能够得到语音特征向量的均值和方差。归一化后的语音特征向量可以通过以下公式表示:x=x'-μ/σ。其中,x'为归一化前的语音特征向量,x为归一化后的语音特征向量,也即调节前的语音特征向量。进而,上述预设公式也可以表示为x=s
×
(x'-μ)/σ+β。其中,μ为语音特征向量的均值,σ为语音特征向量的方差。
91.可以理解的是,如图5所示,在对预设模型进行训练的过程中,语音特征向量进入归一化层进行归一化后,进入预设模型的调节器,此时,可以将缩放因子设置为1,偏移因子设置为0。从而保证训练过程中所生成的语音输出数据不会发生偏移,也即保证预设模型训
练的准确性。
92.在一些实施例中,如图6所示,进一步地,将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音,包括:所述目标模型的文本编码器对所述唤醒词文本编码,生成唤醒词文本特征向量;所述目标模型的语音编码器对所述参考语音编码,生成参考语音特征向量;所述目标模型的调节器对所述参考语音特征向量进行调节;所述预设模型的解码器对所述唤醒词文本特征向量和调节后的所述参考语音特征向量解码,生成所述目标语音。
93.在该实施例中,目标模型训练完成之后,即可将唤醒词文本和参考语音输入至目标模型进行语音融合,以得到与唤醒词文本相对应的不同音色音律的目标语音。
94.具体的,与预设模型的训练过程相似,在将唤醒词文本和参考语音输入的过程,即为将唤醒词文本输入至预设模型的文本编码器,通过文本编码器对唤醒词文本进行编码,生成唤醒词文本特征向量。相应地,将参考语音输入至预设模型的语音编码器,从而生成参考语音特征向量。
95.进一步地,在将唤醒词文本特征向量和参考语音特征向量输入至解码器之前,还可以通过目标模型的调节器对参考语音特征向量进行调节。通过对参考语音特征向量进行调节,可以进一步提高参考语音的多样性,进而在生成唤醒语音之后,能够进一步提高唤醒语音的多样性。
96.进一步地,通过目标模型的解码器,对唤醒词文本特征向量和参考语音特征向量进行解码,以得到融合后的目标语音。
97.进一步地,目标模型的调节器对参考语音特征向量进行调节,包括:目标模型的调节器根据预设公式x1=s1×
x1+β1对参考语音特征进行调节;其中,x1为调节后的所述参考语音特征向量,x1为调节前的所述参考语音特征向量,s1为所述参考语音特征向量的缩放因子,β1为所述参考语音特征向量的偏移因子。
98.具体地,目标模型的调节器通过缩放因子和偏移因子实现对参考语音特征向量进行调节。具体地,可以根据预设公式对x1=s1×
x1+β1对参考语音特征进行调节。其中,x1为调节后的参考语音特征向量,x1为调节前的参考语音特征向量,s1为参考语音特征向量的缩放因子,β1为参考语音特征向量的偏移因子。在调节过程中,通过输入缩放因子s1的数值,以及输入偏移因子β1的数值,实现对参考语音特征向量进行缩放以及偏移,从而得到更多的不同特征的参考语音特征向量,进而提高解码后的目标语音的多样性。
99.其中,在参考语音特征向量经过归一化层之后,能够得到参考语音特征向量的均值和方差。归一化后的参考语音特征向量可以通过以下公式表示:x=x'-μ/σ。其中,x'为归一化前的参考语音特征向量,x为归一化后的参考语音特征向量,也即调节前的参考语音特征向量。进而,上述预设公式也可以表示为x=s
×
(x'-μ)/σ+β。其中,μ为参考语音特征向量的均值,σ为参考语音特征向量的方差。
100.进一步地,目标模型的语音编码器对参考语音编码,生成参考语音特征向量,包括:目标模型的话者编码器对参考语音编码,生成话者特征向量;目标模型的韵律编码器对参考语音编码,生成韵律特征向量;将话者特征向量和韵律特征向量相连接,生成参考语音特征向量。
101.具体地,目标模型的语音编码器可以包括话者编码器和韵律编码器,其中,在将参
考语音输入至目标模型的话者编码器之后,能够生成参考语音的话者特征向量,话者特征向量用于表示参考语音的话者特征,也就是说话人的特征,根据话者特征向量,在语音融合后,能够得到不同说话人特征的目标语音。相应地,在将参考语音输入至目标模型的韵律编码器后,能够生成参考语音的韵律特征向量,根据韵律特征向量,在语音融合后,能够得到不同韵律特征的目标语音。
102.通过将目标模型的编码器设置为话者编码器和韵律编码器,使得生成的目标语音能够具有参考语音所包括的不同说话人特征和韵律特征,从而进一步提高了生成的目标语音的特征多样性,进而提高了生成的唤醒语音的多样性。
103.进一步地,在生成了话者特征向量和韵律特征向量之后,可以将话者特征向量和韵律特征向量相连接,以生成参考语音特征向量。
104.根据本技术的第二方面,提出了一种唤醒语音的生成装置,包括:获取单元,用于获取唤醒词文本和参考语音;生成单元,用于将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;以及根据第一预设算法,对目标语音进行特征增强,生成唤醒语音。
105.本技术提供的唤醒语音的生成装置,首先将唤醒词文本与参考语音输入至目标模型中进行语音合成,以生成与唤醒词文本对应的目标语音,进一步通过第一预设算法对目标语音进行增强,最终生成所需要的唤醒语音。由于参考语音无需与唤醒词文本的内容相对应,因此可以从已有的数据库中获取参考语音即可,无需录制过程,一方面,可以减少唤醒语音生成的成本,另一方面,可以保证获取到的参考语音的多样性,进而有效提高生成的唤醒语音的多样性。进一步的,通过对目标语音进行特征增强,可以进一步对目标语音进行多样化处理,也即进一步提高所生成的唤醒语音多样性。进而保证电子设备的灵活响应。
106.进一步地,生成单元具体用于根据多个第一预设算法,分别对目标语音的不同特征进行特征增强,生成多个特征增强后的目标语音;以及根据第二预设算法,将特征增强后的多个目标语音进行混合,生成唤醒语音。
107.进一步地,获取单元还用于在获取唤醒词文本和参考语音的步骤之前,获取文本数据和与文本数据相对应的语音数据。
108.唤醒语音的生成装置还包括训练单元,训练单元用于根据文本数据和语音数据对预设模型进行训练,生成目标模型。
109.进一步地,训练单元具体用于将文本数据和语音数据输入至预设模型,生成语音输出数据;根据语音输出数据和语音数据,确定训练损失值;根据训练损失值,更新预设模型的参数。
110.进一步地,训练单元具体用于通过预设模型的文本编码器对文本数据进行编码,生成文本特征向量;通过预设模型的语音编码器对语音数据进行编码,生成语音特征向量;通过预设模型的解码器对文本特征向量和语音特征向量进行解码,生成语音输出数据。
111.进一步地,语音编码器包括话者编码器和韵律编码器,训练单元具体用于通过话者编码器对语音数据编码,生成话者特征向量;通过韵律编码器对语音数据编码,生成韵律特征向量;将话者特征向量和韵律特征向量相连接,生成语音特征向量。
112.进一步地,预设模型的解码器对文本特征向量和语音特征向量进行解码,生成语音输出数据的步骤之前,训练单元还用于通过预设模型的归一化层对语音特征向量进行归
一化。
113.进一步地,通过预设模型的解码器对文本特征向量和语音特征向量进行解码,生成语音输出数据的步骤之前,训练单元还用于通过预设模型的调节器对语音特征向量进行调节。
114.进一步地,训练单元具体用于通过调节器根据预设公式x=s
×
x+β对参考语音特征进行调节;其中,x为调节后的语音特征向量,x为调节前的语音特征向量,s为语音特征向量的缩放因子,β为语音特征向量的偏移因子,在对预设模型进行训练的阶段,s=1,β=0。
115.进一步地,生成单元具体用于目标模型的文本编码器对唤醒词文本编码,生成唤醒词文本特征向量;目标模型的语音编码器对参考语音编码,生成参考语音特征向量;目标模型的调节器对参考语音特征向量进行调节;预设模型的解码器对唤醒词文本特征向量和调节后的参考语音特征向量解码,生成目标语音。
116.进一步地,生成单元具体用于:目标模型的调节器根据预设公式x1=s1×
x1+β1对参考语音特征进行调节;其中,x1为调节后的所述参考语音特征向量,x1为调节前的所述参考语音特征向量,s1为所述参考语音特征向量的缩放因子,β1为所述参考语音特征向量的偏移因子。
117.进一步地,生成单元具体还用于:目标模型的话者编码器对参考语音编码,生成话者特征向量;目标模型的韵律编码器对参考语音编码,生成韵律特征向量;将话者特征向量和韵律特征向量相连接,生成参考语音特征向量。
118.根据本技术的第三方面,提出了一种唤醒语音的生成装置,包括:处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如上述技术方案中任一项的唤醒语音的生成方法的步骤。
119.本技术提供的唤醒语音的生成装置,包括存储器和处理器,还包括存储在存储器上的程序或指令,该程序或指令被处理器执行时,能够实现上述技术方案中任一项的唤醒语音的生成方法的步骤,因此该唤醒语音的生成方法具备上述唤醒语音的生成方法的全部有益效果,在此不再赘述。
120.根据本技术的第四方面,提出了一种电子设备,包括上述技术方案中任一项的唤醒语音的生成装置。
121.本技术提供的电子设备,因包含如上述技术方案中任一项的唤醒语音的生成装置,因此该电子设备具备上述唤醒语音的生成装置的全部有益效果,在此不再赘述。
122.根据本技术的第五方面,提出了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现如上述技术方案中任一项的唤醒语音的生成方法。
123.本技术提供的存储介质,其上存储有程序或指令,因该程序或指令被处理器执行时,能够实现如上述技术方案中任一项的唤醒语音的生成方法,因此该存储介质具备上述唤醒语音的生成方法的全部有益效果,在此不再赘述。
124.根据本技术的第六方面,提出了一种计算机程序产品,包括计算机程序或指令,计算机程序或指令被处理器执行时实现如上述实施例中任一项的唤醒语音的生成方法的步骤。因此该计算机程序产品具备上述唤醒语音的生成方法的全部有益效果,在此不再赘述。
125.在本说明书的描述中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性,除非另有明确的规定和限定;术语“连接”、“安装”、“固定”等均应做广
义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。
126.在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
127.以上仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种唤醒语音的生成方法,其特征在于,包括:获取唤醒词文本和参考语音;将所述唤醒词文本和所述参考语音输入目标模型,生成与所述唤醒词文本相对应的目标语音;根据第一预设算法,对所述目标语音进行特征增强,生成所述唤醒语音。2.根据权利要求1所述的生成方法,其特征在于,所述第一预设算法的数量为多个,所述根据第一预设算法,对所述目标语音进行特征增强,生成所述唤醒语音,包括:根据多个所述第一预设算法,分别对所述目标语音的不同特征进行特征增强,生成多个特征增强后的所述目标语音;将特征增强后的多个所述目标语音进行混合,生成所述唤醒语音。3.根据权利要求1或2所述的生成方法,其特征在于,所述获取唤醒词文本和参考语音的步骤之前,所述生成方法还包括:获取文本数据和与所述文本数据相对应的语音数据;根据所述文本数据和所述语音数据对预设模型进行训练,生成目标模型。4.根据权利要求3所述的生成方法,其特征在于,所述根据所述文本数据和所述语音数据对预设模型进行训练,生成目标模型,包括:将所述文本数据和所述语音数据输入至所述预设模型,生成语音输出数据;根据所述语音输出数据和所述语音数据,确定训练损失值;根据所述训练损失值,更新所述预设模型的参数。5.根据权利要求4所述的生成方法,其特征在于,所述将所述文本数据和所述语音数据输入至所述预设模型,生成语音输出数据,包括:所述预设模型的文本编码器对所述文本数据进行编码,生成文本特征向量;所述预设模型的语音编码器对所述语音数据进行编码,生成语音特征向量;所述预设模型的解码器对所述文本特征向量和所述语音特征向量进行解码,生成所述语音输出数据。6.根据权利要求5所述的生成方法,其特征在于,所述语音编码器包括话者编码器和韵律编码器,所述预设模型的语音编码器对所述语音数据进行编码,生成语音特征向量,包括:所述话者编码器对所述语音数据编码,生成话者特征向量;所述韵律编码器对所述语音数据编码,生成韵律特征向量;将所述话者特征向量和所述韵律特征向量相连接,生成所述语音特征向量。7.根据权利要求5所述的生成方法,其特征在于,所述预设模型的解码器对所述文本特征向量和所述语音特征向量进行解码,生成所述语音输出数据的步骤之前,包括:所述预设模型的归一化层对所述语音特征向量进行归一化。8.根据权利要求5所述的生成方法,其特征在于,所述预设模型的解码器对所述文本特征向量和所述语音特征向量进行解码,生成所述语音输出数据的步骤之前,包括:所述预设模型的调节器对所述语音特征向量进行调节。9.根据权利要求8所述的生成方法,其特征在于,所述预设模型的调节器对所述语音特征向量进行调节的步骤,包括:
所述调节器根据预设公式x=s
×
x+β对所述语音特征向量进行调节;其中,x为调节后的所述语音特征向量,x为调节前的所述语音特征向量,s为所述语音特征向量的缩放因子,β为所述语音特征向量的偏移因子,在对所述预设模型进行训练的阶段,s=1,β=0。10.根据权利要求1至9中任一项所述的生成方法,其特征在于,所述将所述唤醒词文本和所述参考语音输入目标模型,生成与所述唤醒词文本相对应的目标语音,包括:所述目标模型的文本编码器对所述唤醒词文本编码,生成唤醒词文本特征向量;所述目标模型的语音编码器对所述参考语音编码,生成参考语音特征向量;所述目标模型的调节器对所述参考语音特征向量进行调节;所述目标模型的解码器对所述唤醒词文本特征向量和调节后的所述参考语音特征向量解码,生成所述目标语音。11.根据权利要求10所述的生成方法,其特征在于,所述目标模型的调节器对所述参考语音特征向量进行调节,包括:所述目标模型的调节器根据预设公式x1=s1×
x1+β1对所述参考语音特征向量进行调节;其中,x1为调节后的所述参考语音特征向量,x1为调节前的所述参考语音特征向量,s1为所述参考语音特征向量的缩放因子,β1为所述参考语音特征向量的偏移因子。12.根据权利要求10所述的生成方法,其特征在于,所述目标模型的语音编码器对所述参考语音编码,生成参考语音特征向量,包括:所述目标模型的话者编码器对所述参考语音编码,生成话者特征向量;所述目标模型的韵律编码器对所述参考语音编码,生成韵律特征向量;将所述话者特征向量和所述韵律特征向量相连接,生成所述参考语音特征向量。13.一种唤醒语音的生成装置,其特征在于,包括:获取单元,用于获取唤醒词文本和参考语音;生成单元,用于将所述唤醒词文本和所述参考语音输入目标模型,生成与所述唤醒词文本相对应的目标语音;以及根据第一预设算法,对所述目标语音进行特征增强,生成所述唤醒语音。14.一种唤醒语音的生成装置,其特征在于,包括:处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至12中任一项所述的唤醒语音的生成方法的步骤。15.一种电子设备,其特征在于,包括:如权利要求13或14所述的唤醒语音的生成装置。16.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至12中任一项所述的唤醒语音的生成方法的步骤。17.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现如权利要求1至12中任一项所述的唤醒语音的生成方法的步骤。

技术总结
本申请提出了一种唤醒语音的生成方法、生成装置和电子设备,其中,唤醒语音的生成方法包括:获取唤醒词文本和参考语音;将唤醒词文本和参考语音输入目标模型,生成与唤醒词文本相对应的目标语音;根据第一预设算法,对目标语音进行特征增强,生成唤醒语音。生成唤醒语音。生成唤醒语音。


技术研发人员:高羽
受保护的技术使用者:美的集团股份有限公司
技术研发日:2023.07.28
技术公布日:2023/10/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐