语音克隆模型的训练及语音合成的方法、装置和相关设备与流程
未命名
07-12
阅读:191
评论:0

1.本技术涉及人工智能技术领域,尤其涉及一种语音克隆模型的训练及语音合成的方法、装置和相关设备。
背景技术:
2.语音克隆技术用于使用目标说话人的少量音频录音,来完成对目标说话人的声音音色等语音特征的克隆。通常,语音克隆技术能够根据输入的任意文本,生成接近目标说话人音色的语音。
3.目前主流的语音克隆模型技术只能克隆目标说话人的音色特征,无法复现说话人的情感语气(emotion)或口音(accent)特征,导致合成的语音单一。
技术实现要素:
4.为了解决现有技术中只能克隆说话人的音色导致合成语音单一的技术问题。本技术提供了一种语音克隆模型的训练及语音合成的方法、装置和相关设备,其主要目的在于从多维度语音特征合成语音,丰富语音合成效果。
5.为实现上述目的,本技术提供了一种语音克隆模型的训练方法,该训练方法包括:
6.获取训练样本集合,其中,训练样本集合包含多个训练样本,每个训练样本包括样本语音及对应的样本语音文本;
7.通过预训练的语音克隆模型所包含的文本编码器对输入的样本语音文本进行文本编码得到样本文本特征;
8.通过预训练的语音克隆模型所包含的声学编码器对输入的相应样本语音进行语音编码,得到样本声学特征,其中,样本声学特征包括音色特征、情感特征和口音特征;
9.对所有样本声学特征进行拼接得到样本融合特征;
10.通过预训练的语音克隆模型所包含的声学模型对样本文本特征与样本融合特征的对齐关系进行预测,生成包含预测的样本对齐关系的预测频谱特征;
11.根据样本预测频谱特征和样本语音的原始频谱特征计算损失函数,根据损失函数计算梯度,根据梯度迭代更新预训练的语音克隆模型的模型参数,直至达到收敛条件,得到已训练的语音克隆模型。
12.此外,为实现上述目的,本技术还提供了一种语音合成的方法,该合成方法包括:
13.获取目标文本;
14.将目标文本输入至语音合成模型,通过语音合成模型的文本编码器将目标文本编码为目标文本特征;
15.为目标文本特征匹配目标声学特征,对所有目标声学特征进行拼接得到目标融合特征;
16.通过语音合成模型的声学模型对目标文本特征与目标融合特征的对齐关系进行预测,生成包含预测的目标对齐关系的目标频谱特征,其中,目标声学特征包括目标音色特
征、目标情感特征和目标口音特征;
17.通过语音合成模型的声码器将目标频谱特征转换为目标语音波形;
18.其中,语音合成模型是根据前面任意一项语音克隆模型的训练方法得到的已训练的语音克隆模型和声码器构建的。
19.此外,为实现上述目的,本技术还提供了一种语音克隆模型的训练装置,该训练装置包括:
20.样本获取模块,用于获取训练样本集合,其中,训练样本集合包含多个训练样本,每个训练样本包括样本语音及对应的样本语音文本;
21.第一编码模块,用于通过预训练的语音克隆模型所包含的文本编码器对输入的样本语音文本进行文本编码得到样本文本特征;
22.第二编码模块,用于通过预训练的语音克隆模型所包含的声学编码器对输入的相应样本语音进行语音编码,得到样本声学特征,其中,样本声学特征包括音色特征、情感特征和口音特征;
23.拼接模块,用于对所有样本声学特征进行拼接得到样本融合特征;
24.预测模块,用于通过预训练的语音克隆模型所包含的声学模型对样本文本特征与样本融合特征的对齐关系进行预测,生成包含预测的样本对齐关系的预测频谱特征;
25.参数更新模块,用于根据样本预测频谱特征和样本语音的原始频谱特征计算损失函数,根据损失函数计算梯度,根据梯度迭代更新预训练的语音克隆模型的模型参数,直至达到收敛条件,得到已训练的语音克隆模型。
26.为实现上述目的,本技术还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时执行如前面任一项的语音克隆模型的训练方法的步骤,或,处理器执行计算机可读指令时执行如前面任一项的语音合成的方法的步骤。
27.为实现上述目的,本技术还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如前面任一项的语音克隆模型的训练方法的步骤,或,使得处理器执行如前面任一项的语音合成的方法的步骤。
28.本技术提出的语音克隆模型的训练及语音合成的方法、装置和相关设备,通过多通道编码器来提取多维语音特征,可以同时对说话人的音色、情感语气或口音进行克隆,通过多维度语音特征合成语音,丰富了语音合成效果。
附图说明
29.图1为本技术一实施例中语音克隆模型的结构框图;
30.图2为本技术一实施例中语音克隆模型的训练方法的流程示意图;
31.图3为本技术一实施例中语音克隆模型的训练装置的结构框图;
32.图4为本技术一实施例中计算机设备的内部结构框图。
33.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
34.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
35.图2为本技术一实施例中语音克隆模型的训练方法的流程示意图。参考图2,该语音克隆模型的训练方法包括以下步骤s100-s600。
36.s100:获取训练样本集合,其中,训练样本集合包含多个训练样本,每个训练样本包括样本语音及对应的样本语音文本。
37.具体地,样本语音文本是对样本语音进行语音识别得到的,或者,样本语音是说话人根据样本语音文本录音得到的。样本语音文本的词汇内容与样本语音中的词汇内容相同。
38.为了减少噪声干扰,样本语音均为说话人在安静环境下录制的语音音频(采样率可以为16k、22k、24k、44.1k等不局限于此)。
39.训练样本可以包括多个说话人的样本语音及样本语音文本,也可以是同一个说话人的样本语音及样本语音文本。
40.训练样本可以包括多种情感的样本语音,也可以是同一种情感的样本语音。
41.训练样本还可以包括多种口音的样本语音,也可以是同一种口音的样本语音。
42.训练样本集合可以是通过自动归集并提交到模型训练服务器的,且模型是自动训练、训练完成后自动发布的。训练样本集合也可以是通过人工手动下载打包上传到模型训练服务器的,训练完成后人工手动发布到引擎服务器。
43.s200:通过预训练的语音克隆模型所包含的文本编码器对输入的样本语音文本进行文本编码得到样本文本特征。
44.具体地,如图1所示,预训练的语音克隆模型包括文本编码器10、声学编码器20和声学模型30,其中,声学编码器20包括音色编码器21、情感编码器22和口音编码器23。
45.文本编码器10用于对输入的样本语音文本进行编码,得到样本文本特征,样本文本特征为一种向量编码或向量表示,具体例如可以为128维向量。
46.s300:通过预训练的语音克隆模型所包含的声学编码器对输入的相应样本语音进行语音编码,得到样本声学特征,其中,样本声学特征包括音色特征、情感特征和口音特征。
47.具体地,语音编码包括音色编码、情感编码和口音编码。参考图1,通过音色编码器对输入的样本语音进行音色编码,得到音色特征;通过情感编码器对输入的样本语音进行情感编码,得到情感特征,通过口音编码器对输入的样本语音进行口音编码,得到口音特征。音色特征、情感特征和口音特征均为一种声学特征,且为一种向量编码或向量表示,具体例如为embedding嵌入。
48.其中,音色特征具体为对从样本语音中提取的基频、共振峰、频谱包络等参数进行编码得到的。例如可以通过yin算法或yaapt算法进行基频等参数提取。
49.情感特征具体为可以使用gst(global style token)模型提取,gst模型包括参考编码器、样式注意、样式嵌入和序列到序列(tacotron)模型。gst模型通过没有任何韵律标
签的样本语音进行训练,揭示了大规模的表达风格。这个模型内部可以自己产生可解释的软“标签”即style embedding,这些软标签作为情感特征可以用来表达多种样式的控制和传递任务,可以大大改善长句子合成表达。
50.口音特征具体为对从样本语音中提取的基频、共振峰等参数进行编码得到的。
51.s400:对所有样本声学特征进行拼接得到样本融合特征。
52.具体地,通过线性投影层将所有声学特征映射到相同维度,对映射后得到的所有声学特征进行拼接,得到融合特征。
53.s500:通过预训练的语音克隆模型所包含的声学模型对样本文本特征与样本融合特征的对齐关系进行预测,生成包含预测的样本对齐关系的预测频谱特征。
54.具体地,声学模型用于对文本特征与融合特征即声学特征的对齐方式进行预测,并根据预测的对齐关系以及文本特征、融合特征生成预测频谱特征。预测频谱特征为mfcc(mel frequency cepstrum coefficient,mel频率倒谱系数)或梅尔频谱。梅尔频谱是基于人耳听觉特性提出来的,它与hz频率成非线性对应关系。mel频率倒谱系数(mfcc)则是利用它们之间的这种关系,计算得到的hz频谱特征。
55.s600:根据样本预测频谱特征和样本语音的原始频谱特征计算损失函数,根据损失函数计算梯度,根据梯度迭代更新预训练的语音克隆模型的模型参数,直至达到收敛条件,得到已训练的语音克隆模型。
56.具体地,损失函数具体可以为样本预测频谱特征与样本语音的原始频谱特征的mse(均方根误差)。
57.通过迭代训练来更新预训练的语音克隆模型的模型参数,直到损失函数小于预设值或训练次数达到次数阈值,则停止训练,得到已训练的语音克隆模型。
58.已训练的语音克隆模型根据训练样本的种类可以支持单一说话人的语音克隆,也可以支持多说话人的语音克隆,
59.本实施例通过多通道编码器来提取多维语音特征,可以同时对说话人的音色、情感语气或口音进行克隆,通过多维度语音特征合成语音,丰富了语音合成效果。
60.在一个实施例中,每个训练样本还包括样本标签,样本标签包括说话人身份标签、情感分类标签、口音类别标签中的至少一种;
61.该训练方法还包括:
62.根据样本标签对样本语音的音色特征与对应的说话人身份特征进行学习;
63.或,根据样本标签对样本语音的情感特征与对应的情感分类特征进行学习;
64.或,根据样本标签对样本语音的口音特征与对应的口音类别特征进行学习,其中,说话人身份特征是对说话人身份标签编码得到的,情感分类特征是对情感分类标签编码得到的,口音类别特征是对口音类别标签编码得到的。
65.具体地,训练样本集合包括不同说话人所对应的训练样本和/或不同情感分类和/或不同口音类别的训练样本。训练样本携带说话人身份标签、情感分类标签、口音类别标签中的至少一种。
66.文本编码器还用于对说话人身份标签进行编码得到说话人身份特征,对情感分类标签进行编码得到情感分类特征,对口音类别标签进行编码得到口音类别特征。情感分类标签例如可以为喜怒哀乐等各种标签。说话人身份标签用于指示样本语音的发声者的身
份。口音类别标签用于指示说话人的口音,例如使用普通话或某种方言或某种语种发音。
67.预训练语音克隆模型还用于学习样本语音的音色特征与说话人身份特征之间的对应关系、样本语音的情感特征与情感分类标签之间的对应关系、样本语音的口音特征与口音类别标签之间的对应关系中的至少一种。这样可以控制已训练的语音克隆模型合成具有目标说话人音色、具有目标情感、具有目标口音的语音。
68.在一个实施例中,声学编码器包括音色编码器、情感编码器和口音编码器;
69.步骤s600中根据梯度迭代更新预训练的语音克隆模型的模型参数,包括:
70.根据梯度迭代更新声学模型的模型参数,
71.或,
72.根据梯度迭代更新文本编码器、音色编码器、情感编码器和口音编码器中的至少一个以及声学模型的模型参数。
73.具体地,声学模型用于学习文本特征与声学特征之间的对齐关系,以根据对齐关系、文本特征、声学特征生成频谱特征,声学模型是需要进行训练的。文本编码器、音色编码器、情感编码器和口音编码器可以使用现有的已训练好的编码器,在本方案中不再进行训练。当然文本编码器、音色编码器、情感编码器和口音编码器也可以使用现有的已训练好的编码器,并在本方案中与声学模型一起进行微调。即在本方案中部分编码器微调,部分编码器可以使用现有的不再进行微调。具体根据实际应用场景配置,本技术对此不作限制。
74.在一个实施例中,步骤s100具体包括:
75.对采集到的原始语音与对应的原始语音文本进行一致性质检,将质检通过的原始语音与对应的原始语音文本分别作为样本语音和样本语音文本;
76.或,
77.对采集到的原始语音与对应的原始语音文本进行一致性质检,对质检通过的原始语音与对应的原始语音文本进行音色对齐后分别作为样本语音和样本语音文本;
78.或,
79.对采集到的原始语音与对应的原始语音文本进行音色对齐后分别作为样本语音和样本语音文本。
80.具体地,一致性质检用于对原始语音的词汇内容与原始语音文本的词汇内容进行一致性检测,保证语音中的词汇内容与文本中的词汇内容相同,提高模型训练的准确度。如果录音与文本不一致,在质检过程中,asr语音识别系统会提示用户录音有误,需要用户重新录制或更改对应的文本,以保证录音与文本内容完全一致和正确性。
81.可以使用强制对齐工具例如mfa(montreal forced aligner),对音频和文本进行音素对齐。
82.强制对齐工具的目的是使得录音与文本中的字词或音素一一对应,例如“你好”,“你”字的发音是0-0.5秒,“好”字的发音是0.5-1.2秒。也可以是音素序列的时间对齐。如果不对齐,对于模型训练会有影响,模型无法学习到对齐关系中每个音素或者字词的发音持续时间。
83.另外,还可以对原始语音进行预处理,预处理包括对音频数据的音量归一化、语速归一化,以及去除混响和噪声等处理。
84.本实施例通过一致性质检和对齐处理来保证训练样本的标准和正确性,提高模型
训练的准确度,提升模型的可靠性和稳定性。
85.在一个实施例中,该训练方法还包括:
86.利用已训练的语音克隆模型和声码器构建语音合成模型;
87.对语音合成模型进行模型性能测试;
88.将测试通过的语音合成模型发布至引擎服务器,以供第三方调用。
89.具体地,声码器可以是基于自回归的神经网络,或非自回归的基于生成对抗网络的声码器。
90.语音克隆模型中的声学模型与声码器连接,声学模型的输出作为声码器的输入,声码器的输出作为语音合成模型的输出。
91.声学模型是把语音特征转成音频的频谱特征。声码器是语音分析合成的一种工具,主要功能是把频谱特征转成可播放的语音波形即将声学参数转换成语音波形。声码器的好坏直接决定了音频的音质高低。常见的传统声码器有world、straight及其变种等;还有神经网络声码器,如wavenet,一种可训练的基于深度神经网络的声码器,可生成高质量的语音波形。
92.对语音合成模型进行合成音频测试,生成一定量的合成样音,采用语音识别asr模型测试合成准确率,采用平均意见得分(mos),或客观评估参数pesq(perceptual evaluation of speech quality)(语音质量的感知评估)或mcd(mel cepstral distortion,表示转换后语音的mfcc特征与标准输出语音的mfcc特征的差距)来测试合成音质以进行模型性能测试。
93.对于性能测试满足指标的语音合成模型可以进行自动发布使用。对于测试指标不合格的模型,可人工介入核验问题后重新训练语音克隆模型或更换声码器。
94.其中,人工介入主要是对于存在特殊发音、特殊语言、特殊字符的情况下,超出自动训练所设定的预设范围,可以通过人工介入的方式排除干扰后继续训练模型。可以通过手动下载录音包后,试听合成样音,如果样音有问题,排除存在的问题后重新启动模型训练。
95.本实施例自动构建语音合成模型后自动上线发布至引擎服务器。第三方可以根据voice id来调用语音合成模型生成目标说话人音色的语音。其中,voice id为说话人身份标签。还可以根据情感分类标签来调用语音合成模型生成具有目标情感的语音。还可以根据口音类别标签来调用语音合成模型生成具有目标口音的语音。或者是两者或三者的结合而合成的具有目标音色、目标情感、目标口音的合成语音。
96.在一个实施例中,本技术还提供了一种语音合成的方法,该合成方法包括:
97.获取目标文本;
98.将目标文本输入至语音合成模型,通过语音合成模型的文本编码器将目标文本编码为目标文本特征;
99.为目标文本特征匹配目标声学特征;
100.对所有目标声学特征进行拼接得到目标融合特征;
101.通过语音合成模型的声学模型对目标文本特征与目标融合特征的对齐关系进行预测,生成包含预测的目标对齐关系的目标频谱特征,其中,目标声学特征包括目标音色特征、目标情感特征和目标口音特征;
102.通过语音合成模型的声码器将目标频谱特征转换为目标语音波形;
103.其中,语音合成模型是根据前面任意一项语音克隆模型的训练方法得到的已训练的语音克隆模型和声码器构建的。
104.具体地,目标文本用于指定待合成的语音的词汇内容。
105.本实施例指定了目标文本内容,因此语音合成模型会根据模型训练过程中学习到的音色特征、情感特征、口音特征随机的合成一条或多条目标语音波形。
106.如果在模型训练过程中,使用的是同一个说话人的不同情感不同口音的样本语音,则输出的是具有同一个说话人的音色的合成语音,合成语音的口音和情感随机指定。
107.声学模型的输出给到声码器后,声码器可以将频谱特征转换为时域的波形,即可以播放的目标语音文件。
108.在一个实施例中,该方法还包括:获取目标标签,其中目标标签包括目标情感分类标签、目标说话人身份标签、口音类别标签中的至少一个;
109.为目标文本特征匹配目标声学特征,包括:
110.为目标文本特征匹配与目标说话人身份特征对应的目标音色特征,其中,目标说话人身份特征是根据目标说话人身份标签编码得到的,
111.和/或,
112.为目标文本特征匹配与目标情感分类特征对应的目标情感特征,其中,目标情感分类特征是根据目标情感分类标签编码得到的;
113.和/或,
114.为目标文本特征匹配与目标口音类别特征对应的目标口音特征,其中,目标口音类别特征是根据目标口音类别标签编码得到的。
115.具体地,本实施例不仅指定目标文本,而且指定目标标签,通过目标标签来控制合成语音的情感、音色和口音中的至少一种,使合成的目标语音具有指定的说话内容、指定的音色、指定的口音以及指定的情感。
116.图3为本技术一实施例中语音克隆模型的训练装置的结构框图。参照图3,该训练装置包括:
117.样本获取模块100,用于获取训练样本集合,其中,训练样本集合包含多个训练样本,每个训练样本包括样本语音及对应的样本语音文本;
118.第一编码模块200,用于通过预训练的语音克隆模型所包含的文本编码器对输入的样本语音文本进行文本编码得到样本文本特征;
119.第二编码模块300,用于通过预训练的语音克隆模型所包含的声学编码器对输入的相应样本语音进行语音编码,得到样本声学特征,其中,样本声学特征包括音色特征、情感特征和口音特征;
120.拼接模块400,用于对所有样本声学特征进行拼接得到样本融合特征;
121.预测模块500,用于通过预训练的语音克隆模型所包含的声学模型对样本文本特征与样本融合特征的对齐关系进行预测,生成包含预测的样本对齐关系的预测频谱特征;
122.参数更新模块600,用于根据样本预测频谱特征和样本语音的原始频谱特征计算损失函数,根据损失函数计算梯度,根据梯度迭代更新预训练的语音克隆模型的模型参数,直至达到收敛条件,得到已训练的语音克隆模型。
123.在一个实施例中,每个训练样本还包括样本标签,样本标签包括说话人身份标签、情感分类标签、口音类别标签中的至少一种;
124.该训练装置还包括:
125.第一对应关系学习模块,用于根据样本标签对样本语音的音色特征与对应的说话人身份特征进行学习;
126.或,
127.第二对应关系学习模块,用于根据样本标签对样本语音的情感特征与对应的情感分类特征进行学习;
128.或,
129.第三对应关系学习模块,用于根据样本标签对样本语音的口音特征与对应的口音类别特征进行学习,其中,说话人身份特征是对说话人身份标签编码得到的,情感分类特征是对情感分类标签编码得到的,口音类别特征是对口音类别标签编码得到的。
130.在一个实施例中,声学编码器包括音色编码器、情感编码器和口音编码器;
131.参数更新模块600,具体用于根据梯度迭代更新声学模型的模型参数,
132.或,
133.参数更新模块600,具体用于根据梯度迭代更新文本编码器、音色编码器、情感编码器和口音编码器中的至少一个以及声学模型的模型参数。
134.在一个实施例中,样本获取模块100包括:
135.质检模块,用于对采集到的原始语音与对应的原始语音文本进行一致性质检,将质检通过的原始语音与对应的原始语音文本分别作为样本语音和样本语音文本;
136.或,
137.质检对齐模块,用于对采集到的原始语音与对应的原始语音文本进行一致性质检,对质检通过的原始语音与对应的原始语音文本进行音色对齐后分别作为样本语音和样本语音文本;
138.或,
139.对齐模块,用于对采集到的原始语音与对应的原始语音文本进行音色对齐后分别作为样本语音和样本语音文本。
140.在一个实施例中,该训练装置还包括:
141.模型构建模块,用于利用已训练的语音克隆模型和声码器构建语音合成模型;
142.性能测试模块,用于对语音合成模型进行模型性能测试;
143.模型发布模块,用于将测试通过的语音合成模型发布至引擎服务器,以供第三方调用。
144.在一个实施例中,本技术还提供了一种语音合成的装置,该合成装置包括:
145.文本获取模块,用于获取目标文本;
146.第一编码模块200,用于将目标文本输入至语音合成模型,通过语音合成模型的文本编码器将目标文本编码为目标文本特征;
147.匹配模块,用于为目标文本特征匹配目标声学特征;
148.拼接模块400,用于对所有目标声学特征进行拼接得到目标融合特征;
149.预测模块500,用于通过语音合成模型的声学模型对目标文本特征与目标融合特
征的对齐关系进行预测,生成包含预测的目标对齐关系的目标频谱特征,其中,目标声学特征包括目标音色特征、目标情感特征和目标口音特征;
150.转换模块,用于通过语音合成模型的声码器将目标频谱特征转换为目标语音波形;
151.其中,语音合成模型是根据前面任意一项语音克隆模型的训练装置得到的已训练的语音克隆模型和声码器构建的。
152.在一个实施例中,该合成装置还包括:
153.标签获取模块,用于获取目标标签,其中目标标签包括目标情感分类标签、目标说话人身份标签、目标口音类别标签中的至少一个;
154.匹配模块具体包括:
155.第一匹配模块,用于为目标文本特征匹配与目标说话人身份特征对应的目标音色特征,其中,目标说话人身份特征是根据目标说话人身份标签编码得到的,
156.和/或,
157.第二匹配模块,用于为目标文本特征匹配与目标情感分类特征对应的目标情感特征,其中,目标情感分类特征是根据目标情感分类标签编码得到的;
158.和/或,
159.第三匹配模块,用于为目标文本特征匹配与目标口音类别特征对应的目标口音特征,其中,目标口音类别特征是根据目标口音类别标签编码得到的。
160.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
161.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
162.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
163.其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本技术中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
164.关于语音克隆模型的训练装置的具体限定可以参见上文中对于语音克隆模型的训练方法的限定,在此不再赘述。上述语音克隆模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执
行以上各个模块对应的操作。
165.图4为本技术一实施例中计算机设备的内部结构框图。如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质,也可以是易失性存储介质。存储介质存储有操作系统,还可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器实现语音克隆模型的训练方法或语音合成的方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行语音克隆模型的训练方法或语音合成的方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
166.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序),处理器执行计算机可读指令时实现上述实施例中语音克隆模型的训练方法的步骤,例如图2所示的步骤s100至步骤s600及该方法的其它扩展和相关步骤的延伸。处理器执行计算机可读指令时实现上述实施例中语音合成的方法的步骤。或者,处理器执行计算机可读指令时实现上述实施例中语音克隆模型的训练装置的各模块/单元的功能,例如图3所示模块100至模块600的功能。为避免重复,这里不再赘述。
167.处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
168.存储器可用于存储计算机可读指令和/或模块,处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
169.存储器可以集成在处理器中,也可以与处理器分开设置。
170.本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
171.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中语音克隆模型的训练方法的步骤,例如图2所示的步骤s100至步骤s600及该方法的其它扩展和相关步骤的延伸。或者,计算机可读指令被处理器执行时实现上述实施例中语音合成的方法的步骤。或者,计算机可读指令被
处理器执行时实现上述实施例中语音克隆模型的训练装置的各模块/单元的功能,例如图3所示模块100至模块600的功能。为避免重复,这里不再赘述。
172.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指示相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双倍速率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
173.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
174.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
175.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
技术特征:
1.一种语音克隆模型的训练方法,其特征在于,所述训练方法包括:获取训练样本集合,其中,所述训练样本集合包含多个训练样本,每个所述训练样本包括样本语音及对应的样本语音文本;通过预训练的语音克隆模型所包含的文本编码器对输入的样本语音文本进行文本编码得到样本文本特征;通过所述预训练的语音克隆模型所包含的声学编码器对输入的相应样本语音进行语音编码,得到样本声学特征,其中,所述样本声学特征包括音色特征、情感特征和口音特征;对所有样本声学特征进行拼接得到样本融合特征;通过所述预训练的语音克隆模型所包含的声学模型对所述样本文本特征与所述样本融合特征的对齐关系进行预测,生成包含预测的样本对齐关系的预测频谱特征;根据所述样本预测频谱特征和所述样本语音的原始频谱特征计算损失函数,根据所述损失函数计算梯度,根据所述梯度迭代更新所述预训练的语音克隆模型的模型参数,直至达到收敛条件,得到已训练的语音克隆模型。2.根据权利要求1所述的训练方法,其特征在于,每个所述训练样本还包括样本标签,所述样本标签包括说话人身份标签、情感分类标签、口音类别标签中的至少一种;所述训练方法还包括:根据所述样本标签对所述样本语音的音色特征与对应的说话人身份特征进行学习;或,根据所述样本标签对所述样本语音的情感特征与对应的情感分类特征进行学习;或,根据所述样本标签对所述样本语音的口音特征与对应的口音类别特征进行学习,其中,所述说话人身份特征是对说话人身份标签编码得到的,所述情感分类特征是对情感分类标签编码得到的,所述口音类别特征是对口音类别标签编码得到的。3.根据权利要求1或2所述的方法,其特征在于,所述声学编码器包括音色编码器、情感编码器和口音编码器;所述根据所述梯度迭代更新所述预训练的语音克隆模型的模型参数,包括:根据所述梯度迭代更新所述声学模型的模型参数,或,根据所述梯度迭代更新所述文本编码器、音色编码器、情感编码器和口音编码器中的至少一个以及所述声学模型的模型参数。4.根据权利要求1或2所述的方法,其特征在于,所述获取训练样本集合,包括:对采集到的原始语音与对应的原始语音文本进行一致性质检,将质检通过的原始语音与对应的原始语音文本分别作为样本语音和样本语音文本;或,对采集到的原始语音与对应的原始语音文本进行一致性质检,对质检通过的原始语音与对应的原始语音文本进行音色对齐后分别作为样本语音和样本语音文本;或,对采集到的原始语音与对应的原始语音文本进行音色对齐后分别作为样本语音和样本语音文本。5.根据权利要求1或2所述的方法,其特征在于,所述训练方法还包括:利用所述已训练的语音克隆模型和声码器构建语音合成模型;
对所述语音合成模型进行模型性能测试;将测试通过的所述语音合成模型发布至引擎服务器,以供第三方调用。6.一种语音合成的方法,其特征在于,所述合成方法包括:获取目标文本;将所述目标文本输入至语音合成模型,通过所述语音合成模型的文本编码器将所述目标文本编码为目标文本特征;为所述目标文本特征匹配目标声学特征;对所有目标声学特征进行拼接得到目标融合特征;通过所述语音合成模型的声学模型对所述目标文本特征与所述目标融合特征的对齐关系进行预测,生成包含预测的目标对齐关系的目标频谱特征,其中,所述目标声学特征包括目标音色特征、目标情感特征和目标口音特征;通过所述语音合成模型的声码器将所述目标频谱特征转换为目标语音波形;其中,所述语音合成模型是根据权利要求1-5任意一项语音克隆模型的训练方法得到的已训练的语音克隆模型和声码器构建的。7.根据权利要求6所述的方法,其特征在于,所述合成方法还包括:获取目标标签,其中所述目标标签包括目标情感分类标签、目标说话人身份标签、目标口音类别标签中的至少一个;所述为所述目标文本特征匹配目标声学特征,包括:为所述目标文本特征匹配与目标说话人身份特征对应的目标音色特征,其中,所述目标说话人身份特征是根据所述目标说话人身份标签编码得到的,和/或,为所述目标文本特征匹配与目标情感分类特征对应的目标情感特征,其中,所述目标情感分类特征是根据所述目标情感分类标签编码得到的,和/或,为所述目标文本特征匹配与目标口音类别特征对应的目标口音特征,其中,所述目标口音类别特征是根据所述目标口音类别标签编码得到的。8.一种语音克隆模型的训练装置,其特征在于,所述训练装置包括:样本获取模块,用于获取训练样本集合,其中,所述训练样本集合包含多个训练样本,每个所述训练样本包括样本语音及对应的样本语音文本;第一编码模块,用于通过预训练的语音克隆模型所包含的文本编码器对输入的样本语音文本进行文本编码得到样本文本特征;第二编码模块,用于通过所述预训练的语音克隆模型所包含的声学编码器对输入的相应样本语音进行语音编码,得到样本声学特征,其中,所述样本声学特征包括音色特征、情感特征和口音特征;拼接模块,用于对所有样本声学特征进行拼接得到样本融合特征;预测模块,用于通过所述预训练的语音克隆模型所包含的声学模型对所述样本文本特征与所述样本融合特征的对齐关系进行预测,生成包含预测的样本对齐关系的预测频谱特征;参数更新模块,用于根据所述样本预测频谱特征和所述样本语音的原始频谱特征计算
损失函数,根据所述损失函数计算梯度,根据所述梯度迭代更新所述预训练的语音克隆模型的模型参数,直至达到收敛条件,得到已训练的语音克隆模型。9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时执行如权利要求1-5任一项所述的语音克隆模型的训练方法的步骤,或,所述处理器执行所述计算机可读指令时执行如权利要求6-7任一项所述的语音合成的方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1-5任一项所述的语音克隆模型的训练方法的步骤,或,使得所述处理器执行如权利要求6-7任一项所述的语音合成的方法的步骤。
技术总结
本申请涉及人工智能技术,提出一种语音克隆模型的训练及语音合成的方法、装置和相关设备,该方法包括:获取训练样本集合;通过预训练的语音克隆模型的文本编码器对样本语音文本进行文本编码得到样本文本特征;通过声学编码器对相应样本语音进行语音编码,得到样本声学特征;通过声学模型对所有样本声学特征进行拼接得到样本融合特征,对样本文本特征与样本融合特征的对齐关系进行预测,生成包含预测的样本对齐关系的预测频谱特征;根据样本预测频谱特征和样本语音的原始频谱特征计算损失函数,以迭代更新预训练的语音克隆模型的模型参数,直至达到收敛条件,得到已训练的语音克隆模型。本申请从多维度语音特征合成语音,丰富了语音合成效果。语音合成效果。语音合成效果。
技术研发人员:陈闽川 马骏 王少军
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.02.16
技术公布日:2023/7/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/