一种语音合成方法、装置、设备及介质与流程
未命名
09-03
阅读:98
评论:0

1.本技术涉及大数据领域或金融领域,特别涉及一种语音合成方法、装置、设备及介质。
背景技术:
2.作为人机语音交互的出口,语音合成的效果直接影响到人机交互的体验。一个高质量的、稳定的语音合成系统能够让机器更加地拟人化,使人机交互过程更加自然。
3.目前,随着智能化语音合成系统的不断完善,人们对增强语音自然度、情感度的要求也越来越高。然而,在情感语音合成领域的情感语音数据集很少,且大多数情感语音数据来自不同的发言人,导致可用来训练的情感语音数据集规模都很小,限制了基于深度学习方法的情感语音合成模型的效果,进而也降低了用户的语音合成体验。
技术实现要素:
4.有鉴于此,本技术实施例提供了一种语音合成方法、装置、设备及介质,能够合成语音自然度、情感度高的语音,提升用户的语音合成体验。
5.本技术实施例公开了如下技术方案:
6.第一方面,本技术提供了一种语音合成方法,所述方法包括:
7.获取语音数据集;
8.对所述语音数据集进行预处理,以获取训练数据集;
9.根据所述训练数据集训练源网络模型,以合成语音合成模型,所述源网络模型为波网网络模型或塔科特龙网络模型;
10.获取合成数据;
11.将所述合成数据输入至所述语音合成模型中,以执行语音合成。
12.可选的,所述获取语音数据集,包括:
13.获取源网络模型;
14.判断所述源网络模型的收敛效果是否符合要求;
15.若是,则在所述源网络模型中获取语音数据集。
16.可选的,所述判断所述源网络模型的收敛效果是否符合要求,包括:
17.判断所述源网络模型的损失值是否不变;
18.或,判断所述源网络模型是否没有震荡或没有过拟合;
19.或,判断所述源网络模型的目标指标是否达到预设阈值。
20.可选的,所述预处理包括数据清洗处理、数据标注处理、声音处理、特征提取处理、数据切割处理和数据增强处理中的一种或多种。
21.可选的,所述语音合成模型包括塔科特龙模块、一维卷积库高速网络双向门控循环单元模块、以及后处理网络和波形合成模块;
22.所述一维卷积库高速网络双向门控循环单元模块由一维卷积滤波器组、最大池化
层、一维卷积映射层、高速公路网络和双向门控循环单元残差连接而成;
23.所述后处理网络和所述波形合成模块使用格里芬-林重构算法作为合成器。
24.第二方面,本技术提供了一种语音合成装置,所述装置包括:第一获取模块、第二获取模块、训练模块、第三获取模块和执行模块;
25.所述第一获取模块,用于获取语音数据集;
26.所述第二获取模块,用于对所述语音数据集进行预处理,以获取训练数据集;
27.所述训练模块,用于根据所述训练数据集训练源网络模型,以合成语音合成模型,所述源网络模型为波网网络模型或塔科特龙网络模型;
28.所述第三获取模块,用于获取合成数据;
29.所述执行模块,用于将所述合成数据输入至所述语音合成模型中,以执行语音合成。
30.可选的,所述第一获取模块包括:第一获取子模块、判断模块和第二获取子模块;
31.所述第一获取子模块,用于获取源网络模型;
32.所述判断模块,用于判断所述源网络模型的收敛效果是否符合要求;
33.所述第二获取子模块,用于若是,则在所述源网络模型中获取语音数据集。
34.可选的,所述判断模块具体用于:
35.判断所述源网络模型的损失值是否不变;
36.或,判断所述源网络模型是否没有震荡或没有过拟合;
37.或,判断所述源网络模型的目标指标是否达到预设阈值。
38.第三方面,本技术提供了一种语音合成设备,包括:存储器和处理器;
39.所述存储器,用于存储程序;
40.所述处理器,用于执行所述计算机程序时实现上述语音合成方法的步骤。
41.第四方面,本技术提供了一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述语音合成方法的步骤。
42.相较于现有技术,本技术具有以下有益效果:
43.本技术公开了一种语音合成方法、装置、设备及介质,该方法包括:获取语音数据集;对语音数据集进行预处理,以获取训练数据集;根据训练数据集,训练语音合成模型;获取合成数据;将合成数据输入至语音合成模型中,以执行语音合成。由此,通过训练数据集训练波网网络模型或塔科特龙网络模型,可以生成语音合成模型,使得该语音生成模型能够合成语音自然度、情感度高的语音,进而提升用户的语音合成体验。
附图说明
44.为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1a为本技术实施例提供的一种语音合成方法的流程图;
46.图1b为本技术实施例提供的一种平均主观意见分方法的评分示意图;
47.图2为本技术实施例提供的一种语音合成装置的示意图;
48.图3为本技术实施例提供的一种计算机可读介质的示意图;
49.图4为本技术实施例提供的一种服务器的硬件结构示意图。
具体实施方式
50.本发明提供的一种语音合成方法、装置、设备及介质可用于大数据领域或金融领域。上述仅为示例,并不对本发明提供的一种语音合成方法、装置、设备及介质的应用领域进行限定。
51.目前,随着智能化语音合成系统的不断完善,人们对增强语音自然度、情感度的要求也越来越高。然而,在情感语音合成领域的情感语音数据集很少,且大多数情感语音数据来自不同的发言人,导致可用来训练的情感语音数据集规模都很小,限制了基于深度学习方法的情感语音合成模型的效果,进而也降低了用户的语音合成体验。
52.有鉴于此,本技术提供了一种语音合成方法、装置、设备及介质,获取语音数据集;对语音数据集进行预处理,以获取训练数据集;根据训练数据集,训练语音合成模型;获取合成数据;将合成数据输入至语音合成模型中,以执行语音合成。由此,通过训练数据集训练波网网络模型或塔科特龙网络模型,可以生成语音合成模型,使得该语音生成模型能够合成语音自然度、情感度高的语音,提升用户的语音合成体验。
53.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
54.参见图1a,该图为本技术实施例提供的一种语音合成方法的流程图。该方法包括:
55.s101:获取语音数据集。
56.在一些具体的实施方式中,可以通过广泛调研获取到适合金融行业进行语音合成的、收敛效果好的源网络模型,再从上述源网络模型中获取语音数据集。
57.其中,源网络模型的收敛效果指的是在训练过程中,当源网络模型的网络参数调整到一定程度时,网络输出的结果与期望输出之间趋于稳定并且误差达到较小的程度。也就是说,网络训练过程中的目标是不断地优化神经网络参数,使得网络能够快速有效地学习到输入和输出之间的对应关系,并且最终达到一个理想稳态,这个理想稳态就被称为收敛状态,而网络达到这个状态的效果即是收敛效果。
58.具体的,判断神经网络的收敛效果是否符合要求,可以考虑以下几个方面:
59.第一,判断源网络模型的损失值(loss值)是否稳定。神经网络的训练通常通过最小化损失函数来优化网络参数,当损失值稳定(即不再下降,损失值不变)时,可以认为神经网络已经学习得比较好了,此时神经网络收敛效果较好。
60.第二,判断验证集表现是否稳定。在训练神经网络时,需要将输入神经网络的数据集分成训练集和验证集两部分,其中,验证集用于评估神经网络的泛化性能。如果验证集的表现一直保持稳定,即不会有震荡或出现过拟合,则可以说网络的收敛效果较好。
61.第三,判断目标指标是否满足要求。可以根据具体的应用需求,制定多种目标指标来衡量网络的性能。比如,在图像分类任务中,目标指标可以是准确率或召回率等。若准确率或召回率达到设定的预设阈值,则可以说网络的收敛效果较好。
62.s102:对语音数据集进行预处理,得到训练数据集。
63.在获取语音数据集后,可以对语音数据集进行预处理,得到训练数据集。预处理是指在训练语音识别、语音合成或其他语音相关任务之前,对语音数据集进行的一系列标准化、特征提取、噪声抑制等处理,目的是使原始的语音数据集更易于使用和分析,从而提高模型的性能和准确率。
64.在一些具体的实现方式中,上述预处理可以包括数据清洗和标注处理、声音处理、特征提取处理、数据切割处理和数据增强处理中的一种或多种。
65.具体的,数据清理和标注处理指的是,去除语音数据集中无效的数据(比如噪声、静音)并对语音数据集进行标注(比如音素标注、语音情感标注等)。
66.声音处理指的是消除语音数据集中的衰减和噪声,对不同的语音数据进行增强或抑制,去除背景噪声和杂音。
67.特征提取处理指的是从语音数据集中提取各种特征并编码,比如获得梅尔频率倒谱系数(mel-scale frequency cepstral coefficients,mfcc)、线性预测编码(linear predictive coding,lpc)等。
68.数据切割处理指的是将长时间的语音数据切分为多个短段以便于后续模型的训练。
69.数据增强处理指的是利用各种技术来扩充语音数据的多样性,例如改变语音的语速、语调、语气等方式产生新的训练数据。
70.由此,对语音数据集进行预处理,可以提高后续的模型性能和准确率,通过去除不必要或无效的数据,以及提取有价值的特征,减少噪声干扰,能够使训练出来的模型更加准确和鲁棒;还可以提高训练效率,通过对原始语音信号进行切割、编码等处理,可以大大减少后续的模型训练时间;还可以提高数据可用性,增强声音质量和多样性,使后续训练的语音合成模型更具通用性。
71.s103:根据训练数据集训练源网络模型,以合成语音合成模型,源网络模型为波网网络模型或塔科特龙网络模型。
72.根据训练数据集训练源网络模型,以合成语音合成模型。上述源网络模型可以是波网(wavenet)网络模型或塔科特龙(tacotron)网络模型。
73.具体的,wavenet网络模型是一种基于卷积神经网络的语音合成模型,它能够直接从文本或者声学特征映射到音频波形,自动地捕捉声音的语调和韵律特征。它生成的语音音质高,语音表现力强。但是模型参数量大,计算复杂度高。
74.tacotron网络模型是一种端到端的基于注意力机制的语音合成模型,该模型采用编码器-解码器结构,以及注意力机制来改善语音的自然度和流畅度。它还引入了一些新的技术,例如预测式帧间跳频、动态时间规整机制等,增强了模型的稳定性和原始性。
75.在一些具体的实现方式中,上述语音合成模型的神经网络基础模型可以是tacotron网络模型,tacotron网络模型是一个基于带注意力机制的编码器-解码器结构的端到端的生成式语音合成模型。该tacotron网络模型可以包括如下三个模块:
76.第一,tacotron模块。以训练数据集中的每个训练数据的字符为输入,从而输出声谱图(spectrogram)。声谱图是一个信号的频谱随时间变化的直观表示。可以理解的是,上述tacotron模块不需要音素级别的对齐。
77.第二,一维卷积库高速网络双向门控循环单元(1-d convolution bank+highway network+bidirectional gru,cbhg)模块。该模块由由一个一维卷积滤波器组、最大池化层、一维卷积映射层、高速公路网络(highway)以及一个双向门控循环单元(recurrent neural network,rnn)组成,同时还使用了残差连接。在该模块的所有卷积层中,均使用了批归一化。
78.第三,后处理网络和波形合成模块。在语音合成模型训练阶段,每个批处理(batch)中的序列长短不一,因此除最长的序列外,每个batch中的所有训练序列会进行零填充帧的添加处理。当语音合成模型训练阶段没有进行损失掩膜操作,因此训练出来的最终的语音合成模型不知道何时才能够停止合成,从而导致合成的语音尾部有噪声。因此,可以使后处理网络和波形合成模块的输出设置为语音波形,由此解决没有进行损失掩膜操作导致的模型合成的语音尾部有噪声或重复发音的问题。具体的,将序列到序列的目标输出转换成为可以被合成为波形的目标表达。因为tacotron模型简单地使用格里芬-林(griffin-lim)重构算法作为合成器,故后处理网络故将预测的频谱的幅值提高至1.2倍,再使用griffin-lim算法从预测出的线性刻度声谱图合成为语音波形。
79.可以理解的是,在训练生产语音合成模型后,还可以获取测试语音数据,将测试语音数据输入至语音合成模型中,以得到测试用的对应的语音合成结果。随后,可以根据对应的语音合成结果进行评分,以判断语音合成模型的优劣。
80.具体的,上述评分的方法可以是平均主观意见分方法(mean opinion score,mos),还可以是失真等级评分方法(degradation category rating,dcr)和相对等级评分方法(comparative category rating,ccr)等。需要说明的是,对于具体的评分方法,本技术不做限定。
81.参见图1b,该图为本技术实施例提供的一种平均主观意见分方法的评分示意图。由图可知,若发音清晰、完全可懂、非常流程,总体挺感很好,那么将评为等级优、分数5;若发音清晰、可懂,韵律节奏处理上没有大问题,但有时轻重或节奏处理存在偏差,那么将评为等级良、分数4;若基本可以听懂,词内发音较为流畅,但韵律节奏问题较多,整体感觉不流畅,那么将评为等级中、分数3;若一些关键词听不清楚,或音节间停顿感较重,近似单音节生拼硬凑,那么将评为等级差、分数2;若发音不清晰,很难听懂,基本没有语气,那么将评为等级劣、分数1。
82.s104:获取合成数据。
83.可以理解的,合成数据指的是需要进行语音合成的数据。
84.s105:将合成数据输入至语音合成模型中,以得到语音合成结果。
85.综上所述,本技术公开了一种语音合成方法,该方法包括:获取语音数据集;对语音数据集进行预处理,以获取训练数据集;根据训练数据集,训练语音合成模型;获取合成数据;将合成数据输入至语音合成模型中,以执行语音合成。由此,通过训练数据集训练波网网络模型或塔科特龙网络模型,可以生成语音合成模型,使得该语音生成模型能够合成语音自然度、情感度高的语音,提升用户的语音合成体验。
86.参见图2,该图为本技术实施例提供的一种语音合成装置的示意图。该语音合成装置200包括:第一获取模块201、第二获取模块202、训练模块203、第三获取模块204和执行模块205。
87.具体的,第一获取模块201用于获取语音数据集;第二获取模块202用于对语音数据集进行预处理,以获取训练数据集;训练模块203用于根据所述训练数据集训练源网络模型,以合成语音合成模型,所述源网络模型为波网网络模型或塔科特龙网络模型;第三获取模块204用于获取合成数据;执行模块205用于将合成数据输入至语音合成模型中,以执行语音合成。
88.在一些具体的实现方式中,第一获取模块201包括:第一获取子模块、判断模块和第二获取子模块。具体的,第一获取子模块用于获取源网络模型;判断模块用于判断源网络模型的收敛效果是否符合要求;第二获取子模块用于若是,则在源网络模型中获取语音数据集。
89.在一些具体的实现方式中,判断模块具体用于:判断源网络模型的损失值是否不变;或,判断源网络模型是否没有震荡或没有过拟合;或,判断源网络模型的目标指标是否达到预设阈值。
90.在一些具体的实现方式中,上述预处理包括数据清洗处理、数据标注处理、声音处理、特征提取处理、数据切割处理和数据增强处理中的一种或多种。
91.在一些具体的实现方式中,上述语音合成模型包括塔科特龙模块、一维卷积库高速网络双向门控循环单元模块、以及后处理网络和波形合成模块;
92.一维卷积库高速网络双向门控循环单元模块由一维卷积滤波器组、最大池化层、一维卷积映射层、高速公路网络和双向门控循环单元残差连接而成;后处理网络和波形合成模块使用格里芬-林重构算法作为合成器。
93.综上所述,本技术公开了一种语音合成装置,通过第一获取模块、第二获取模块、训练模块、第三获取模块和执行模块,通过训练数据集训练波网网络模型或塔科特龙网络模型,可以生成语音合成模型,使得该语音生成模型能够合成语音自然度、情感度高的语音,提升用户的语音合成体验。
94.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
95.参见图3,该图为本技术实施例提供的一种计算机可读介质的示意图。该计算机可读介质300上存储有计算机程序311,该计算机程序311被处理器执行时实现上述图1a的语音合成方法的步骤。
96.需要说明的是,本技术的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
97.需要说明的是,本技术上述的机器可读介质可以是计算机可读信号介质或者计算
机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
98.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
99.参见图4,该图为本技术实施例提供的一种服务器的硬件结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序440或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
100.服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
101.上述实施例中由语音合成方法所执行的步骤可以基于该图4所示的服务器结构。
102.还需要说明的,根据本技术的实施例,上述图1a中的流程示意图描述的语音合成方法的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行上述图1的流程示意图中所示的方法的程序代码。
103.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
104.虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本技术的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
105.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
技术特征:
1.一种语音合成方法,其特征在于,所述方法包括:获取语音数据集;对所述语音数据集进行预处理,以获取训练数据集;根据所述训练数据集训练源网络模型,以合成语音合成模型,所述源网络模型为波网网络模型或塔科特龙网络模型;获取合成数据;将所述合成数据输入至所述语音合成模型中,以执行语音合成。2.根据权利要求1所述的方法,其特征在于,所述获取语音数据集,包括:获取源网络模型;判断所述源网络模型的收敛效果是否符合要求;若是,则在所述源网络模型中获取语音数据集。3.根据权利要求2所述的方法,其特征在于,所述判断所述源网络模型的收敛效果是否符合要求,包括:判断所述源网络模型的损失值是否不变;或,判断所述源网络模型是否没有震荡或没有过拟合;或,判断所述源网络模型的目标指标是否达到预设阈值。4.根据权利要求1所述的方法,其特征在于,所述预处理包括数据清洗处理、数据标注处理、声音处理、特征提取处理、数据切割处理和数据增强处理中的一种或多种。5.根据权利要求1所述的方法,其特征在于,所述塔科特龙网络模型包括塔科特龙模块、一维卷积库高速网络双向门控循环单元模块、以及后处理网络和波形合成模块;所述一维卷积库高速网络双向门控循环单元模块由一维卷积滤波器组、最大池化层、一维卷积映射层、高速公路网络和双向门控循环单元残差连接而成;所述后处理网络和所述波形合成模块使用格里芬-林重构算法作为合成器。6.一种语音合成装置,其特征在于,所述装置包括:第一获取模块、第二获取模块、训练模块、第三获取模块和执行模块;所述第一获取模块,用于获取语音数据集;所述第二获取模块,用于对所述语音数据集进行预处理,以获取训练数据集;所述训练模块,用于根据所述训练数据集训练源网络模型,以合成语音合成模型,所述源网络模型为波网网络模型或塔科特龙网络模型;所述第三获取模块,用于获取合成数据;所述执行模块,用于将所述合成数据输入至所述语音合成模型中,以执行语音合成。7.根据权利要求6所述的装置,其特征在于,所述第一获取模块包括:第一获取子模块、判断模块和第二获取子模块;所述第一获取子模块,用于获取源网络模型;所述判断模块,用于判断所述源网络模型的收敛效果是否符合要求;所述第二获取子模块,用于若是,则在所述源网络模型中获取语音数据集。8.根据权利要求6所述的装置,其特征在于,所述判断模块具体用于:判断所述源网络模型的损失值是否不变;或,判断所述源网络模型是否没有震荡或没有过拟合;
或,判断所述源网络模型的目标指标是否达到预设阈值。9.一种语音合成设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1至5中任一项所述的方法的各个步骤。10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至5中任一项所述的方法的各个步骤。
技术总结
本申请公开了一种语音合成方法、装置、设备及介质,涉及大数据领域或金融领域。该方法包括:获取语音数据集;对语音数据集进行预处理,以获取训练数据集;根据训练数据集,训练语音合成模型;获取合成数据;将合成数据输入至语音合成模型中,以执行语音合成。由此,通过训练数据集训练波网网络模型或塔科特龙网络模型,可以生成语音合成模型,使得该语音生成模型能够合成语音自然度、情感度高的语音,提升用户的语音合成体验。用户的语音合成体验。用户的语音合成体验。
技术研发人员:姚红艳 苏方兴 季铖
受保护的技术使用者:中国银行股份有限公司
技术研发日:2023.06.26
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:两栖式作业机械的制作方法 下一篇:一种超奈奎斯特系统Cholesky预编码方法