语音合成风格迁移方法、装置、计算机设备及存储介质与流程

未命名 08-29 阅读：110 评论：0

1.本发明涉及语音合成领域，尤其涉及一种语音合成风格迁移方法、装置、计算机设备及存储介质。

背景技术：

2.随着智能语音技术的发展，语音合成得到长足发展，但在很多情况下提供的样本风格语音未包含在训练的样本中，使得合成语音的质量明显下降。因此，我们考虑引入语音风格迁移的方法处理域外风格合成，即考虑引入语音风格迁移的方法处理不在训练样本中的样本风格语音的语音合成。

技术实现要素：

3.基于此，有必要针对上述技术问题，提供一种语音合成风格迁移方法、装置、计算机设备及存储介质，以解决现有语音合成中，当样本风格语音未包含在训练的样本中时，合成的语音质量较差的问题。
4.一种语音合成风格迁移方法，包括：
5.将待转化文本数据输入语音合成编码器中，得到文本编码；
6.通过多级风格编码器获取待迁移风格语音的多级语音风格表征；
7.将所述待转化文本数据和所述多级语音风格表征输入风格预测器进行语音风格预测，得到预测语音风格；
8.对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码；
9.将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据；
10.将所述韵律变化数据和所述风格正则化文本编码输入语音合成解码器中，得到与所述待转化文本数据对应的梅尔频谱图，并根据所述梅尔频谱图生成目标语音。
11.一种语音合成风格迁移装置，包括：
12.文本编码模块，用于将待转化文本数据输入语音合成编码器中，得到文本编码；
13.多级语音风格表征模块，用于通过多级风格编码器获取待迁移风格语音的多级语音风格表征；
14.预测语音风格模块，用于将所述待转化文本数据和所述多级语音风格表征输入风格预测器进行语音风格预测，得到预测语音风格；
15.风格正则化文本编码模块，用于对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码；
16.韵律变化数据模块，用于将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据；
17.目标语音模块，用于将所述韵律变化数据和所述风格正则化文本编码输入语音合
成解码器中，得到与所述待转化文本数据对应的梅尔频谱图，并根据所述梅尔频谱图生成目标语音。
18.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述语音合成风格迁移方法。
19.一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述语音合成风格迁移方法。
20.上述语音合成风格迁移方法、装置、计算机设备及存储介质，通过将待转化文本数据输入语音合成编码器中，得到文本编码；通过多级风格编码器获取待迁移风格语音的多级语音风格表征；将所述待转化文本数据和所述多级语音风格表征输入风格预测器进行语音风格预测，得到预测语音风格；对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码；将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据；将所述韵律变化数据和所述风格正则化文本编码输入语音合成解码器中，得到与所述待转化文本数据对应的梅尔频谱图，并根据所述梅尔频谱图生成目标语音。本发明通过从待迁移风格语音中获取的多级语音风格表征，充分考虑了待迁移风格语音中各个层级的风格表征，即关注了句子中的词、音素的风格以及说话者整体的韵律风格。并对该多级语音风格表征和文本编码进行多风格正则化，消除了语言内容的样式信息，使获得的风格正则化文本编码更加规范化。进一步的，基于规范化的风格正则化文本编码进行韵律变化的预测，使得基于风格正则化文本编码和韵律变化数据合成的目标语音既考虑了待转化文本数据的韵律信息又考虑了待迁移风格语音中的词、音素的风格以及说话者整体的韵律风格，使得合成的目标语音更加流畅，富有情感，提高了合成的目标语音的语音质量。
附图说明
21.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
22.图1是本发明一实施例中语音合成风格迁移方法的一应用环境示意图；
23.图2是本发明一实施例中语音合成风格迁移方法的一流程示意图；
24.图3是本发明一实施例中语音合成风格迁移装置的一结构示意图；
25.图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
26.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
27.本实施例提供的语音合成风格迁移方法，可应用在如图1的应用环境中，其中，客
户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
28.在一实施例中，如图2所示，提供一种语音合成风格迁移方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：
29.s10、将待转化文本数据输入语音合成编码器中，得到文本编码。
30.可理解地，待转化文本数据是指待转化为语音的文本数据。该文本数据包含若干文字信息。
31.s20、通过多级风格编码器获取待迁移风格语音的多级语音风格表征。
32.可理解地，多级风格编码器包括多个不同级别风格的编码器。例如，该多级风格编码器包括词级风格编码器、音素级风格编码器、话语级风格编码器和全局风格编码器。待迁移风格语音是指包含待迁移风格的语音。该待迁移语音可从语音库中获取，也可根据用户的选择确定。其中，语音库中预先存储有若干不同风格的语音。其中，语音的风格可根据说话者的身份、说话者的情感、说话者的韵律等进行分类。多级语音风格表征是指待迁移风格语音的多个不同级别风格的表征。
33.s30、将所述待转化文本数据和所述多级语音风格表征输入风格预测器进行语音风格预测，得到预测语音风格。
34.可理解地，风格预测器用于提取待转化文本数据的上下文语义信息，并基于待转化文本数据的上下文语义信息以及多级语音风格表征进行语音风格预测。其中，语音风格预测是指风格预测器根据待转化文本数据的上下文语义信息以及待迁移风格语音的多个不同级别风格的表征信息，对该待转化文本数据的语音风格进行预测的过程。预测语音风格是指根据待转化文本数据的上下文语义信息和待迁移风格语音的多个不同级别风格的表征信息进行预测得到的语音风格。
35.s40、对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码。
36.可理解地，正则化是为了防止数据过拟合，增强数据的泛化能力。多风格层正则化是指对包含多风格的语言内容进行正则化。在这里，进行多风格层正则化是为了消除语言内容中的样式信息。其中，语言内容包括文本编码和预测语音风格。具体的，可先对文本编码进行初始层正则化，得到初始正则化文本编码，增强文本编码的泛化能力。进而，对增强了泛化能力的初始正则化文本编码和预测语音风格进行多风格层正则化，得到风格正则化文本编码，消除文本编码和预测语音风格中的样式信息，使得到的风格正则化文本编码更加规范化。其中，风格正则化文本编码既是文本编码和预测语音风格进行多风格层正则化得到的编码，既包含待转化文本数据的文本信息又包含预测语音风格的风格信息。
37.s50、将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据。
38.可理解地，音高预测器用于根据输入数据预测与输入数据对应的韵律变化。该音高预测器由2层relu(rectified linear unit，修正线性单元)激活卷积网络组成。其中，每一层都紧跟着初始层正则化和dropout(丢掉)层。具体的，将风格正则化文本编码作为音高预测器输入数据，通过该音高预测器提取风格正则化文本编码的韵律特征，进而，根据该韵
律特征预测风格正则化文本编码的韵律变化，得到韵律变化数据。韵律变化数据用于指示风格正则化文本编码包含的语言内容的韵律变化。
39.s60、将所述韵律变化数据和所述风格正则化文本编码输入语音合成解码器中，得到与所述待转化文本数据对应的梅尔频谱图，并根据所述梅尔频谱图生成目标语音。
40.可理解地，语音合成解码器用于将包含语言内容的输入数据解码成包含语音信息的梅尔频谱图。具体的，将韵律变化数据和风格正则化文本编码输入语音合成解码器中，通过语音合成解码器对韵律变化数据和风格正则化文本编码进行解码合成，得到包含语音信息的梅尔频谱图。进而，将得到的梅尔频谱图输入声码器中进行还原，得到与待转化文本数据对应的目标语音。该目标语音既包含待转化文本数据的文字信息，又包含待迁移风格语音的多级风格信息。
41.在步骤s10-s60中，通过将待转化文本数据输入语音合成编码器中，得到文本编码；通过多级风格编码器获取待迁移风格语音的多级语音风格表征；将所述待转化文本数据和所述多级语音风格表征输入风格预测器进行语音风格预测，得到预测语音风格；对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码；将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据；将所述韵律变化数据和所述风格正则化文本编码输入语音合成解码器中，得到与所述待转化文本数据对应的梅尔频谱图，并根据所述梅尔频谱图生成目标语音。本实施例通过从待迁移风格语音中获取的多级语音风格表征，充分考虑了待迁移风格语音中各个层级的风格表征，即关注了句子中的词、音素的风格以及说话者整体的韵律风格。并对该多级语音风格表征和文本编码进行多风格正则化，消除了语言内容的样式信息，使获得的风格正则化文本编码更加规范化。进一步的，基于规范化的风格正则化文本编码进行韵律变化的预测，使得基于风格正则化文本编码和韵律变化数据合成的目标语音既考虑了待转化文本数据的韵律信息又考虑了待迁移风格语音中的词、音素的风格以及说话者整体的韵律风格，使得合成的目标语音更加流畅，富有情感，提高了合成的目标语音的语音质量。
42.可选地，所述多级风格编码器包括词级风格编码器、音素级风格编码器、话语级风格编码器和全局风格编码器；
43.在步骤s20中，即所述通过多级风格编码器获取待迁移风格语音的多级语音风格表征，包括：
44.s201、将所述待迁移风格语音分别输入所述词级风格编码器、所述音素级风格编码器、所述话语级风格编码器和所述全局风格编码器中，对应得到词级风格表征、音素级风格表征、话语级风格表征和全局风格表征；
45.s202、根据所述词级风格表征、所述音素级风格表征、所述话语级风格表征和所述全局风格表征，得到所述多级语音风格表征。
46.可理解地，词级风格编码器用于获取待迁移风格语音中的词语级风格，并进行编码，得到词级风格表征。其中，词语级风格是指待迁移风格语音中包含的词语的语音风格。音素级风格编码器用于获取待迁移风格语音中的音素级风格，并进行编码，得到音素级风格表征。其中，音素级风格是指待迁移风格语音中包含的音素的语音风格。话语级风格编码器用于获取待迁移风格语音中的话语级风格，并进行编码，得到话语级风格表征。其中，话语级风格是指待迁移风格语音中包含的话语的语音风格。全局风格编码器用于获取待迁移
风格语音中的全局风格，并进行编码，得到全局风格表征。其中，全局风格是指待迁移风格语音的整体的语音风格。多级语音风格表征是基于词级风格表征、音素级风格表征、话语级风格表征和全局风格表征得到的。
47.在步骤s201和s202中，通过多个不同级别的风格编码器获取待迁移风格语音的不同维度的语音风格，得到融合了待迁移风格语音的词级、音素级、话语级以及全局的语音风格的多级语音风格表征，对待迁移风格语音中的语音风格进行了全面细致地分析，使得获取的多级语音风格表征的准确性更高。
48.可选地，在步骤s40中，即所述对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码，包括：
49.s401、对所述文本编码进行初始层正则化，得到初始正则化文本编码；
50.s402、对所述初始正则化文本编码和所述预测语音风格进行多风格层正则化，得到所述风格正则化文本编码。
51.可理解地，正则化是为了防止数据过拟合，增强数据的泛化能力。初始层正则化是指对文本编码进行正则化。多风格层正则化是指对包含多风格的语言内容进行正则化。在这里，进行多风格层正则化是为了消除语言内容中的样式信息。具体地，对初始正则化文本编码和预测语音风格进行多风格层正则化。
52.在本实施中，先对文本编码进行初始层正则化，进而，对已经进行对初始正则化的文本编码再次和预测语音风格一起进行多风格层正则化，是为了更好地消除了语言内容中的样式信息。
53.可选地，在步骤s401之后，即在所述对所述文本编码进行初始层正则化，得到初始正则化文本编码之后，包括：
54.s4011、将所述初始正则化文本编码、所述预测语音风格和所述文本编码输入时间预测器中；
55.s4012、通过所述时间预测器提取所述初始正则化文本编码、所述预测语音风格和所述文本编码的时间特征；
56.s4013、基于所述时间特征，得到所述梅尔频谱图的时长。
57.可理解地，时间预测器用于根据初始正则化文本编码、预测语音风格和文本编码预测生成的语音的时长。具体地，通过该时间预测器提取初始正则化文本编码、预测语音风格和文本编码的时间特征，并基于提取的时间特征，得到最终生成的梅尔频谱图的时长。
58.在本实施例中，基于初始正则化文本编码、预测语音风格和文本编码的时间特征进行时长预测，考虑了三个数据维度的时间特征，使得预测得到的时长更加准确。
59.可选地，在步骤s50中，即所述将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据，包括：
60.s501、将所述风格正则化文本编码输入音高预测器中，通过所述音高预测器提取所述风格正则化文本编码的韵律特征；
61.s502、根据所述韵律特征进行预测所述风格正则化文本编码的韵律变化，得到所述韵律变化数据。
62.可理解地，音高预测器用于预测待转化文本数据的韵律变化数据。具体地，将待转化文本数据的风格正则化文本编码输入音高预测器中，通过该音高预测器提取风格正则化
文本编码的韵律特征，进而，基于获取的韵律特征预测风格正则化文本编码的韵律变化，最终输出待转化文本数据的韵律变化数据。
63.在本实施例中，通过音高预测器预测待转化文本数据中与语音风格无关的韵律变化，使最终生成的目标语音不仅考虑了语音风格还考虑了韵律变化，使获得的目标语音的质量更高，提升用户体验感。
64.可选地，在步骤s60中，即所述根据所述梅尔频谱图生成目标语音，包括：
65.s601、将所述梅尔频谱图输入声码器中，通过所述声码器对所述梅尔频谱图进行音频还原，得到与所述梅尔频谱图对应的目标语音。
66.可理解地，通过声码器将梅尔频谱图还原为语音。具体地，通过声码器对梅尔频谱图进行解码还原，得到与梅尔频谱图对应的目标语音。该目标语音既包含待转化文本数据的文字信息，又包含待迁移风格语音的多级风格信息。
67.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
68.在一实施例中，提供一种语音合成风格迁移装置，该语音合成风格迁移装置与上述实施例中语音合成风格迁移方法一一对应。如图x所示，该语音合成风格迁移装置包括文本编码模块10、多级语音风格表征模块20、预测语音风格模块30、风格正则化文本编码模块40、韵律变化数据模块50和目标语音模块60。各功能模块详细说明如下：
69.文本编码模块10，用于将待转化文本数据输入语音合成编码器中，得到文本编码；
70.多级语音风格表征模块20，用于通过多级风格编码器获取待迁移风格语音的多级语音风格表征；
71.预测语音风格模块30，用于将所述待转化文本数据和所述多级语音风格表征输入风格预测器进行语音风格预测，得到预测语音风格；
72.风格正则化文本编码模块40，用于对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码；
73.韵律变化数据模块50，用于将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据；
74.目标语音模块60，用于将所述韵律变化数据和所述风格正则化文本编码输入语音合成解码器中，得到与所述待转化文本数据对应的梅尔频谱图，并根据所述梅尔频谱图生成目标语音。
75.可选地，所述多级风格编码器包括词级风格编码器、音素级风格编码器、话语级风格编码器和全局风格编码器；
76.多级语音风格表征模块20，包括：
77.风格表征单元，用于将所述待迁移风格语音分别输入所述词级风格编码器、所述音素级风格编码器、所述话语级风格编码器和所述全局风格编码器中，对应得到词级风格表征、音素级风格表征、话语级风格表征和全局风格表征；
78.多级语音风格表征单元，用于根据所述词级风格表征、所述音素级风格表征、所述话语级风格表征和所述全局风格表征，得到所述多级语音风格表征。
79.可选地，风格正则化文本编码模块40，包括：
80.初始层正则化单元，用于对所述文本编码进行初始层正则化，得到初始正则化文本编码；
81.多风格层正则化单元，用于对所述初始正则化文本编码和所述预测语音风格进行多风格层正则化，得到所述风格正则化文本编码。
82.可选地，该语音合成风格迁移装置，还包括：
83.数据输入单元，用于将所述初始正则化文本编码、所述预测语音风格和所述文本编码输入时间预测器中；
84.时间特征单元，用于通过所述时间预测器提取所述初始正则化文本编码、所述预测语音风格和所述文本编码的时间特征；
85.时长单元，用于基于所述时间特征，得到所述梅尔频谱图的时长。
86.可选地，韵律变化数据模块50，包括：
87.韵律特征单元，用于将所述风格正则化文本编码输入音高预测器中，通过所述音高预测器提取所述风格正则化文本编码的韵律特征；
88.韵律变化数据单元，用于根据所述韵律特征进行预测所述风格正则化文本编码的韵律变化，得到所述韵律变化数据。
89.可选地，目标语音模块60，包括：
90.目标语音单元，用于将所述梅尔频谱图输入声码器中，通过所述声码器对所述梅尔频谱图进行音频还原，得到与所述梅尔频谱图对应的目标语音。
91.关于语音合成风格迁移装置的具体限定可以参见上文中对于语音合成风格迁移方法的限定，在此不再赘述。上述语音合成风格迁移装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
92.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储语音合成风格迁移方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音合成风格迁移方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
93.在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：
94.将待转化文本数据输入语音合成编码器中，得到文本编码；
95.通过多级风格编码器获取待迁移风格语音的多级语音风格表征；
96.将所述待转化文本数据和所述多级语音风格表征输入风格预测器进行语音风格预测，得到预测语音风格；
97.对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本
编码；
98.将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据；
99.将所述韵律变化数据和所述风格正则化文本编码输入语音合成解码器中，得到与所述待转化文本数据对应的梅尔频谱图，并根据所述梅尔频谱图生成目标语音。
100.在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：
101.将待转化文本数据输入语音合成编码器中，得到文本编码；
102.通过多级风格编码器获取待迁移风格语音的多级语音风格表征；
103.将所述待转化文本数据和所述多级语音风格表征输入风格预测器进行语音风格预测，得到预测语音风格；
104.对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码；
105.将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据；
106.将所述韵律变化数据和所述风格正则化文本编码输入语音合成解码器中，得到与所述待转化文本数据对应的梅尔频谱图，并根据所述梅尔频谱图生成目标语音。
107.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
108.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。
109.以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

技术特征：
1.一种语音合成风格迁移方法，其特征在于，包括：将待转化文本数据输入语音合成编码器中，得到文本编码；通过多级风格编码器获取待迁移风格语音的多级语音风格表征；将所述待转化文本数据和所述多级语音风格表征输入风格预测器进行语音风格预测，得到预测语音风格；对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码；将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据；将所述韵律变化数据和所述风格正则化文本编码输入语音合成解码器中，得到与所述待转化文本数据对应的梅尔频谱图，并根据所述梅尔频谱图生成目标语音。2.如权利要求1所述的语音合成风格迁移方法，其特征在于，所述多级风格编码器包括词级风格编码器、音素级风格编码器、话语级风格编码器和全局风格编码器；所述通过多级风格编码器获取待迁移风格语音的多级语音风格表征，包括：将所述待迁移风格语音分别输入所述词级风格编码器、所述音素级风格编码器、所述话语级风格编码器和所述全局风格编码器中，对应得到词级风格表征、音素级风格表征、话语级风格表征和全局风格表征；根据所述词级风格表征、所述音素级风格表征、所述话语级风格表征和所述全局风格表征，得到所述多级语音风格表征。3.如权利要求1所述的语音合成风格迁移方法，其特征在于，所述对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码，包括：对所述文本编码进行初始层正则化，得到初始正则化文本编码；对所述初始正则化文本编码和所述预测语音风格进行多风格层正则化，得到所述风格正则化文本编码。4.如权利要求3所述的语音合成风格迁移方法，其特征在于，在所述对所述文本编码进行初始层正则化，得到初始正则化文本编码之后，包括：将所述初始正则化文本编码、所述预测语音风格和所述文本编码输入时间预测器中；通过所述时间预测器提取所述初始正则化文本编码、所述预测语音风格和所述文本编码的时间特征；基于所述时间特征，得到所述梅尔频谱图的时长。5.如权利要求1所述的语音合成风格迁移方法，其特征在于，所述将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据，包括：将所述风格正则化文本编码输入音高预测器中，通过所述音高预测器提取所述风格正则化文本编码的韵律特征；根据所述韵律特征进行预测所述风格正则化文本编码的韵律变化，得到所述韵律变化数据。6.如权利要求1所述的语音合成风格迁移方法，其特征在于，所述根据所述梅尔频谱图生成目标语音，包括：将所述梅尔频谱图输入声码器中，通过所述声码器对所述梅尔频谱图进行音频还原，
得到与所述梅尔频谱图对应的目标语音。7.一种语音合成风格迁移装置，其特征在于，包括：文本编码模块，用于将待转化文本数据输入语音合成编码器中，得到文本编码；多级语音风格表征模块，用于通过多级风格编码器获取待迁移风格语音的多级语音风格表征；预测语音风格模块，用于将所述待转化文本数据和所述多级语音风格表征输入风格预测器进行语音风格预测，得到预测语音风格；风格正则化文本编码模块，用于对所述文本编码和所述预测语音风格进行多风格层正则化，得到风格正则化文本编码；韵律变化数据模块，用于将所述风格正则化文本编码输入音高预测器中，得到所述待转化文本数据的韵律变化数据；目标语音模块，用于将所述韵律变化数据和所述风格正则化文本编码输入语音合成解码器中，得到与所述待转化文本数据对应的梅尔频谱图，并根据所述梅尔频谱图生成目标语音。8.如权利要求7所述的语音合成风格迁移装置，其特征在于，所述多级风格编码器包括词级风格编码器、音素级风格编码器、话语级风格编码器和全局风格编码器；所述多级语音风格表征模块，包括：风格表征单元，用于将所述待迁移风格语音分别输入所述词级风格编码器、所述音素级风格编码器、所述话语级风格编码器和所述全局风格编码器中，对应得到词级风格表征、音素级风格表征、话语级风格表征和全局风格表征；多级语音风格表征单元，用于根据所述词级风格表征、所述音素级风格表征、所述话语级风格表征和所述全局风格表征，得到所述多级语音风格表征。9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述语音合成风格迁移方法。10.一个或多个存储有计算机可读指令的可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至6中任一项所述语音合成风格迁移方法。

技术总结
本发明涉及语音合成领域，尤其涉及一种语音合成风格迁移方法、装置、计算机设备及存储介质。其方法包括：通过将待转化文本数据输入语音合成编码器中，得到文本编码；获取待迁移风格语音的多级语音风格表征；将待转化文本数据和多级语音风格表征输入风格预测器，得到预测语音风格；对文本编码和预测语音风格进行多风格层正则化，得到风格正则化文本编码；将风格正则化文本编码输入音高预测器中，得到韵律变化数据；将韵律变化数据和风格正则化文本编码输入语音合成解码器中，得到梅尔频谱图，并生成目标语音。本发明考虑了韵律信息以及词、音素的风格、说话者整体的韵律风格，提高了目标语音的语音质量。标语音的语音质量。标语音的语音质量。

技术研发人员：张旭龙王健宗
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2023.05.31
技术公布日：2023/8/28

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：快速连接装置及工程机械的制作方法 下一篇：用于桥梁主塔的观光装置及其安装方法与流程

语音合成风格迁移方法、装置、计算机设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

语音合成风格迁移方法、装置、计算机设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表