语音合成方法和装置、电子设备及存储介质与流程

未命名 09-03 阅读:87 评论:0


1.本技术涉及金融科技(fintech)技术领域,尤其涉及一种语音合成方法和装置、电子设备及存储介质。


背景技术:

2.随着人工智能技术的飞速发展,智能语音交互在被广泛应用于金融行业,通过智能语音交互来代替人工客服,以缓解客服业务的压力,实现降本增效。而语音合成属于智能语音交互中重要的一环。语音合成(text to speech,tts)是一种将文本转换为语音的技术,赋予机器像人一样自如说话能力的技术。目前虽然已有很多韵律语音合成方法,但是现有的语音合成方法均忽视了一些问句表达,从而导致问句语音的合成效果不佳。


技术实现要素:

3.本技术实施例的主要目的在于提出一种语音合成方法和装置、电子设备及存储介质,能够合成更加准确的问句语音。
4.为实现上述目的,本技术实施例的第一方面提出了一种语音合成方法,所述方法包括:
5.获取待处理的文本数据,所述文本数据包括问句文本数据;
6.对所述文本数据进行韵律特征提取,得到韵律嵌入特征;
7.根据所述文本数据转换得到音素数据;
8.将所述音素数据和所述韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。
9.在一些实施例,所述对所述文本数据进行韵律特征提取,得到韵律嵌入特征,包括:
10.将所述文本数据输入至预先训练好的文本韵律分析模型;其中,所述文本韵律分析模型包括bert模型和自注意力层;
11.将所述文本数据输入至bert模型,得到文本韵律向量;
12.将所述文本韵律向量输入至所述自注意力层,基于所述自注意力层中设置的自注意力机制对所述文本韵律向量进行处理,得到韵律嵌入特征。
13.在一些实施例,所述文本韵律分析模型还包括分类器,在所述将所述文本韵律向量输入至所述自注意力层,基于所述自注意力机制对所述文本韵律向量进行处理,得到韵律嵌入特征之后,还包括:
14.将所述韵律嵌入特征输入至所述分类器,得到语调种类预测结果,其中,所述语调种类预测结果包括问句语调和陈述句语调;
15.在确定所述语调种类预测结果被正确预测时,将所述韵律嵌入特征输入至所述语音合成模型。
16.在一些实施例,所述将所述音素数据和所述韵律嵌入特征输入至预先训练好的语
音合成模型进行语音合成,得到目标语音数据,包括:
17.对所述音素数据进行编码处理,得到音素嵌入特征;
18.将所述音素嵌入特征和所述韵律嵌入特征输入至所述语音合成模型进行链接,得到合成特征;
19.通过预设的注意力机制来确定所述音素数据所需的频谱;
20.根据所述合成特征和所述频谱对所述音素数据进行解码,得到梅尔频谱;
21.对梅尔频谱进行声学特征转换处理,得到所述目标语音数据。
22.在一些实施例,所述语音合成模型包括音素编码器、链接层、注意力层、解码器和声码器,所述将所述音素数据和所述韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据,包括:
23.通过所述音素编码器对所述音素数据进行编码处理,得到音素嵌入特征;
24.通过所述链接层将所述音素嵌入特征和所述韵律嵌入特征进行链接,得到合成特征;
25.通过所述注意力层中设置的注意力机制来确定所述音素数据所需的频谱;
26.通过所述解码器根据所述合成特征和所述频谱对所述音素数据进行解码,得到梅尔频谱;
27.通过所述声码器对梅尔频谱进行声学特征转换处理,得到所述目标语音数据。
28.在一些实施例,所述方法还包括:
29.确定所述梅尔频谱与原始语音数据之间的重构损失;
30.采用训练数据对所述语音合成模型进行模型训练,直至所述重构损失小于预设阈值。
31.在一些实施例,所述语音合成模型为tacotron语音合成模型。
32.为实现上述目的,本技术实施例的第二方面提出了一种语音合成装置,所述装置包括:
33.获取模块,用于获取待处理的文本数据,所述文本数据包括问句文本数据;
34.提取模块,用于对所述文本数据进行韵律特征提取,得到韵律嵌入特征;
35.转换模块,用于根据所述文本数据转换得到音素数据;
36.合成模块,用于将所述音素数据和所述韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。
37.为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
38.为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
39.本技术提出的语音合成方法和装置、电子设备及存储介质,获取待处理的文本数据,文本数据包括问句文本数据;对文本数据进行韵律特征提取,得到韵律嵌入特征;根据文本数据转换得到音素数据;将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。基于此,通过获取待处理的文本数据,对文本数据进
行韵律特征提取以及根据文本数据转换得到音素数据,将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。本技术实施例通过从文本中直接提取文本中蕴含的韵律相关信息,生成的韵律嵌入特征作为额外输入,输入至语音合成模型,以辅助语音合成模型合成更加准确的问句语音,合成效果佳,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
附图说明
40.图1是本技术实施例提供的语音合成方法的流程图;
41.图2是图1中的步骤s101的流程图;
42.图3是图2中的在步骤s203之后的流程图;
43.图4是图1中的步骤s104的流程图;
44.图5是图1中的步骤s104的另一流程图;
45.图6是本技术实施例提供的语音合成模型进行模型训练的流程图;
46.图7是本技术实施例提供的语音合成模型与文本韵律分析模型的结构示意图;
47.图8是本技术实施例提供的语音合成装置的结构示意图;
48.图9是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
49.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
50.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
51.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
52.首先,对本技术中涉及的若干名词进行解析:
53.人工智能(artificial intelligence,ai):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
54.自然语言处理(natural language processing,nlp):nlp用计算机来处理、理解以及运用人类语言(如中文、英文等),nlp属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解
等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
55.信息抽取(information extraction,ner):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
56.梅尔频谱:人类对声音振幅的感知就是声音的响度。与频率相似,我们听到的音量增大,一般都是非线性放大,而不是线性的,并且使用分贝表对此进行说明。在此等级上,0db是完全静音。从此处开始,测量单位呈指数增长。10db是0db的10倍,20db是100倍,30db是1000倍。在此规模上,高于100db的声音开始变得让人难以忍受。为了以真实的方式处理声音,在处理数据的频率和幅度时,必须通过梅尔标度和分贝标度使用对数标度来转换频谱,这样转换后的频谱就称之为梅尔频谱。
57.音素(phone):是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。
58.编码(encoder):将输入序列转化成一个固定长度的向量。
59.解码(decoder):就是将之前生成的固定向量再转化成输出序列;其中,输入序列可以是文字、语音、图像、视频;输出序列可以是文字、图像。
60.bert:全称是来自变换器的双向编码器表征量(bidirectional encoder representations from transformers),它是google于2018年末开发并发布的一种新型语言模型。与bert模型相似的预训练语言模型例如问答、命名实体识别、自然语言推理、文本分类等在许多自然语言处理任务中发挥着重要作用。bert是一种基于微调的多层双向变换器编码器。
61.注意力机制(attention mechanism):源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度(acuity),只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。例如,人们在阅读时,通常只有少量要被读取的词会被关注和处理。综上,注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。注意力机制这个概念,比较有代表性的是senet。通过对每一个特征层进行全局池化,再到全连接层中找特征之间的联系,最后得到权重划分。
62.自注意力机制:实际上也是一种网络的构型,它想要解决的问题是网络接收的输入是很多向量,并且向量的大小也是不确定的情况,比如机器翻译(序列到序列的问题,机器自己决定多少个标签),词性标注(pos tagging一个向量对应一个标签),语义分析(多个向量对应一个标签)等文字处理问题。自注意力机制主要是根据两两之间的关系来引入权
重,在通道、空间两个层面,通过计算每个单元通道与通道之间、像素点与像素点之间的值,来加强两两之间的联系,进而提高精确度语义分割。
63.tacotron模型:是首个真正意义上的端到端tts深度神经网络模型。与传统语音合成相比,它没有复杂的语音学和声学特征模块,而是仅用《文本序列,语音声谱》配对数据集对神经网络进行训练,因此简化了很多流程。然后tacotron使用griffin-lim算法对网络预测的幅度谱进行相位估计,再接一个短时傅里叶(short-time fourier transform,stft)逆变换,实现端到端语音合成的功能。
64.语音合成:是通过机械的、电子的方法产生人造语音的技术。tts技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
65.在现有技术中,虽然已有很多韵律语音合成方法,但是现有的语音合成方法均忽视了一些问句表达,从而导致问句语音的合成效果不佳。
66.基于此,本技术实施例提供了一种语音合成方法和装置、电子设备及存储介质,获取待处理的文本数据,文本数据包括问句文本数据;对文本数据进行韵律特征提取,得到韵律嵌入特征;根据文本数据转换得到音素数据;将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。基于此,通过获取待处理的文本数据,对文本数据进行韵律特征提取以及根据文本数据转换得到音素数据,将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。本技术实施例通过从文本中直接提取文本中蕴含的韵律相关信息,生成的韵律嵌入特征作为额外输入,输入至语音合成模型,以辅助语音合成模型合成更加准确的问句语音,合成效果佳,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
67.本技术实施例提供的语音合成方法和装置、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本技术实施例中的语音合成方法。
68.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
69.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
70.本技术实施例提供的语音合成方法,涉及人工智能技术领域。本技术实施例提供的语音合成方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现语音合成方法的应用等,但并不局限于以上形式。
71.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服
务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
72.需要说明的是,在本技术的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本技术实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
73.图1是本技术实施例提供的语音合成方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤s101至步骤s104。
74.步骤s101,获取待处理的文本数据,文本数据包括问句文本数据;
75.步骤s102,对文本数据进行韵律特征提取,得到韵律嵌入特征;
76.步骤s103,根据文本数据转换得到音素数据;
77.步骤s104,将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。
78.在一些实施例的步骤s101中,获取待处理的文本数据。文本数据可以为文字文本,文本数据包括问句文本数据,也可以包括陈述句文本数据。例如,在保险场景下的文字文本“您购买保险了吗”,“您购买保险了吗”属于问句文本。需要说明的是,相对于陈述句文本,对于问句文本的语音表达应该采用升调。
79.在一些实施例的步骤s102中,对文本数据进行韵律特征提取,得到韵律嵌入特征。具体地,可以采用文本韵律分析模型对文本数据进行韵律特征提取。例如,可以将问句文本数据输入至预先训练好的文本韵律分析模型,以提取出与问句相关的韵律嵌入特征。对于文本韵律分析模型,其可以包括bert模型、自注意力层和分类器。需要说明的是,文本韵律分析模型在训练阶段,韵律嵌入特征同时会被送入分类器中,以期望预测出正确的语调种类,其中,语调种类包括问句语调和陈述句语调。当该韵律嵌入特征可以被正确预测时,证明该韵律嵌入特征中提取到了足够且正确的语调相关的信息。例如,当问句数据文本被正确预测时,证明韵律嵌入特征提取到了足够且正确的与问句语调相关的信息。后续该韵律嵌入特征会作为额外输入,输入到语音合成模型中。
80.在一些实施例的步骤s103中,根据文本数据转换得到音素数据。对于音素,音素是语言识别领域的最小单元。对于将文本数据转换为音素序列的方法,可以采用:基于文本数据中的句子,提取句子对应的句义特征和句子中的一个或多个连续字符对应的字符语义特征,基于句子对应的句义特征,确定句子对应的语法特征,基于字符语义特征和句子对应的语法特征,确定多音字特征,多音字特征指示字符的多音字发音信息,以及基于语法特征和多音字特征,确定句子对应的音素序列。
81.在一些实施例的步骤s104中,将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。例如,可以将从问句文本数据转换得来的音素数据输入至预先训练好的语音合成模型,可以得到音素嵌入特征。同时将从文本韵律分析模型输出的韵律嵌入特征输入到语音合成模型中,使得音素嵌入特征和韵律嵌入特征链接在一起,以辅助语音合成模型生成带有问句语调的语音。需要说明的是,语音合成模型包括但不限于tacotron语音合成模型。
82.在一些实施例中,可以将语音合成方法应用于智能客服机器人。在金融行业,可以利用智能客服机器人与客户进行智能语音交互,智能客服机器人通过自动识别客户语音及语义,自动回复客户问题,通过语音合成将回复以语音形式呈现,让人机交互闭环。在金融科技场景下,利用本技术实施例的语音合成方法,智能客服机器人能够合成出客户所喜欢的人物的语音,并基于该语音与客户进行业务咨询、业务办理等线上互动交流。由于本技术实施例通过从文本中直接提取文本中蕴含的韵律相关信息,生成的韵律嵌入特征作为额外输入,输入至语音合成模型,以辅助语音合成模型合成更加准确的问句语音,合成效果佳,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
83.本技术实施例所示意的步骤s101至步骤s104,获取待处理的文本数据,文本数据包括问句文本数据;对文本数据进行韵律特征提取,得到韵律嵌入特征;根据文本数据转换得到音素数据;将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。基于此,通过获取待处理的文本数据,对文本数据进行韵律特征提取以及根据文本数据转换得到音素数据,将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。本技术实施例通过从文本中直接提取文本中蕴含的韵律相关信息,生成的韵律嵌入特征作为额外输入,输入至语音合成模型,以辅助语音合成模型合成更加准确的问句语音,合成效果佳,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
84.请参阅图2,在一些实施例中,目标识别模型的训练方法可以包括但不限于包括步骤s201至步骤s203:
85.步骤s201,将文本数据输入至预先训练好的文本韵律分析模型;其中,文本韵律分析模型包括bert模型和自注意力层;
86.步骤s202,将文本数据输入至bert模型,得到文本韵律向量;
87.步骤s203,将文本韵律向量输入至自注意力层,基于自注意力层中设置的自注意力机制对文本韵律向量进行处理,得到韵律嵌入特征。
88.在一些实施例中,文本韵律分析模型可以包括bert模型和自注意力层,在自注意力层中设置有自注意力机制。可以先将文本数据输入至bert模型,得到文本韵律向量。再将文本韵律向量输入至自注意力层,基于自注意力层中设置的自注意力机制对文本韵律向量进行处理,得到韵律嵌入特征。基于此,利用bert模型和自注意力机制从文本数据中直接提取出问句韵律相关的信息,即韵律嵌入特征。
89.请参阅图3,在一些实施例中,在步骤s203之后还可以包括但不限于包括步骤s301至步骤s302:
90.步骤s301,将韵律嵌入特征输入至分类器,得到语调种类预测结果,其中,语调种类预测结果包括问句语调和陈述句语调;
91.步骤s302,在确定语调种类预测结果被正确预测时,将韵律嵌入特征输入至语音合成模型。
92.在一些实施例中,对于文本韵律分析模型,其可以包括bert模型、自注意力层和分类器。文本韵律分析模型在训练阶段,韵律嵌入特征同时会被送入分类器中,以期望预测出正确的语调种类,其中,语调种类包括问句语调和陈述句语调。当该韵律嵌入特征可以被正确预测时,证明该韵律嵌入特征中提取到了足够且正确的语调相关的信息。例如,当问句数据文本被正确预测时,证明韵律嵌入特征提取到了足够且正确的与问句语调相关的信息。后续该韵律嵌入特征会作为额外输入,输入到语音合成模型中。
93.请参阅图4,在一些实施例中,步骤s104可以包括但不限于包括步骤s401至步骤s405:
94.步骤s401,对音素数据进行编码处理,得到音素嵌入特征;
95.步骤s402,将音素嵌入特征和韵律嵌入特征输入至语音合成模型进行链接,得到合成特征;
96.步骤s403,通过预设的注意力机制来确定音素数据所需的频谱;
97.步骤s404,根据合成特征和频谱对音素数据进行解码,得到梅尔频谱;
98.步骤s405,对梅尔频谱进行声学特征转换处理,得到目标语音数据。
99.在一些实施例中,可以对音素数据进行编码处理,得到音素嵌入特征;将音素嵌入特征和韵律嵌入特征输入至语音合成模型进行链接,得到合成特征;通过预设的注意力机制来确定音素数据所需的频谱;根据合成特征和频谱对音素数据进行解码,得到梅尔频谱;对梅尔频谱进行声学特征转换处理,得到目标语音数据。基于此,可以通过将问句韵律相关的韵律嵌入特征输入到语音合成模型,从而可以辅助语音合成模型合成更加准确的问句语音。
100.请参阅图5,在一些实施例中,步骤s104可以包括但不限于包括步骤s501至步骤s505:
101.步骤s501,通过音素编码器对音素数据进行编码处理,得到音素嵌入特征;
102.步骤s502,通过链接层将音素嵌入特征和韵律嵌入特征进行链接,得到合成特征;
103.步骤s503,通过注意力层中设置的注意力机制来确定音素数据所需的频谱;
104.步骤s504,通过解码器根据合成特征和频谱对音素数据进行解码,得到梅尔频谱;
105.步骤s505,通过声码器对梅尔频谱进行声学特征转换处理,得到目标语音数据。
106.在一些实施例中,语音合成模型可以包括音素编码器、链接层、注意力层、解码器和声码器,在注意力层中设置有注意力机制。具体地,可以通过音素编码器对音素数据进行编码处理,得到音素嵌入特征;通过链接层将音素嵌入特征和韵律嵌入特征进行链接,得到合成特征;通过注意力层中设置的注意力机制来确定音素数据所需的频谱;通过解码器根据合成特征和频谱对音素数据进行解码,得到梅尔频谱;通过声码器对梅尔频谱进行声学特征转换处理,得到目标语音数据。基于此,可以通过将问句韵律相关的韵律嵌入特征输入到语音合成模型,从而可以辅助语音合成模型合成更加准确的问句语音。
107.请参阅图6,在一些实施例中,语音合成方法还可以包括但不限于包括步骤s601至步骤s602:
108.步骤s601,确定梅尔频谱与原始语音数据之间的重构损失;
109.步骤s602,采用训练数据对语音合成模型进行模型训练,直至重构损失小于预设阈值。
110.在一些实施例中,对于语音合成模型的训练损失为合成的梅尔频谱与真值之间的损失,即为重构损失。其中,真值为原始语音数据。通过确定梅尔频谱与原始语音数据之间的重构损失,采用训练数据对语音合成模型进行模型训练,直至重构损失小于预设阈值,从而得到训练好的语音合成模型。
111.以下结合附图和具体实施例进一步说明本技术的语音合成方法。
112.如图7所示,图7为语音合成模型与文本韵律分析模型的结构示意图,其中,右侧部分为文本韵律分析模型。文本韵律分析模型用于从文本中直接提取出代表韵律特征的韵律嵌入特征。文本韵律分析模型包括bert模型、自注意力层和分类器。文本韵律分析模型在训练阶段,韵律嵌入特征同时会被送入分类器中,以期望预测出正确的语调种类,其中,语调种类包括问句语调和陈述句语调。当该韵律嵌入特征可以被正确预测时,证明该韵律嵌入特征中提取到了足够且正确的语调相关的信息。例如,当问句数据文本被正确预测时,证明韵律嵌入特征提取到了足够且正确的与问句语调相关的信息。后续该韵律嵌入特征会作为额外输入,输入到左侧部分的语音合成模型中。需要说明的是,语音合成模型可以采用tacotron模型。
113.左侧部分的语音合成模型用于在韵律嵌入特征的辅助下输出文本对应的梅尔频谱。语音合成模型可以包括音素编码器、链接层、注意力层、解码器和声码器,在注意力层中设置有注意力机制。具体地,通过音素编码器对音素数据进行编码处理,得到音素嵌入特征;通过链接层将音素嵌入特征和韵律嵌入特征进行链接,得到合成特征;通过注意力层中设置的注意力机制来确定音素数据所需的频谱;通过解码器根据合成特征和频谱对音素数据进行解码,得到梅尔频谱;通过声码器对梅尔频谱进行声学特征转换处理,得到目标语音数据。基于此,可以通过将问句韵律相关的韵律嵌入特征输入到语音合成模型,从而可以辅助语音合成模型合成更加准确的问句语音。需要说明的是,对于语音合成模型的训练损失为合成的梅尔频谱与原始语音数据之间的损失,即为重构损失。其中,原始语音数据为真值。通过确定梅尔频谱与原始语音数据之间的重构损失,采用训练数据对语音合成模型进行模型训练,直至重构损失小于预设阈值,从而得到训练好的语音合成模型。
114.基于此,本技术实施例通过获取待处理的文本数据,文本数据包括问句文本数据;对文本数据进行韵律特征提取,得到韵律嵌入特征;根据文本数据转换得到音素数据;将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。基于此,通过获取待处理的文本数据,对文本数据进行韵律特征提取以及根据文本数据转换得到音素数据,将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。本技术实施例通过从文本中直接提取文本中蕴含的韵律相关信息,生成的韵律嵌入特征作为额外输入,输入至语音合成模型,以辅助语音合成模型合成更加准确的问句语音,合成效果佳,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
115.请参阅图8,本技术实施例还提供一种语音合成装置,可以实现上述语音合成方法,该装置包括:
116.获取模块810,用于获取待处理的文本数据,文本数据包括问句文本数据;
117.提取模块820,用于对文本数据进行韵律特征提取,得到韵律嵌入特征;
118.转换模块830,用于根据文本数据转换得到音素数据;
119.合成模块840,用于将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。
120.在本技术的一些实施例中,获取模块810获取待处理的文本数据,文本数据包括问句文本数据;提取模块820对文本数据进行韵律特征提取,得到韵律嵌入特征;转换模块830根据文本数据转换得到音素数据;合成模块840将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。
121.在本技术的一些实施例中,获取待处理的文本数据。文本数据可以为文字文本,文本数据包括问句文本数据,也可以包括陈述句文本数据。例如,在保险场景下的文字文本“您购买保险了吗”,“您购买保险了吗”属于问句文本。需要说明的是,相对于陈述句文本,对于问句文本的语音表达应该采用升调。
122.在本技术的一些实施例中,对文本数据进行韵律特征提取,得到韵律嵌入特征。具体地,可以采用文本韵律分析模型对文本数据进行韵律特征提取。例如,可以将问句文本数据输入至预先训练好的文本韵律分析模型,以提取出与问句相关的韵律嵌入特征。对于文本韵律分析模型,其可以包括bert模型、自注意力层和分类器。需要说明的是,文本韵律分析模型在训练阶段,韵律嵌入特征同时会被送入分类器中,以期望预测出正确的语调种类,其中,语调种类包括问句语调和陈述句语调。当该韵律嵌入特征可以被正确预测时,证明该韵律嵌入特征中提取到了足够且正确的语调相关的信息。例如,当问句数据文本被正确预测时,证明韵律嵌入特征提取到了足够且正确的与问句语调相关的信息。后续该韵律嵌入特征会作为额外输入,输入到语音合成模型中。
123.在本技术的一些实施例中,根据文本数据转换得到音素数据。对于音素,音素是语言识别领域的最小单元。对于将文本数据转换为音素序列的方法,可以采用:基于文本数据中的句子,提取句子对应的句义特征和句子中的一个或多个连续字符对应的字符语义特征,基于句子对应的句义特征,确定句子对应的语法特征,基于字符语义特征和句子对应的语法特征,确定多音字特征,多音字特征指示字符的多音字发音信息,以及基于语法特征和多音字特征,确定句子对应的音素序列。
124.在本技术的一些实施例中,将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。例如,可以将从问句文本数据转换得来的音素数据输入至预先训练好的语音合成模型,可以得到音素嵌入特征。同时将从文本韵律分析模型输出的韵律嵌入特征输入到语音合成模型中,使得音素嵌入特征和韵律嵌入特征链接在一起,以辅助语音合成模型生成带有问句语调的语音。需要说明的是,语音合成模型包括但不限于tacotron语音合成模型。
125.基于此,本技术实施例的语音合成装置,获取模块810获取待处理的文本数据,文本数据包括问句文本数据;提取模块820对文本数据进行韵律特征提取,得到韵律嵌入特征;转换模块830根据文本数据转换得到音素数据;合成模块840将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。本技术通过获取待处理的文本数据,文本数据包括问句文本数据;对文本数据进行韵律特征提取,得到韵律嵌入特征;根据文本数据转换得到音素数据;将音素数据和韵律嵌入特征输入至预先训练
好的语音合成模型进行语音合成,得到目标语音数据。基于此,通过获取待处理的文本数据,对文本数据进行韵律特征提取以及根据文本数据转换得到音素数据,将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。本技术实施例通过从文本中直接提取文本中蕴含的韵律相关信息,生成的韵律嵌入特征作为额外输入,输入至语音合成模型,以辅助语音合成模型合成更加准确的问句语音,合成效果佳,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
126.该语音合成装置的具体实施方式与上述语音合成方法的具体实施例基本相同,在此不再赘述。
127.本技术实施例还提供了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述语音合成方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
128.请参阅图9,图9示意了另一实施例的电子设备的硬件结构,电子设备包括:
129.处理器901,可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术实施例所提供的技术方案。
130.存储器902,可以采用只读存储器(readonlymemory,rom)、静态存储设备、动态存储设备或者随机存取存储器(randomaccessmemory,ram)等形式实现。存储器902可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器902中,并由处理器901来调用执行本技术实施例的语音合成方法,即通过获取待处理的文本数据,文本数据包括问句文本数据;对文本数据进行韵律特征提取,得到韵律嵌入特征;根据文本数据转换得到音素数据;将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。基于此,通过获取待处理的文本数据,对文本数据进行韵律特征提取以及根据文本数据转换得到音素数据,将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。本技术实施例通过从文本中直接提取文本中蕴含的韵律相关信息,生成的韵律嵌入特征作为额外输入,输入至语音合成模型,以辅助语音合成模型合成更加准确的问句语音,合成效果佳,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
131.输入/输出接口903,用于实现信息输入及输出。
132.通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
133.总线,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息。
134.其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线实现彼此之间在设备内部的通信连接。
135.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述语音合成方法。
136.存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态
存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
137.本技术实施例提供的语音合成方法、语音合成装置、电子设备及存储介质,通过获取待处理的文本数据,文本数据包括问句文本数据;对文本数据进行韵律特征提取,得到韵律嵌入特征;根据文本数据转换得到音素数据;将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。基于此,通过获取待处理的文本数据,对文本数据进行韵律特征提取以及根据文本数据转换得到音素数据,将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。本技术实施例通过从文本中直接提取文本中蕴含的韵律相关信息,生成的韵律嵌入特征作为额外输入,输入至语音合成模型,以辅助语音合成模型合成更加准确的问句语音,合成效果佳,从而优化金融行业中客户使用智能语音交互的体验,提高了企业客服的服务水平。
138.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
139.本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
140.本领域技术人员可以理解的是,图中示出的技术方案并不构成对本技术实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
141.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
142.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
143.本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖
不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
144.应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
145.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
146.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
147.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
148.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例的方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序的介质。
149.以上参照附图说明了本技术实施例的优选实施例,并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本技术实施例的权利范围之内。

技术特征:
1.一种语音合成方法,其特征在于,所述方法包括:获取待处理的文本数据,所述文本数据包括问句文本数据;对所述文本数据进行韵律特征提取,得到韵律嵌入特征;根据所述文本数据转换得到音素数据;将所述音素数据和所述韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行韵律特征提取,得到韵律嵌入特征,包括:将所述文本数据输入至预先训练好的文本韵律分析模型;其中,所述文本韵律分析模型包括bert模型和自注意力层;将所述文本数据输入至bert模型,得到文本韵律向量;将所述文本韵律向量输入至所述自注意力层,基于所述自注意力层中设置的自注意力机制对所述文本韵律向量进行处理,得到韵律嵌入特征。3.根据权利要求2所述的方法,其特征在于,所述文本韵律分析模型还包括分类器,在所述将所述文本韵律向量输入至所述自注意力层,基于所述自注意力机制对所述文本韵律向量进行处理,得到韵律嵌入特征之后,还包括:将所述韵律嵌入特征输入至所述分类器,得到语调种类预测结果,其中,所述语调种类预测结果包括问句语调和陈述句语调;在确定所述语调种类预测结果被正确预测时,将所述韵律嵌入特征输入至所述语音合成模型。4.根据权利要求1所述的方法,其特征在于,所述将所述音素数据和所述韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据,包括:对所述音素数据进行编码处理,得到音素嵌入特征;将所述音素嵌入特征和所述韵律嵌入特征输入至所述语音合成模型进行链接,得到合成特征;通过预设的注意力机制来确定所述音素数据所需的频谱;根据所述合成特征和所述频谱对所述音素数据进行解码,得到梅尔频谱;对梅尔频谱进行声学特征转换处理,得到所述目标语音数据。5.根据权利要求1所述的方法,其特征在于,所述语音合成模型包括音素编码器、链接层、注意力层、解码器和声码器,所述将所述音素数据和所述韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据,包括:通过所述音素编码器对所述音素数据进行编码处理,得到音素嵌入特征;通过所述链接层将所述音素嵌入特征和所述韵律嵌入特征进行链接,得到合成特征;通过所述注意力层中设置的注意力机制来确定所述音素数据所需的频谱;通过所述解码器根据所述合成特征和所述频谱对所述音素数据进行解码,得到梅尔频谱;通过所述声码器对梅尔频谱进行声学特征转换处理,得到所述目标语音数据。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:确定所述梅尔频谱与原始语音数据之间的重构损失;
采用训练数据对所述语音合成模型进行模型训练,直至所述重构损失小于预设阈值。7.根据权利要求1至6任意一项所述的方法,其特征在于,所述语音合成模型为tacotron语音合成模型。8.一种语音合成装置,其特征在于,所述装置包括:获取模块,用于获取待处理的文本数据,所述文本数据包括问句文本数据;提取模块,用于对所述文本数据进行韵律特征提取,得到韵律嵌入特征;转换模块,用于根据所述文本数据转换得到音素数据;合成模块,用于将所述音素数据和所述韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音合成方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音合成方法。

技术总结
本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质,属于金融科技技术领域。该方法包括:获取待处理的文本数据,文本数据包括问句文本数据;对文本数据进行韵律特征提取,得到韵律嵌入特征;根据文本数据转换得到音素数据;将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成,得到目标语音数据。基于此,本申请实施例通过从文本中直接提取文本中蕴含的韵律相关信息,生成的韵律嵌入特征作为额外输入,输入至语音合成模型,以辅助语音合成模型合成更加准确的问句语音。句语音。句语音。


技术研发人员:张旭龙 王健宗 程宁 唐浩彬
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.16
技术公布日:2023/8/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐