虚拟形象视频的生成方法、装置、电子设备和存储介质与流程

未命名 08-29 阅读:110 评论:0


1.本技术涉及计算机技术领域,更具体地,涉及一种虚拟形象视频的生成方法、装置、电子设备和存储介质。


背景技术:

2.随着技术的发展和社会的需求,越来越多的虚拟形象被应用于日常生活场景中,例如新闻播报、聊天交互等,因此需要为虚拟形象配置面部表情、肢体语言等参数以提升虚拟形象与用户的交互体验。
3.现有技术中,通过真人动作捕捉、用户命令驱动以及人工配置动作或特定场景下的算法动作生成等配置方法生成虚拟形象视频,由于过于依赖人工操作以及特定场景下的配置,造成虚拟形象视频的生成效率低。
4.因此,如何更加高效的生成虚拟形象视频,是目前有待解决的技术问题。
5.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

6.本技术实施例提出了一种虚拟形象视频的生成方法、装置、电子设备和存储介质,用以更加高效的生成虚拟形象视频。
7.第一方面,提供一种虚拟形象视频的生成方法,所述方法包括:获取待播报的目标文本,根据所述目标文本生成目标音频;获取与目标虚拟形象对应的动作变化数据集,其中,所述动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,所述动作变化数据为所述目标虚拟形象在播报各所述样本音素时产生的动作变化数据;将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集;驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联;将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报所述目标文本的目标视频。
8.第二方面,提供一种虚拟形象视频的生成装置,所述装置包括:生成模块,用于获取待播报的目标文本,根据所述目标文本生成目标音频;获取模块,用于获取与目标虚拟形象对应的动作变化数据集,其中,所述动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,所述动作变化数据为所述目标虚拟形象在播报各所述样本音素时产生的动作变化数据;比对模块,用于将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集;驱动模块,用于驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联;融合模块,用于将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报
所述目标文本的目标视频。
9.第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的虚拟形象视频的生成方法。
10.第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的虚拟形象视频的生成方法。
11.通过应用以上技术方案,获取待播报的目标文本,根据目标文本生成目标音频;获取与目标虚拟形象对应的动作变化数据集,其中,动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,动作变化数据为目标虚拟形象在播报各样本音素时产生的动作变化数据;将目标音频中各目标音素与各样本音素进行比对,根据比对结果从动作变化数据集中得到与各目标音素匹配的目标动作变化数据集;驱动目标虚拟形象执行与目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,情绪标签与目标文本关联;将目标音频与动作表情视频融合,生成目标虚拟形象播报目标文本的目标视频,以此通过待播报的文本和相应的动作变化数据集即可生成目标虚拟形象的播报视频,从而实现了更加高效的生成虚拟形象视频。
附图说明
12.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
13.图1示出了本发明实施例提出的一种虚拟形象视频的生成方法的流程示意图;
14.图2示出了本发明实施例中确定情绪标签的流程示意图;
15.图3示出了本发明另一实施例提出的一种虚拟形象视频的生成方法的流程示意图;
16.图4示出了本发明实施例提出的一种虚拟形象视频的生成装置的结构示意图;
17.图5示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
18.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
19.需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由权利要求部分指出。
20.应当理解的是,本技术并不局限于下面已经描述并在附图中示出的精确结构,并
且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
21.本技术可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
22.本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
23.本技术实施例提供一种虚拟形象视频的生成方法,如图1所示,该方法包括以下步骤:
24.步骤s101,获取待播报的目标文本,根据所述目标文本生成目标音频。
25.本实施例中,待播报的目标文本可以是用户上传或从其他服务器获取的文本数据,后续使数字人对目标文本的内容进行播报。在获取目标文本后,根据目标文本生成目标音频,后续将目标音频作为数字人视频中数字人发出的声音。具体的,可基于语音合成算法对目标文本进行语音合成处理,得到目标音频。目标音频可采用现有技术中的不同音频格式,本领域技术人员可灵活选用。
26.在本技术一些实施例中,所述根据所述目标文本生成目标音频,包括:
27.基于预设自编码模型生成与所述目标文本对应的发音编码;
28.将符合预设发音风格的预设语音片段输入预设发音特征编码器,生成特征编码;
29.将所述发音编码和所述特征编码进行合成,得到合成编码;
30.将所述合成编码输入预设解码器,得到所述目标音频。
31.本实施例中,预设自编码模型为训练好的基于注意力的自编码模型,先将目标文本进行分句和分词预处理后,输入预设自编码模型,根据预设自编码模型的输出得到发音编码,其中,预设自编码模型可由字符嵌入网络、多层全连接、一维卷积神经网络以及多层循环神经网络组成。
32.预设语音片段是一段符合预设发音风格的参考语音,用于使目标音频符合预设发音风格,将预设语音片段输入预设发音特征编码器,得到相应的特征编码,其中,预设发音特征编码器可由多层二维卷积神经网络和多层循环神经网络组成。预设发音特征编码器的训练过程可包括:获取一组包括不同年龄、性别和地区的说话人发出的不同语言的样本语音,将各样本语音输入到预设神经网络模型内,然后获取预设神经网络模型内的输出值,将输出值与输入值比较,计算损失函数,根据损失函数来调整预设神经网络模型内中的二维卷积神经网络和循环神经网络的权重参数,直到检测出损失函数满足了收敛的判定条件,则停止训练,得到预设发音特征编码器。
33.在得到发音编码和特征编码后,将两者进行合成,得到合成编码,最后将合成编码输入预设解码器进行解码,得到目标音频。其中,预设解码器可由基于注意力机制的循环神经网络、多层循环神经网络以及多层一维卷积神经网络和全连接神经网络组成。
34.通过将预设语音片段的预设发音风格加入目标音频,可以使目标音频的发音符合用户喜好的发音风格,提升了用户体验。
35.步骤s102,获取与目标虚拟形象对应的动作变化数据集。
36.本实施例中,预先设置有多个预设虚拟形象,目标虚拟形象可以是根据用户的选择指令确定的,也可以是按用户的级别或属性自动选定的,还可以是随机选定的一个预设虚拟形象。每个预设虚拟形象分别对应一个动作变化数据集,在确定目标虚拟形象后,从各动作变化数据集中获取与目标虚拟形象对应的动作变化数据集。其中,动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,动作变化数据为目标虚拟形象在播报各样本音素时产生的动作变化数据。
37.其中,动作变化数据具体可以是与发音动作对应的预设活动部位的向量变化数据,发音动作例如可以包括“音素(具体音素发音)”对应的发音动作、“过渡(音素a到音素b)”对应的发音动作、“休息(吸气、笑等)”对应的发音动作,预设活动部位可以为目标虚拟形象的五官、面部轮廓、手臂、腿等部位。
38.步骤s103,将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集。
39.从目标音频中获取各目标音素,将各目标音素与各样本音素进行比对,确定与各目标音素对应的目标样本音素,将目标样本音素作为比对结果,根据比对结果从动作变化数据集中筛选出与目标样本音素对应的动作变化数据,并形成目标动作变化数据集。
40.步骤s104,驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联。
41.预先设置与目标文本关联的情绪标签,该情绪标签表征了与目标文本对应的情绪,在确定目标动作变化数据集后,驱动目标虚拟形象执行与目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到与目标虚拟形象对应的动作表情视频。
42.本技术一些实施例中,在得到动作表情视频之后,所述方法还包括:
43.根据所述目标音频的语速对所述动作表情视频的播放速度进行调整,并在所述动作表情视频中存在异常视频帧时,对所述异常视频帧进行平滑补帧处理,其中,所述异常视频帧为满足预设衔接异常判定条件的相邻视频帧。
44.本实施例中,由于获取的动作表情视频可能与目标音频的语速不匹配,会造成音画不同步的问题,通过根据目标音频的语速对动作表情视频的播放速度进行调整,避免了后续将两者融合后出现音画不同步的问题。另外,还基于预设衔接异常判定条件判断动作表情视频中是否存在异常视频帧,该异常视频帧为一组相邻视频帧,其会影响视频的流畅性,若存在异常视频帧,则对异常视频帧进行平滑补帧处理,从而提高了动作表情视频的流畅性。
45.在本技术一些实施例中,在驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频之前,如图2所示,所述方法还包括:
46.步骤s21,基于预训练双向编码表示模型确定所述目标文本中融合了语言先验知识的文本向量。
47.预训练双向编码表示模型即bert(bidirectional encoder representations from transformer)模型,bert模型采用transformer网络作为模型基本结构。bert预训练
模型能够充分利用无监督预训练时学习到的语言先验知识,在模型微调时将其迁移到相应的nlp任务(即表情映射任务和动作映射任务)上。通过bert预训练模型确定出目标文本中融合了语言先验知识的文本向量,语言先验知识表征为bert模型预先训练得到的语言先验知识。
48.步骤s22,将所述文本向量输入目标线性分类器,确定所述文本向量中的多个情绪类别。
49.bert模型中设有多种类型的线性分类器,线性分类器用于将文本向量的类型进行分类。在本实施例中,由于需要提取出的内容为文字中表征为情绪的部分,因此与文本向量所对应的目标线性分类器为情绪识别线性分类器,根据情绪识别线性分类器确定出文本向量中的多个情绪类别。
50.步骤s23,确定所述文本向量在各所述情绪类别中的概率,并将各所述情绪类别中最大概率的情绪类别作为所述情绪标签。
51.确定文本向量在各情绪类别中的概率,并确定各所述情绪类别中最大概率的情绪类别,将其作为情绪标签,从而使情绪标签更加符合目标文本的内容,提高了情绪标签的准确性。
52.举例来说,若目标文本为“欢迎朋友们来到我的直播间”,确定文本向量中的情绪类别以及概率为:高兴,概率80%;惊讶,概率40%;中性,概率30%;生气,概率0%。选取概率最大的“高兴”情绪类别作为情绪标签。
53.可选的,目标线性分类器的训练方式为,通过预设的训练样本进行标注,在特定场景下对bert模型进行微调,将该线性分类器对应的文本映射分类任务的损失函数的最优解作为bert模型和线性分类器的更新参数,从而得到微调后的该类别训练样本下对应的目标线性分类器和微调后的bert模型。
54.在本技术一些实施例中,在基于预训练双向编码表示模型确定所述目标文本中融合了语言先验知识的文本向量之前,所述方法还包括:
55.获取深度自注意力网络;
56.向所述深度自注意力网络输入大于预设数据量的无监督数据,并通过掩蔽语言模型和下句预测训练所述深度自注意力网络,训练完成后得到所述预训练双向编码表示模型。
57.本实施例中,为了训练出所述预训练双向编码表示模型,先获取深度自注意力网络和大于预设数据量的无监督数据,然后将无监督数据输入深度自注意力网络,并通过掩蔽语言模型和下句预测训练深度自注意力网络,即在大规模无监督数据上通过掩蔽语言模型和下句预测这两个预训练任务上进行预训练,训练完成后,得到预训练双向编码表示模型,从而提高了预训练双向编码表示模型的准确性。
58.步骤s105,将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报所述目标文本的目标视频。
59.在得到动作表情视频后,将动作表情视频与目标音频进行融合,使动作表情视频和目标音频匹配,得到目标虚拟形象播报目标文本的目标视频。
60.通过应用以上技术方案,获取待播报的目标文本,根据目标文本生成目标音频;获取与目标虚拟形象对应的动作变化数据集,其中,动作变化数据集包括与样本语音中各样
本音素对应的动作变化数据,动作变化数据为目标虚拟形象在播报各样本音素时产生的动作变化数据;将目标音频中各目标音素与各样本音素进行比对,根据比对结果从动作变化数据集中得到与各目标音素匹配的目标动作变化数据集;驱动目标虚拟形象执行与目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,情绪标签与目标文本关联;将目标音频与动作表情视频融合,生成目标虚拟形象播报目标文本的目标视频,以此通过待播报的文本和相应的动作变化数据集即可生成目标虚拟形象播报的播报视频,从而实现了更加高效的生成虚拟形象视频。
61.本技术实施例还提出了一种虚拟形象视频的生成方法,如图3所示,包括以下步骤:
62.步骤s301,获取待播报的目标文本,根据所述目标文本生成目标音频。
63.本实施例中,待播报的目标文本可以是用户上传或从其他服务器获取的文本数据,后续使数字人对目标文本的内容进行播报。在获取目标文本后,根据目标文本生成目标音频,后续将目标音频作为数字人视频中数字人发出的声音。具体的,可基于语音合成算法对目标文本进行语音合成处理,得到目标音频。目标音频可采用现有技术中的不同音频格式,本领域技术人员可灵活选用。
64.步骤s302,根据所述目标虚拟形象的形象描述参数确定所述目标虚拟形象所属的形象类型。
65.形象描述参数可包括脸型、体重、身高、发型、性格、性别、气质、年龄、职业等,不同的形象类型对应不同的形象描述参数,例如形象类型可包括活泼、严肃、职业、稳重、敏捷、瘦高、矮胖等。根据目标虚拟形象的形象描述参数可从多个预设形象类型中确定目标虚拟形象所属的形象类型。
66.在本技术一些实施例中,所述根据所述目标虚拟形象的形象描述参数确定所述目标虚拟形象所属的形象类型,包括:
67.将所述形象描述参数中与各形象描述类别对应的形象描述子参数作为各形象描述维度上的维度数据,并将所述维度数据作为形象描述坐标;
68.基于knn算法从多个预设形象描述坐标中确定目标形象描述坐标,其中,所述目标形象描述坐标与所述形象描述坐标距离最近,且所述目标形象描述坐标在各所述形象描述维度上与所述形象描述坐标之间的距离均小于预设阈值;
69.根据与所述目标形象描述坐标对应的维度数据确定目标形象描述参数,并将与所述目标形象描述参数对应的预设形象类型作为所述形象类型。
70.本实施例中,在获取形象描述参数后,将形象描述参数中与各形象描述类别对应的形象描述子参数作为各形象描述维度上的维度数据,并将维度数据作为形象描述坐标,例如,若体型形象描述类别对应两个形象描述子参数,分别用于表征头身比和胖/瘦,则该体型形象描述类别对应两个形象描述维度,可以表征为多维空间坐标系中的x坐标轴和z坐标轴;同理,若性格形象描述类别对应两个形象描述子参数,则该性格形象描述类别对应两个形象描述维度,可以表征为多维空间坐标系中的y坐标轴和n坐标轴;如此,通过将形象描述参数中与各形象描述类别对应的所有形象描述子参数,作为各形象描述维度上的维度数据,可以得到形象描述坐标(x,y,z,n

)。
71.然后,基于knn(k-nearestneighbor,k最邻近)算法从多个预设形象描述坐标中确
定目标形象描述坐标,该目标形象描述坐标与形象描述坐标距离最近,且目标形象描述坐标在各形象描述维度上与形象描述坐标之间的距离均小于预设阈值。
72.最后,根据与目标形象描述坐标对应的维度数据确定目标形象描述参数,并将与目标形象描述参数对应的预设形象类型作为目标虚拟形象所属的形象类型,从而使形象类型更加符合形象描述参数,提高了形象类型的准确性。
73.可选的,还可基于余弦距离算法或欧式距离算法等替代上述knn算法。
74.步骤s303,根据所述形象类型和预设对应关系确定所述动作变化数据集,所述预设对应关系为不同预设形象类型和不同预设动作变化数据集之间的对应关系。
75.预先建立不同预设形象类型和不同预设动作变化数据集之间的预设对应关系,在获取形象类型后,根据形象类型和该预设对应关系从多个预设动作变化数据集中确定动作变化数据集,从而提高了动作变化数据集的准确性。
76.步骤s304,将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集。
77.从目标音频中获取各目标音素,将各目标音素与各样本音素进行比对,确定与各目标音素对应的目标样本音素,将目标样本音素作为比对结果,根据比对结果从动作变化数据集中筛选出与目标样本音素对应的动作变化数据,并形成目标动作变化数据集。
78.步骤s305,驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联。
79.预先设置与目标文本关联的情绪标签,该情绪标签表征了与目标文本对应的情绪,在确定目标动作变化数据集后,驱动目标虚拟形象执行与目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到与目标虚拟形象对应的动作表情视频。
80.步骤s306,将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报所述目标文本的目标视频。
81.在得到动作表情视频后,将动作表情视频与目标音频进行融合,使动作表情视频和目标音频匹配,得到目标虚拟形象播报目标文本的目标视频。
82.通过应用以上技术方案,获取待播报的目标文本,根据目标文本生成目标音频;根据目标虚拟形象的形象描述参数确定目标虚拟形象所属的形象类型;根据形象类型和预设对应关系确定动作变化数据集,预设对应关系为不同预设形象类型和不同预设动作变化数据集之间的对应关系;将目标音频中各目标音素与各样本音素进行比对,根据比对结果从动作变化数据集中得到与各目标音素匹配的目标动作变化数据集;驱动目标虚拟形象执行与目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,情绪标签与目标文本关联;将目标音频与动作表情视频融合,生成目标虚拟形象播报目标文本的目标视频,以此通过待播报的文本和相应的动作变化数据集即可生成目标虚拟形象的播报视频,从而实现了更加高效的生成虚拟形象视频。
83.本技术实施例还提出了一种虚拟形象视频的生成装置,如图4所示,所述装置包括:生成模块401,用于获取待播报的目标文本,根据所述目标文本生成目标音频;获取模块402,用于获取与目标虚拟形象对应的动作变化数据集,其中,所述动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,所述动作变化数据为所述目标虚拟形象在播
报各所述样本音素时产生的动作变化数据;比对模块403,用于将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集;驱动模块404,用于驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联;融合模块405,用于将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报所述目标文本的目标视频。
84.在具体的应用场景中,所述装置还包括确定模块,用于:基于预训练双向编码表示模型确定所述目标文本中融合了语言先验知识的文本向量;将所述文本向量输入目标线性分类器,确定所述文本向量中的多个情绪类别;确定所述文本向量在各所述情绪类别中的概率,并将各所述情绪类别中最大概率的情绪类别作为所述情绪标签。
85.在具体的应用场景中,所述确定模块,还用于:获取深度自注意力网络;向所述深度自注意力网络输入大于预设数据量的无监督数据,并通过掩蔽语言模型和下句预测训练所述深度自注意力网络,训练完成后得到所述预训练双向编码表示模型。
86.在具体的应用场景中,所述装置还包括调整模块,用于:根据所述目标音频的语速对所述动作表情视频的播放速度进行调整,并在所述动作表情视频中存在异常视频帧时,对所述异常视频帧进行平滑补帧处理,其中,所述异常视频帧为满足预设衔接异常判定条件的相邻视频帧。
87.在具体的应用场景中,获取模块402,具体用于:根据所述目标虚拟形象的形象描述参数确定所述目标虚拟形象所属的形象类型;根据所述形象类型和预设对应关系确定所述动作变化数据集,所述预设对应关系为不同预设形象类型和不同预设动作变化数据集之间的对应关系。
88.在具体的应用场景中,获取模块402,还具体用于:将所述形象描述参数中与各形象描述类别对应的形象描述子参数作为各形象描述维度上的维度数据,并将所述维度数据作为形象描述坐标;基于knn算法从多个预设形象描述坐标中确定目标形象描述坐标,其中,所述目标形象描述坐标与所述形象描述坐标距离最近,且所述目标形象描述坐标在各所述形象描述维度上与所述形象描述坐标之间的距离均小于预设阈值;根据与所述目标形象描述坐标对应的维度数据确定目标形象描述参数,并将与所述目标形象描述参数对应的预设形象类型作为所述形象类型。
89.在具体的应用场景中,生成模块401,具体用于:基于预设自编码模型生成与所述目标文本对应的发音编码;将符合预设发音风格的预设语音片段输入预设发音特征编码器,生成特征编码;将所述发音编码和所述特征编码进行合成,得到合成编码;将所述合成编码输入预设解码器,得到所述目标音频。
90.通过应用以上技术方案,虚拟形象视频的生成装置包括:生成模块,用于获取待播报的目标文本,根据目标文本生成目标音频;获取模块,用于获取与目标虚拟形象对应的动作变化数据集,其中,动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,动作变化数据为目标虚拟形象在播报各样本音素时产生的动作变化数据;比对模块,用于将目标音频中各目标音素与各样本音素进行比对,根据比对结果从动作变化数据集中得到与各目标音素匹配的目标动作变化数据集;驱动模块,用于驱动目标虚拟形象执行与目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,情绪
标签与目标文本关联;融合模块,用于将目标音频与动作表情视频融合,生成目标虚拟形象播报目标文本的目标视频,以此通过待播报的文本和相应的动作变化数据集即可生成目标虚拟形象的播报视频,从而实现了更加高效的生成虚拟形象视频。
91.本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
92.存储器503,用于存储处理器的可执行指令;
93.处理器501,被配置为经由执行所述可执行指令来执行:
94.获取待播报的目标文本,根据所述目标文本生成目标音频;获取与目标虚拟形象对应的动作变化数据集,其中,所述动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,所述动作变化数据为所述目标虚拟形象在播报各所述样本音素时产生的动作变化数据;将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集;驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联;将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报所述目标文本的目标视频。
95.上述通信总线可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
96.通信接口用于上述终端与其他设备之间的通信。
97.存储器可以包括ram(random access memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
98.上述的处理器可以是通用处理器,包括cpu(central processing unit,中央处理器)、np(network processor,网络处理器)等;还可以是dsp(digital signal processing,数字信号处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
99.在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的虚拟形象视频的生成方法。
100.在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的虚拟形象视频的生成方法。
101.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质
中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘)等。
102.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
103.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
104.以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

技术特征:
1.一种虚拟形象视频的生成方法,其特征在于,所述方法包括:获取待播报的目标文本,根据所述目标文本生成目标音频;获取与目标虚拟形象对应的动作变化数据集,其中,所述动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,所述动作变化数据为所述目标虚拟形象在播报各所述样本音素时产生的动作变化数据;将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集;驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联;将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报所述目标文本的目标视频。2.如权利要求1所述的方法,其特征在于,在驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频之前,所述方法还包括:基于预训练双向编码表示模型确定所述目标文本中融合了语言先验知识的文本向量;将所述文本向量输入目标线性分类器,确定所述文本向量中的多个情绪类别;确定所述文本向量在各所述情绪类别中的概率,并将各所述情绪类别中最大概率的情绪类别作为所述情绪标签。3.如权利要求2所述的方法,其特征在于,在基于预训练双向编码表示模型确定所述目标文本中融合了语言先验知识的文本向量之前,所述方法还包括:获取深度自注意力网络;向所述深度自注意力网络输入大于预设数据量的无监督数据,并通过掩蔽语言模型和下句预测训练所述深度自注意力网络,训练完成后得到所述预训练双向编码表示模型。4.如权利要求1所述的方法,其特征在于,在得到动作表情视频之后,所述方法还包括:根据所述目标音频的语速对所述动作表情视频的播放速度进行调整,并在所述动作表情视频中存在异常视频帧时,对所述异常视频帧进行平滑补帧处理,其中,所述异常视频帧为满足预设衔接异常判定条件的相邻视频帧。5.如权利要求1所述的方法,其特征在于,所述获取与目标虚拟形象对应的动作变化数据集,包括:根据所述目标虚拟形象的形象描述参数确定所述目标虚拟形象所属的形象类型;根据所述形象类型和预设对应关系确定所述动作变化数据集,所述预设对应关系为不同预设形象类型和不同预设动作变化数据集之间的对应关系。6.如权利要求5所述的方法,其特征在于,所述根据所述目标虚拟形象的形象描述参数确定所述目标虚拟形象所属的形象类型,包括:将所述形象描述参数中与各形象描述类别对应的形象描述子参数作为各形象描述维度上的维度数据,并将所述维度数据作为形象描述坐标;基于knn算法从多个预设形象描述坐标中确定目标形象描述坐标,其中,所述目标形象描述坐标与所述形象描述坐标距离最近,且所述目标形象描述坐标在各所述形象描述维度上与所述形象描述坐标之间的距离均小于预设阈值;
根据与所述目标形象描述坐标对应的维度数据确定目标形象描述参数,并将与所述目标形象描述参数对应的预设形象类型作为所述形象类型。7.如权利要求1所述的方法,其特征在于,所述根据所述目标文本生成目标音频,包括:基于预设自编码模型生成与所述目标文本对应的发音编码;将符合预设发音风格的预设语音片段输入预设发音特征编码器,生成特征编码;将所述发音编码和所述特征编码进行合成,得到合成编码;将所述合成编码输入预设解码器,得到所述目标音频。8.一种虚拟形象视频的生成装置,其特征在于,所述装置包括:生成模块,用于获取待播报的目标文本,根据所述目标文本生成目标音频;获取模块,用于获取与目标虚拟形象对应的动作变化数据集,其中,所述动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,所述动作变化数据为所述目标虚拟形象在播报各所述样本音素时产生的动作变化数据;比对模块,用于将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集;驱动模块,用于驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联;融合模块,用于将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报所述目标文本的目标视频。9.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的虚拟形象视频的生成方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的虚拟形象视频的生成方法。

技术总结
本发明公开了一种虚拟形象视频的生成方法、装置、电子设备和存储介质,该方法包括:获取待播报的目标文本,根据目标文本生成目标音频;获取与目标虚拟形象对应的动作变化数据集;将目标音频中各目标音素与各样本音素进行比对,根据比对结果从动作变化数据集中得到与各目标音素匹配的目标动作变化数据集;驱动目标虚拟形象执行与目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,情绪标签与目标文本关联;将目标音频与动作表情视频融合,生成目标虚拟形象播报目标文本的目标视频,以此通过待播报的文本和相应的动作变化数据集即可生成目标虚拟形象的播报视频,从而实现了更加高效的生成虚拟形象视频。形象视频。形象视频。


技术研发人员:沈中熙 钱晓亮
受保护的技术使用者:厦门黑镜科技有限公司
技术研发日:2023.04.24
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐