说话人视频合成方法、装置、电子设备及存储介质与流程

未命名 10-21 阅读：106 评论：0

1.本公开涉及音视频技术领域，特别涉及一种说话人视频合成方法、装置、电子设备及存储介质。

背景技术：

2.近年来，说话人视频合成技术得到了迅速发展，在视频会议、虚拟教育和培训场景中应用广泛。说话人视频合成技术主要是在音频的驱动下控制视频中的虚拟人像产生说话的面部表情，为无摄像头等场景提供视觉对应物，提高交流过程的语音理解能力。
3.相关技术中的语音驱动说话人视频合成主要分为基于2dlandmarks(二维面部特征点)的说话人视频合成和基于3d(三维)landmarks的说话人视频合成。基于2d landmarks的说话人合成，通过使用目标说话人的2d面部关键点信息，将另一个说话人的语音合成与目标说话人的面部动作相匹配，生成一个新的视频。3d landmarks的说话人合成，首先将输入的源音频表示为高维特征，用于预测三维人脸模型的面部表情参数，然后将原目标视频中计算的表情参数替换为预测的表情参数，并重新渲染再现的人脸。
4.但是，基于2d landmarks的说话人合成技术的面部关键点提取只提供了面部表情和运动的位置信息，丢失了面部纹理、细节和深度等信息，会出现信息丢失、不连续性和口型同步性差等问题。基于3dlandmarks的说话人合成技术产生的结果不够逼真，口型一致性较差，不足以满足实际场景的应用需求。

技术实现要素：

5.为了解决上述技术问题中的至少一个，本公开提供了一种说话人视频合成方法、装置、电子设备及存储介质。
6.本公开的一个方面提供了这样一种说话人视频合成方法，包括：根据目标视频中的人脸数据，构建由表情参数控制的人像模型；对音频数据进行特征分析，确定所述音频数据对应的预测表情参数；以及基于所述预测表情参数，调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行所述音频数据中说话动作的说话人像。
7.在一些实施方式中，所述对音频数据进行特征分析，确定所述音频数据对应的预测表情参数，包括：对所述音频数据进行特征分析，获取所述音频数据对应的语音特征向量，其中所述语音特征向量用于表征所述音频数据的语义；以及调用表情参数转换模型对所述语音特征向量进行处理，生成对应于所述语音特征向量的预测表情参数。
8.在一些实施方式中，还包括：调用唇部数据库对所述表情参数转换模型进行训练，以使得所述表情参数转换模型具备将所述语音特征向量转换为所述预测表情参数能力。
9.在一些实施方式中，所述基于所述预测表情参数，调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行所述音频数据中说话动作的说话人像，包括：利用所述预测表情参数替换所述人像模型的三维面部参数中的面部表情参数，其中所述三维面部参数还包括面部几何数据、纹理数据、姿势数据和照明数据；在唇部数据库中调取对应
于所述预测表情参数的实际人物图像，其中所述唇部区域掩模为五边形掩模；调用所述唇部区域掩模提取所述实际人物图像的唇部区域图像和人像模型的唇部区域图像；以及由所述唇部区域掩模将所述实际人物图像的唇部区域图像和人像模型的唇部区域图像进行融合，以形成执行所述音频数据中说话动作的说话人像。
10.在一些实施方式中，在所述根据目标视频中的人脸数据，构建由表情参数控制的人像模型之后，还包括：根据所述人像模型的三维面部参数，调用图像生成模型构建对应于所述人像模型的二维图像。
11.在一些实施方式中，在所述调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染之前，还包括：根据覆盖于所述人像模型中唇部区域的预定义掩模，提取关于所述唇部区域的唇部区域掩模。
12.在一些实施方式中，在所述调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行所述音频数据中说话动作的说话人像之后，包括：将所述说话人像贴合至所述目标视频，形成由所述说话人像构成的说话人视频，其中所述说话人视频中的说话动作与所述音频数据同步。
13.本公开的另一个方面提供了这样一种说话人视频合成装置，包括：人像模型构建模块，用于根据目标视频中的人脸数据，构建由表情参数控制的人像模型；表情参数确定模块，用于对音频数据进行特征分析，确定所述音频数据对应的预测表情参数；以及说话人像生成模块，用于基于所述预测表情参数，调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行所述音频数据中说话动作的说话人像。
14.本公开的又一个方面提供了这样一种电子设备，包括：存储器，所述存储器存储执行指令；以及处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述任一实施方式所述的说话人视频合成方法。
15.本公开的再一个方面提供了这样一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述任一实施方式所述的说话人视频合成方法。
附图说明
16.附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。
17.图1为本公开示例性实施方式的说话人视频合成方法流程图。
18.图2为本公开示例性实施方式的说话人视频合成方法架构图。
19.图3为本公开示例性实施方式的说话人视频合成方法装置框图。
具体实施方式
20.下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。
21.需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可
以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
22.除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
23.在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。
24.当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。
25.本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
26.图1为本公开示例性实施方式的说话人视频合成方法流程图；图2为本公开示例性实施方式的说话人视频合成方法架构图。下面结合图1和图2对本公开的说话人视频合成方法s100进行详细说明。
27.步骤s102，根据目标视频中的人脸数据，构建由表情参数控制的人像模型。
28.目标视频指的是包含原型人物的实际拍摄结果，原型人物在目标视频中具有面部表情，还具有个性化的面部几何、纹理、姿势和肤色等真实人物特征。当然，目标视频还记录有原型人物的肢体动作、背景环境等信息。
29.人脸数据是对目标视频中原型人物的面部追踪结果，包括面部表情参数、面部几何数据、纹理数据、姿势数据和照明数据等。通过人脸数据，可以使得目标视频呈现真实的人物形象。
30.人像模型是根据人脸数据构建的包含人物面部信息的虚拟人物，并且人像模型可以通过调整人脸数据中的面部表情参数呈现相应的表情和面部动作。换言之，由于实际拍摄的原型人物是无法通过调整参数进行表情控制的，为了使得目标视频中原型人物所对应的人像呈现我们需要的表情和面部动作，因此通过将原型人物映射为人像模型，实现表情
参数调控人像面部动作的目的。
31.步骤s104，对音频数据进行特征分析，确定音频数据对应的预测表情参数。
32.音频数据是需要通过人像模型同步口型的声音信号，通常包含有语义信息。音频数据的发声主体通常为目标视频中的人物，但是单纯的音频数据无法使对话的相对方直观地看到发声主体的口型，不便于理解音频数据的语义信息，也难以给对话的相对方视觉对应物，交互体验不好。
33.音频数据对应有表征语义的信息，还包含了发生主体的情感特征、音色、音调等个性化数据。因此，通过挖掘音频数据中的语音特征，可以获得对应于该音频数据的预测表情参数，也即根据音频数据可以预测到说话者的口型和表情。当然，由音频数据至预测表情参数的转换过程采用了表情参数转换模型实现，这个模型是神经网络模型，可以根据大量的唇部动作样本进行训练而获得，具备自学习能力。
34.预测表情参数是控制人像模型的面部动作和表情的参数，以预测表情参数替换人像模型当前的面部表情参数，可以使得人像模型呈现音频数据对应的面部动作和表情，也即口型和表情。不同的音频数据由于其所包含的语义和情感不同，所对应的预测表情参数也存在差异，进而使得人像模型呈现的口型和表情不同。
35.当然，音频数据仅用于分析预测表情参数，人像模型的三维面部参数中的面部几何数据、纹理数据、姿势数据和照明数据则与原型人物一致，这样保证了后面渲染之后的说话人像与原型人物的形象一致，说话效果更逼真。
36.步骤s106，基于预测表情参数，调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行音频数据中说话动作的说话人像。
37.唇部区域掩模用于对人像模型对应的二维图像中唇部区域进行遮挡，进而以人像模型中其他区域的作为保留区域，并在唇部区域掩模所遮挡的区域进行唇部区域的说话动作的渲染。使得人像模型中其余部分保留原型人物的特征，仅唇部区域执行音频数据所映射的面部动作和表情。另外，唇部区域掩模设置为五边形，相比于传统的三边形掩模，五边形能够提取出更丰富的面部细节特征，提升了说话人像的逼真效果。当然，其他能够提取出更丰富的面部细节特征的掩模形状均落入本公开的保护范围。
38.说话人像的三维面部参数中的表情参数为预测表情参数，说话人像的唇部区域执行音频数据对应的说话动作，并配以相应表情。但是，保留了原型人物的面部几何、纹理、姿势和肤色等真实人物特征，提升了说话人像与原型人物之间的相似度。
39.在一些实施方式中，首先使用单目三维人脸重建模型根据目标视频的人脸数据，将目标视频中的原型人物重建为由面部表情参数、面部几何数据、纹理数据、姿势数据和照明数据等三维面部参数构成的人像模型。
40.进一步地，对照明和相机等设备进行建模，根据人像模型的三维表情参数，调用图像生成模型构建对应于所述人像模型的二维图像。
41.在一些实施方式中，步骤s104的具体实现方式为：对音频数据进行特征分析，获取音频数据对应的语音特征向量，其中语音特征向量用于表征音频数据的语义；以及调用表情参数转换模型对语音特征向量进行处理，生成对应于语音特征向量的预测表情参数。
42.具体地，音频数据中的语音特征向量是对语音特征进行处理之后的结果，向量形式的语音特征便于传输和处理。语音特征可通过开源框架(例如deepspeech)进行提取。进
一步地，将语音特征转换为向量的形式，形成表征高维语音特征的语音特征向量。语音特征可包括发声主体的语义、音色、音调、语气情绪等个性化内容。更进一步地，调用表情参数转换模型对语音特征向量进行处理，以生成预测表情参数。
43.在这里，表情参数转换模型是一个能够将音频的语音特征向量和预测表情参数进行相互映射的神经网络。
44.当然，表情参数转换模型需要进行训练而获得，即：调用唇部数据库对表情参数转换模型进行训练，以使得表情参数转换模型具备将语音特征向量转换为预测表情参数能力。
45.唇部数据库中存储了大量的唇部动作样本，其包括各个语义和情绪及其对应口型，以唇部数据库作为样本库进行表情参数转换模型的训练，可以使得训练之后的模型具备高效高精准度的预测表情参数获取能力。
46.在一些实施方式中，首先，根据覆盖于人像模型中唇部区域的预定义掩模，提取关于唇部区域的唇部区域掩模。
47.唇部区域为说话时会发生动作的面部区域，通常为下颌、嘴巴和部分鼻子等部分。以能够遮挡住唇部区域的掩模作为唇部区域掩模，进而实现对唇部区域的遮挡，和感兴趣区域的特征提取。
48.步骤s106的执行过程为：利用预测表情参数替换人像模型的三维面部参数中的面部表情参数，其中三维面部参数还包括面部几何数据、纹理数据、姿势数据和照明数据；在唇部数据库中调取对应于预测表情参数的实际人物图像；调用唇部区域掩模提取实际人物图像的唇部区域图像和人像模型的唇部区域图像，其中唇部区域掩模为五边形掩模；以及由唇部区域掩模将实际人物图像的唇部区域图像和人像模型的唇部区域图像进行融合，以形成执行音频数据中说话动作的说话人像。
49.在这里，我们选用正五边形的掩模mask(即五边形掩模)对唇部区域进行遮挡，以最大化的提取面部细节特征，使得选人之后的说话人像更贴近原型人物。当然，其他能够帮助提取更丰富的面部细节特征的掩模形状均落入本公开的保护范围。
50.另外，在形成说话人像的过程中，采用了神经面部渲染器，是一种神经网络模型，能够将输入的三维面部参数转换为可视化的渲染结果。
51.在一些实施方式中，在步骤s106之后，还包括：将说话人像贴合至目标视频，形成由说话人像构成的说话人视频，其中说话人视频中的说话动作与音频数据同步。
52.因为说话人像仅唇部区域的预测表情参数根据音频数据发生了调整，其余三维面部参数均与原型人物相同，因此所渲染出来的说话人像的形象与原型人物的形象相同；另外，说话人像的唇部动作是基于音频数据获得的，因此同步性好。将说话人像贴合至目标视频的唇部区域，所获得的说话人视频中说话人像的说话动作与音频数据各个语音分帧同步，视频所呈现的对话效果逼真。
53.本公开提出的说话人视频合成方法，通过利用人脸数据构建参数化的三维人像模型，并将音频数据中的音频特征转化为预测表情参数，进而对人像模型进行表情参数的替换和其余三维面部参数的保留，实现了说话人像与原型人物的形象一致性，以及说话动作与音频数据的同步性。另外，引入了正五边形的唇部区域掩模，进一步提升了特征提取的丰富度和口型与音频的一致性。
54.图3为本公开示例性实施方式的说话人视频合成方法装置框图。
55.如图3所示，本公开提出了一种说话人视频合成装置1000，包括：人像模型构建模块1002，用于根据目标视频中的人脸数据，构建由表情参数控制的人像模型；表情参数确定模块1004，用于对音频数据进行特征分析，确定音频数据对应的预测表情参数；以及说话人像生成模块1006，用于基于预测表情参数，调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行音频数据中说话动作的说话人像。
56.说话人视频合成装置1000的各个模块是为了实现说话人视频合成方法的各个步骤而提出的，其执行过程和原理可参考前述，不再赘述。
57.该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器1300来实现、或者存储在计算机可读介质内用于由处理器1300来实现、或者通过某种组合来实现。
58.该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线1100和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1300、存储器1300和/或硬件模块的各种其他电路1400连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路1400连接。
59.总线1100可以是工业标准体系结构(isa，industry standard architecture)总线、外部设备互连(pci，peripheral component)总线或扩展工业标准体系结构(eisa，extended industry standard component)总线等。总线1100可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线1100。
60.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器1300执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器1300。在一些实施方式中，软件程序的部分或者全部可以经由存储器1300和/或通信接口而被载入和/或安装。当软件程序加载到存储器1300并由处理器1300执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器1300可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。
61.本公开提出的说话人视频合成装置，通过利用人脸数据构建参数化的三维人像模型，并将音频数据中的音频特征转化为预测表情参数，进而对人像模型进行表情参数的替换和其余三维面部参数的保留，实现了说话人像与原型人物的形象一致性，以及说话动作与音频数据的同步性。另外，引入了正五边形的唇部区域掩模，进一步提升了特征提取的丰富度和口型与音频的一致性。
62.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器1300
的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。
63.就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式只读存储器(cdrom)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。
64.应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
65.本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。
66.此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。
67.本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

技术特征：
1.一种说话人视频合成方法，其特征在于，包括：根据目标视频中的人脸数据，构建由表情参数控制的人像模型；对音频数据进行特征分析，确定所述音频数据对应的预测表情参数；以及基于所述预测表情参数，调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行所述音频数据中说话动作的说话人像。2.根据权利要求1所述的说话人视频合成方法，其特征在于，所述对音频数据进行特征分析，确定所述音频数据对应的预测表情参数，包括：对所述音频数据进行特征分析，获取所述音频数据对应的语音特征向量，其中所述语音特征向量用于表征所述音频数据的语义；以及调用表情参数转换模型对所述语音特征向量进行处理，生成对应于所述语音特征向量的预测表情参数。3.根据权利要求2所述的说话人视频合成方法，其特征在于，还包括：调用唇部数据库对所述表情参数转换模型进行训练，以使得所述表情参数转换模型具备将所述语音特征向量转换为所述预测表情参数能力。4.根据权利要求1所述的说话人视频合成方法，其特征在于，所述基于所述预测表情参数，调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行所述音频数据中说话动作的说话人像，包括：利用所述预测表情参数替换所述人像模型的三维面部参数中的面部表情参数，其中所述三维面部参数还包括面部几何数据、纹理数据、姿势数据和照明数据；在唇部数据库中调取对应于所述预测表情参数的实际人物图像；调用所述唇部区域掩模提取所述实际人物图像的唇部区域图像和人像模型的唇部区域图像，其中所述唇部区域掩模为五边形掩模；以及由所述唇部区域掩模将所述实际人物图像的唇部区域图像和人像模型的唇部区域图像进行融合，以形成执行所述音频数据中说话动作的说话人像。5.根据权利要求1所述的说话人视频合成方法，其特征在于，在所述根据目标视频中的人脸数据，构建由表情参数控制的人像模型之后，还包括：根据所述人像模型的三维面部参数，调用图像生成模型构建对应于所述人像模型的二维图像。6.根据权利要求1所述的说话人视频合成方法，其特征在于，在所述调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染之前，还包括：根据覆盖于所述人像模型中唇部区域的预定义掩模，提取关于所述唇部区域的唇部区域掩模。7.根据权利要求1所述的说话人视频合成方法，其特征在于，在所述调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行所述音频数据中说话动作的说话人像之后，包括：将所述说话人像贴合至所述目标视频，形成由所述说话人像构成的说话人视频，其中所述说话人视频中的说话动作与所述音频数据同步。8.一种说话人视频合成装置，其特征在于，包括：人像模型构建模块，用于根据目标视频中的人脸数据，构建由表情参数控制的人像模
型；表情参数确定模块，用于对音频数据进行特征分析，确定所述音频数据对应的预测表情参数；以及说话人像生成模块，用于基于所述预测表情参数，调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行所述音频数据中说话动作的说话人像。9.一种电子设备，其特征在于，包括：存储器，所述存储器存储执行指令；以及处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行权利要求1至7中任一项所述的说话人视频合成方法。10.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的说话人视频合成方法。

技术总结
本公开提供了一种说话人视频合成方法，包括：根据目标视频中的人脸数据，构建由表情参数控制的人像模型；对音频数据进行特征分析，确定音频数据对应的预测表情参数；以及基于预测表情参数，调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行音频数据中说话动作的说话人像。本公开还提供了一种说话人视频合成装置、电子设备及存储介质。电子设备及存储介质。电子设备及存储介质。

技术研发人员：祝阅兵李永源李梅陈云琳
受保护的技术使用者：上海墨百意信息科技有限公司
技术研发日：2023.07.12
技术公布日：2023/10/19

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

说话人视频合成方法、装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

说话人视频合成方法、装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表