可交互的多模态风格化二维数字人脸动画生成方法
未命名
10-25
阅读:77
评论:0
1.本发明涉及计算机视觉技术领域,具体地,涉及一种可交互的多模态风格化二维数字人脸动画生成方法。
背景技术:
2.随着计算机图形学、人工智能技术的快速发展,数字人的技术取得长足进步,数字人具有逼真的形象、真实的动作以及智能的交互等特点,从影视、医疗、娱乐领域等多个方面融入人们的日常生活中。
3.从生成数字人的数据结构分类,数字人包括二维数字人和三维数字人。其中,虽然三维数字人能够更加逼真、全面地还原人物的外貌和细节,但是,三维数字人的数据结构稠密复杂,相对于二维数字人来说,技术尚不成熟。在人们的日常生活中,数字人的形象往往通过图片、视频等二维媒介的形式呈现给用户,三维的数字人通过额外的渲染,往往也借助二维的媒介形式呈现给用户,因此,二维数字人在数字人领域占有举足轻重的地位。
4.目前的数字人技术,在设计流程上较为繁琐,耗费大量的人力资源和时间成本,开发设计效率较低,并且,在用户体验角度,一成不变的单一视频风格以及不够清晰的画质影响用户体验。
技术实现要素:
5.针对现有技术中的缺陷,本公开的目的是提供一种可交互的多模态风格化二维数字人脸动画生成方法。
6.为实现上述目的,根据本发明的第一方面,提供一种可交互的多模态风格化二维数字人脸动画生成方法,包括:
7.获取预设的语音数据、预设的图像数据以及用户的互动输入文本;
8.根据所述预设的语音数据和所述用户的互动输入文本,确定数字人的合成语音;
9.将所述预设的图像数据输入预训练的年龄转换模型,确定所述数字人在预设年龄段对应的人物外貌图像;
10.将所述数字人在预设年龄段对应的人物外貌图像和所述数字人的合成语音输入预训练的驱动模型,确定具有音频的二维数字人脸动画;
11.将所述具有音频的二维数字人脸动画输入预训练的人像卡通化模型进行风格化处理,确定具有预设风格的二维数字人脸动画;
12.将所述具有预设风格的二维数字人脸动画输入预训练的视频超分模型进行超分辨率处理,确定经过超分辨率处理的二维数字人脸动画;
13.将所述经过超分辨率处理的二维数字人脸动画和所述数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画。
14.可选地,所述根据所述预设的语音数据和所述用户的互动输入文本,确定数字人的合成语音,包括:
15.将所述用户的互动输入文本输入预训练的语言模型中,确定所述用户和所述预训练的语言模型的互动文本,所述互动文本包括所述用户的互动输入文本和所述预训练的语言模型的应答文本;
16.将所述预设的语音数据输入预训练的声音克隆模型,确定所述数字人的声音特征;
17.将所述数字人的声音特征以及所述互动文本输入所述预训练的声音克隆模型中,确定所述数字人的合成语音。
18.可选地,所述将所述用户的互动输入文本输入预训练的语言模型中,确定所述用户和所述预训练的语言模型的互动文本,包括:
[0019][0020][0021]
其中,表示post访问请求,tn表示在进行第n轮互动时用户的互动输入文本,rn表示在进行第n轮互动时所述预训练的语言模型针对用户的互动输入文本的应答文本,trn表示在进行第n轮互动时用户与所述预训练的语言模型的互动文本,url表示所述预训练的语言模型的端口访问ip地址,post表示本地主机向所述预训练的语言模型发送post访问请求的过程,[tn,tr
n-1
,l,tr1]表示post访问请求的请求体,chat表示在第n轮互动时所述预训练的语言模型针对所述post访问请求进行应答的过程。
[0022]
可选地,所述将所述预设的语音数据输入预训练的声音克隆模型,确定所述数字人的声音特征,包括:
[0023]
fa=f(a)
[0024]
其中,fa表示所述数字人的声音特征,a表示所述预设的语音数据,f表示采用所述预训练的声音克隆模型进行的声音特征提取操作。
[0025]
可选地,将所述数字人的声音特征以及所述互动文本输入所述预训练的声音克隆模型中,确定所述数字人的合成语音,包括:
[0026][0027]
其中,表示所述数字人的合成语音,mock表示采用所述声音克隆模型进行的合成语音操作。
[0028]
可选地,所述将所述预设的图像数据输入预训练的年龄转换模型,确定所述数字人在预设年龄段对应的人物外貌图像,包括:
[0029]
p=sam(i)
[0030]
p=[p1,p2,p3,l,pk]
[0031]
其中,p表示所述数字人在各个年龄段对应的人物外貌图像集合,i表示所述预设的图像数据,pk表示第k个年龄段对应的人物外貌图像,sam表示采用所述预训练的年龄转换模型进行年龄转换操作。
[0032]
可选地,所述将所述数字人在预设年龄段对应的人物形象和所述数字人的合成语音输入预训练的驱动模型,确定具有音频的二维数字人脸动画,包括:
[0033]
p∈p
[0034][0035]
其中,p表示所述数字人在预设年龄段对应的人物外貌图像,v表示所述具有音频的二维数字人脸动画,drive表示采用所述预训练的驱动模型进行的驱动操作。
[0036]
可选地,所述将所述具有音频的二维数字人脸动画输入预训练的人像卡通化模型进行风格化处理,确定具有预设风格的二维数字人脸动画,包括:
[0037]vs
=net(v,s)
[0038]
其中,s表示预设的风格类型集合,vs表示所述具有预设风格的二维数字人脸动画,net表示采用所述预训练的人像卡通化模型进行的风格化处理操作。
[0039]
可选地,所述将所述具有预设风格的二维数字人脸动画输入预训练的视频超分模型进行超分辨率处理,确定经过超分辨率处理的二维数字人脸动画,包括:
[0040]vvsr-s
=vsr(vs)
[0041]
其中,v
vsr-r
表示所述经过超分辨率处理的二维数字人脸动画,vsr表示采用所述预训练的视频超分模型进行的超分辨率处理操作。
[0042]
可选地,所述将所述经过超分辨率处理的二维数字人脸动画和所述数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画,包括:
[0043][0044]
其中,vo表示所述多模态风格化二维数字人脸动画,表示合成处理操作。
[0045]
与现有技术相比,本发明实施例具有如下至少一种有益效果:
[0046]
通过上述技术方案,本公开通过预设的语音数据、预设的图像数据以及用户的互动输入文本,采用预训练的年龄转换模型、预训练的驱动模型,合成具有音频的二维数字人脸动画,能够渐变生成二维数字人动画,并有效地实现用户与二维数字人的互动;通过预训练的人像卡通化模型对二维数字人动画进行风格化处理,二维数字人脸以多样化风格呈现给用户,采用预训练的视频超分模型对二维数字人脸动画进行分辨率处理,提高二维数字人脸动画的清晰度,提高用户的体验质量。
附图说明
[0047]
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0048]
图1是根据一示例性实施例示出的一种可交互的多模态风格化二维数字人脸动画生成方法的流程图。
[0049]
图2是根据一示例性实施例示出的一种确定数字人合成语音的方法的流程图。
具体实施方式
[0050]
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0051]
图1是根据一示例性实施例示出的一种可交互的多模态风格化二维数字人脸动画
生成方法的流程图。如图1所示,一种可交互的多模态风格化二维数字人脸动画生成方法,包括s11至s17。
[0052]
s11,获取预设的语音数据、预设的图像数据以及用户的互动输入文本。
[0053]
s12,根据预设的语音数据和用户的互动输入文本,确定数字人的合成语音。
[0054]
s13,将预设的图像数据输入预训练的年龄转换模型,确定数字人在预设年龄段对应的人物形象。
[0055]
s14,将数字人在预设年龄段对应的人物形象和数字人的合成语音输入预训练的驱动模型,确定具有音频的二维数字人脸动画。
[0056]
s15,将具有音频的二维数字人脸动画输入预训练的人像卡通化模型进行风格化处理,确定具有预设风格的二维数字人脸动画。
[0057]
s16,将具有预设风格的二维数字人脸动画输入预训练的视频超分模型进行超分辨率处理,确定经过超分辨率处理的二维数字人脸动画。
[0058]
s17,将经过超分辨率处理的二维数字人脸动画和数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画。
[0059]
通过上述技术方案,本公开通过预设的语音数据、预设的图像数据以及用户的互动输入文本,采用预训练的年龄转换模型、预训练的驱动模型,合成具有音频的二维数字人脸动画,能够渐变生成二维数字人动画,并有效地实现用户与二维数字人的互动;通过预训练的人像卡通化模型对二维数字人动画进行风格化处理,二维数字人脸以多样化风格呈现给用户,采用预训练的视频超分模型对二维数字人脸动画进行分辨率处理,提高二维数字人脸动画的清晰度,提高用户的体验质量。
[0060]
在一些可能的实施例中,在本公开的s11中,获取预设的语音数据、预设的图像数据以及用户的互动输入文本。
[0061]
其中,预设的语音数据可以采用网络上的语音数据或者真实采集的语音数据,预设的图像数据可以采用网络上或者真实采集的人物图像,预设的语音数据用于合成数字人的声音,预设的图像数据用于合成数字人的人物形象。
[0062]
用户的互动输入文本为在本轮用户与数字人的互动的语音输入文本内容,其中用户一问数字人一答复或者数字人一问用户一答复作为一轮互动。
[0063]
图2是根据一示例性实施例示出的一种确定数字人合成语音的方法的流程图。
[0064]
如图2所示,在一些可能的实施例中,在本公开的s12中,根据预设的语音数据和用户的互动输入文本,确定数字人的合成语音,可以包括s21至s23。
[0065]
s21,将用户的互动输入文本输入预训练的语言模型中,确定用户和预训练的语言模型的互动文本。
[0066]
其中,互动文本包括所述用户的互动输入文本和所述预训练的语言模型的应答文本。
[0067]
在本公开中,预训练的语言模型可以采用chatglm语言模型,可以预先在本地主机上部署chatglm语言模型。用户与chatglm语言模型进行互动时,将chatglm语言模型相对于用户的互动输入文本输出的应答文本作为数字人的应答文本。
[0068]
在一种可能的实施例中,s21还包括:
[0069]
[0070][0071]
其中,表示post访问请求,tn表示在进行第n轮互动时用户的互动输入文本,rn表示在进行第n轮互动时预训练的语言模型针对用户的互动输入文本的应答文本,trn表示在进行第n轮互动时用户与预训练的语言模型的互动文本,url表示预训练的语言模型的端口访问ip地址,post表示本地主机向预训练的语言模型发送post访问请求的过程,chat表示在第n轮互动时预训练的语言模型针对post访问请求进行应答的过程。
[0072]
本地主机向预先部署的chatglm语言模型的开放访问的端口访问ip地址url发送post访问请求,post访问请求的请求体为[tn,tr
n-1
,l,tr1],其中,post访问请求包括字段“prompt”和字段“history”,字段“prompt”表示本轮互动中用户的互动输入文本tn,字段“history”表示在本轮互动之前的n-1轮互动的互动文本[tr
n-1
,
···
,tr1]。
[0073]
chatglm语言模型根据post访问请求输出应答文本rn,并将该应答文本rn作为数字人的应答文本,并且,还可以将该应答文本rn与用户的输入文本tn组成字段“history”中的新元素trn,为用户与chatglm语言模型的第n+1互动做准备。
[0074]
s22,将预设的语音数据输入预训练的声音克隆模型,确定数字人的声音特征。
[0075]
其中,预训练的声音克隆模型可以采用mockingbird声音克隆模型,将预设的语音数据输入该mockingbird声音克隆模型进行声音特征提取操作,提取预设的语音数据的声音特征,并将该声音特征作为数字人的声音特征。
[0076]
在一些可能的实施例中,s22,包括:
[0077]
fa=f(a)
[0078]
其中,fa表示数字人的声音特征,a表示预设的语音数据,f表示采用预训练的声音克隆模型进行的声音特征提取操作。
[0079]
s23,将数字人的声音特征以及互动文本输入预训练的声音克隆模型中,确定数字人的合成语音。
[0080]
其中,预训练的声音克隆模型还可以采用mockingbird声音克隆模型。
[0081]
在本公开中,数字人的合成语音为以所确定的数字人的声音特征对互动文本中的chatglm语言模型输出的应答文本的发声。
[0082]
在一些可能的实施例中,s23包括:
[0083][0084]
其中,表示数字人的合成语音,mock表示采用声音克隆模型进行的合成语音操作。
[0085]
通过上述技术方案,通过用户与预训练的语言模型之间互动,实现用户与数字人之间的互动,并且,在用户与预训练的语言模型的每轮互动中,均参考当轮互动之前的互动文本,以提高本轮互动中预训练的语言模型输出的应答文本的准确率。
[0086]
在一些可能的实施例中,在本公开的s13中,将预设的图像数据输入预训练的年龄转换模型,确定数字人在预设年龄段对应的人物外貌图像,可以包括:
[0087]
p=sam(i)
[0088]
p=[p1,p2,p3,l,pk]
[0089]
其中,p表示数字人在各个年龄段对应的人物外貌图像集合,i表示预设的图像数
据,pk表示第k个年龄段对应的人物外貌图像,sam表示采用预训练的年龄转换模型进行年龄转换操作。
[0090]
在本公开中,预训练的年龄转换模型可以采用sam年龄转换模型,采用sam年龄转换模型生成预设的图像数据所对应的各个年龄段的人物外貌图像,其中,每一年龄段可以根据实际需求进行设定,例如,可以以五岁作为年龄间隔划分年龄段。接上述示例,本公开的数字人在各个年龄段对应的人物外貌图像集合p包括k张人物外貌图像。
[0091]
首先,将预设的图像数据输入sam年龄转换模型中,输出预设的图像数据在预先设定的年龄间隔所划分的各个年龄段对应的人物外貌图像数据集,并将其作为数字人在各个年龄段对应的人物外貌图像。
[0092]
其次,在数字人的人物外貌图像数据集中选择预设的年龄段对应的人物外貌图像作为本轮互动的数字人的人物外貌图像。
[0093]
通过上述技术方案,将图像数据转换为各个年龄段的人物外貌图像,并确定适宜的年龄段的人物外貌图像作为数字人的形象,能够有效提高数字人的逼真程度,提高用户体验质量。
[0094]
在一些可能的实施例中,在本公开的s14中,将数字人在预设年龄段对应的人物外貌图像和数字人的合成语音输入预训练的驱动模型,确定具有音频的二维数字人脸动画,包括:
[0095]
p∈p
[0096][0097]
其中,p表示数字人在预设年龄段对应的人物外貌图像,v表示具有音频的二维数字人脸动画,drive表示采用预训练的驱动模型进行的驱动操作。
[0098]
其中,预训练的驱动模型可以采用sadtalker驱动模型。
[0099]
将数字人在预设年龄段对应的人物外貌图像和数字人的合成语音输入sadtalker驱动模型中以进行二维数字人脸的驱动,以作为具有音频的二维数字人脸动画进行展示。
[0100]
通过上述技术方案,采用预训练的驱动模型将数字人的人物外貌图像和数字人的合成语音驱动为二维的数字人脸动画,采用简便步骤生成二维数字人,提高二维数字人的生成效率。
[0101]
在一些可能的实施例中,在本公开的s15中,将具有音频的二维数字人脸动画输入预训练的人像卡通化模型进行风格化处理,确定具有预设风格的二维数字人脸动画,包括:
[0102]vs
=net(v,s)
[0103]
其中,s表示预设的风格类型集合,vs表示具有预设风格的二维数字人脸动画,net表示采用预训练的人像卡通化模型进行的风格化处理操作。
[0104]
其中,本公开的预训练的人像卡通化模型可以采用dct-net模型,以对二维数字人脸动画进行风格转换,并且,在对二维数字人脸动画进行风格转换过程中,丢弃二维数字人脸动画的原有音频。
[0105]
预设的风格类型集合s可以包括动漫风格(anime)、三维风格(3d)、手绘风格(handdrawn)、素描风格(sketch)、艺术风格(artstyle)、设计风格(design)、插画风格(illustration)七种风格,采用dct-net模型可以将二维数字人脸动画的风格转化为以上七种风格中的至少一种,在进行风格处理操作后,获得无音轨的具有预设风格的二维数字
人脸动画。
[0106]
通过上述技术方案,采用预训练的人像卡通化模型转换二维数字人脸动画的风格,以多样化风格呈现给用户,提高用户的体验质量,并且可以有效提高用户的互动兴致。
[0107]
在一些可能的实施例中,在本公开的s16中,将具有预设风格的二维数字人脸动画输入预训练的视频超分模型进行超分辨率处理,确定经过超分辨率处理的二维数字人脸动画,包括:
[0108]vvsr-s
=vsr(vs)
[0109]
其中,v
vsr-r
表示经过超分辨率处理的二维数字人脸动画,vsr表示采用预训练的视频超分模型进行的超分辨率处理操作。
[0110]
其中,预训练的视频超分模型可以采用basicvsr++模型,并且经过超分辨率处理的二维数字人脸动画为无音轨的二维数字人脸动画。
[0111]
通过上述技术方案,对具有预设风格的二维数字人脸动画进行超分辨率处理,以提高二维数字人脸动画的视频的清晰度,提高用户的体验感。
[0112]
在一些可能的实施例中,在本公开的s17中,将经过超分辨率处理的二维数字人脸动画和数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画,包括:
[0113][0114]
其中,vo表示多模态风格化二维数字人脸动画,表示合成处理操作。
[0115]
可以采用程序ffmpeg将经过超分辨率处理的二维数字人脸动画和数字人的合成语音进行合成处理,合成处理的方式可以采用混剪方式,以将数字人的合成语音嵌入至经过超分辨率处理的二维数字人脸动画的对应位置,为其添加音频。
[0116]
通过上述技术方案,为无音轨的经过超分辨率处理的二维数字人脸动画添加音频,合成完整的多模态风格化二维数字人脸动画,即具有音频的动画视频,能够在视觉、听觉以及语言方面与用户进行智能互动。
[0117]
本公开的步骤s11至s17,每一步均可以单独采纳使用,也可以进行多个步骤的组合采纳使用,均落入本公开的保护范围。
[0118]
在一些可能的实施例中,还可以采用如下步骤生成可交互的多模态风格化二维数字人脸动画。
[0119]
第一步:获取预设的语音数据、预设的图像数据以及用户的互动输入文本。
[0120]
第二步:将用户的互动输入文本输入预训练的chatglm语言模型,输出用户和预训练的语言模型的互动文本。
[0121]
第三步,将预设的语音数据输入预训练的mockingbird声音克隆模型,提取数字人的声音特征。
[0122]
第四步:将数字人的声音特征以及互动文本输入mockingbird声音克隆模型中,确定数字人的合成语音。
[0123]
第五步:将预设的图像数据输入预训练的sam年龄转换模型,输出数字人在预设年龄段对应的人物外貌图像。
[0124]
第六步:将数字人在预设年龄段对应的人物外貌图像和数字人的合成语音输入预训练的sadtalker驱动模型中,输出无音轨的具有音频的二维数字人脸动画。
[0125]
第七步:将无音轨且具有音频的二维数字人脸动画输入预训练的dct-net人像卡
通化模型进行风格化处理,确定无音轨且具有预设风格的二维数字人脸动画。
[0126]
第八步:将无音轨且具有预设风格的二维数字人脸动画输入预训练的basicvsr++视频超分模型进行超分辨率处理,确定无音轨且经过超分辨率处理的二维数字人脸动画。
[0127]
第九步:采用程序ffmpeg将无音轨且经过超分辨率处理的二维数字人脸动画和数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画,即具有音频动画视频。
[0128]
本公开通过采集网络及真实的人物图像和语音数据进行二维数字人脸动画的生成,基于多位受试者对生成的二维数字人脸动画进行主观评分,结果表示本公开的可交互的多模态风格化二维数字人脸动画生成方法能够简便有效生成二维数字人脸动画,并与用户进行智能互动,生成的二维数字人脸动画可以以多种风格呈现,其视频质量较高,用户使用体验较佳。
[0129]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。
技术特征:
1.一种可交互的多模态风格化二维数字人脸动画生成方法,其特征在于,包括:获取预设的语音数据、预设的图像数据以及用户的互动输入文本;根据所述预设的语音数据和所述用户的互动输入文本,确定数字人的合成语音;将所述预设的图像数据输入预训练的年龄转换模型,确定所述数字人在预设年龄段对应的人物外貌图像;将所述数字人在预设年龄段对应的人物外貌图像和所述数字人的合成语音输入预训练的驱动模型,确定具有音频的二维数字人脸动画;将所述具有音频的二维数字人脸动画输入预训练的人像卡通化模型进行风格化处理,确定具有预设风格的二维数字人脸动画;将所述具有预设风格的二维数字人脸动画输入预训练的视频超分模型进行超分辨率处理,确定经过超分辨率处理的二维数字人脸动画;将所述经过超分辨率处理的二维数字人脸动画和所述数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画。2.根据权利要求1所述的方法,所述根据所述预设的语音数据和所述用户的互动输入文本,确定数字人的合成语音,包括:将所述用户的互动输入文本输入预训练的语言模型中,确定所述用户和所述预训练的语言模型的互动文本,所述互动文本包括所述用户的互动输入文本和所述预训练的语言模型的应答文本;将所述预设的语音数据输入预训练的声音克隆模型,确定所述数字人的声音特征;将所述数字人的声音特征以及所述互动文本输入所述预训练的声音克隆模型中,确定所述数字人的合成语音。3.根据权利要求2所述的方法,其特征在于,所述将所述用户的互动输入文本输入预训练的语言模型中,确定所述用户和所述预训练的语言模型的互动文本,包括:练的语言模型中,确定所述用户和所述预训练的语言模型的互动文本,包括:其中,表示post访问请求,t
n
表示在进行第n轮互动时用户的互动输入文本,r
n
表示在进行第n轮互动时所述预训练的语言模型针对用户的互动输入文本的应答文本,tr
n
表示在进行第n轮互动时用户与所述预训练的语言模型的互动文本,url表示所述预训练的语言模型的端口访问ip地址,post表示本地主机向所述预训练的语言模型发送post访问请求的过程,[t
n
,tr
n-1
,l,tr1]表示post访问请求的请求体,chat表示在第n轮互动时所述预训练的语言模型针对所述post访问请求进行应答的过程。4.根据权利要求3所述的方法,其特征在于,所述将所述预设的语音数据输入预训练的声音克隆模型,确定所述数字人的声音特征,包括:f
a
=f(a)其中,f
a
表示所述数字人的声音特征,a表示所述预设的语音数据,f表示采用所述预训练的声音克隆模型进行的声音特征提取操作。5.根据权利要求4所述的方法,其特征在于,将所述数字人的声音特征以及所述互动文本输入所述预训练的声音克隆模型中,确定所述数字人的合成语音,包括:
其中,表示所述数字人的合成语音,mock表示采用所述声音克隆模型进行的合成语音操作。6.根据权利要求1所述的方法,其特征在于,所述将所述预设的图像数据输入预训练的年龄转换模型,确定所述数字人在预设年龄段对应的人物外貌图像,包括:p=sam(i)p=[p1,p2,p3,l,p
k
]其中,p表示所述数字人在各个年龄段对应的人物外貌图像集合,i表示所述预设的图像数据,p
k
表示第k个年龄段对应的人物外貌图像,sam表示采用所述预训练的年龄转换模型进行年龄转换操作。7.根据权利要求6所述的方法,其特征在于,所述将所述数字人在预设年龄段对应的人物形象和所述数字人的合成语音输入预训练的驱动模型,确定具有音频的二维数字人脸动画,包括:p∈p其中,p表示所述数字人在预设年龄段对应的人物外貌图像,v表示所述具有音频的二维数字人脸动画,drive表示采用所述预训练的驱动模型进行的驱动操作。8.根据权利要求7所述的方法,其特征在于,所述将所述具有音频的二维数字人脸动画输入预训练的人像卡通化模型进行风格化处理,确定具有预设风格的二维数字人脸动画,包括:v
s
=net(v,s)其中,s表示预设的风格类型集合,v
s
表示所述具有预设风格的二维数字人脸动画,net表示采用所述预训练的人像卡通化模型进行的风格化处理操作。9.根据权利要求8所述的方法,其特征在于,所述将所述具有预设风格的二维数字人脸动画输入预训练的视频超分模型进行超分辨率处理,确定经过超分辨率处理的二维数字人脸动画,包括:v
vsr-s
=vsr(v
s
)其中,v
vsr-r
表示所述经过超分辨率处理的二维数字人脸动画,vsr表示采用所述预训练的视频超分模型进行的超分辨率处理操作。10.根据权利要求9所述的方法,其特征在于,所述将所述经过超分辨率处理的二维数字人脸动画和所述数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画,包括:其中,v
o
表示所述多模态风格化二维数字人脸动画,表示合成处理操作。
技术总结
本公开提供一种可交互的多模态风格化二维数字人脸动画生成方法,该方法包括:获取预设的语音数据、预设的图像数据以及用户的互动输入文本;根据预设的语音数据和用户的互动输入文本,确定数字人的合成语音;根据预设的图像数据确定数字人在预设年龄段对应的人物外貌图像;根据数字人在预设年龄段对应的人物外貌图像和数字人的合成语音,确定具有音频的二维数字人脸动画;将具有音频的二维数字人脸动画依次进行风格化处理、超分辨率处理后,再与数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画。通过本公开简便有效地生成二维数字人脸动画,并且能够以多种风格呈现给用户,提高用户的体验质量。提高用户的体验质量。提高用户的体验质量。
技术研发人员:周颖杰 陈耀栋 付一帆 林坤杰 刘辉
受保护的技术使用者:中国矿业大学
技术研发日:2023.07.19
技术公布日:2023/10/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:基于深度学习的笼养鸡群热应激智能巡检方法及系统 下一篇:一种装配式隔墙的制作方法