一种移动端虚拟形象实时语音驱动表情方法及装置与流程
未命名
09-29
阅读:128
评论:0
1.本发明涉及图像技术处理领域,尤其是一种移动端虚拟形象实时语音驱动表情方法及装置。
背景技术:
2.目前行业内绝大多数服务型数字人,语音驱动嘴形都是采用asr(automatic speech recognition)和tts(text to speech)的方案,该方案虽然能够获得比较精准的嘴形,但是算法流程长,复杂度高,无法部署在移动端,此外对于不同的语言,为了得到同样精准效果,必须加入新的语料进行asr和tts训练,最后,对于唱歌这种场景,也无法表现的很好,因此对于一些泛娱乐场景也不适用。
3.实际的模型在使用过程中,用户的说话场景,发音习惯,语言类型都会对模型的输入有很大影响,如何在这些因素的综合作用下,让模型精准鲁棒输出,是实际落地和商业化需要解决的重要难点;模型输出不同的表情之间既有独立性又有交互性,会互相影响。如何让虚拟人物的表情更加拟人化,也是一个业务上很重要的技术问题。
4.因此,寻找一种能够精准并稳定的在移动端驱动虚拟人物形象的方法,是本领域技术人员亟待解决的技术问题。
技术实现要素:
5.针对上述现有技术的不足,本发明的目的在于提供一种能够在不同语音场景下通过移动端语音驱动虚拟形象表情的方法,提高嘴形驱动的精准性和稳定性以及不同表情的协调性。
6.根据本发明的实施方案,提供第一个方案为:一种移动端虚拟形象实时语音驱动表情方法,包括:
7.s1:移动端采集用户的实时语音,并将所述实时语音组合形成音频数据包;
8.s2:对所述音频数据包中的音频数据进行mfcc特征提取,将所述音频数据采用加窗和滑窗重组操作,得到特征提取后的音频数据;
9.s3:检测所述特征提取后的音频数据是否是静音场景,若是,则返回步骤s1;若不是,则进行下一步骤;
10.s4:将非静音场景下的所述音频数据输入ai声音表情模型中,经过所述ai声音表情模型推理后,输出与用户嘴形相关的表情系数,所述表情系数为跟用户嘴部表情相关的表情向量;
11.s5:通过所述ai声音表情模型输出的表情系数控制avatar对应的表情。
12.在本技术的进一步实施例中,所述mfcc特征提取还包括以下步骤:
13.s21:对所述音频数据进行预处理;
14.s22:将预处理后的所述音频数据使用汉宁窗函数进行加窗操作,防止音频数据的频率泄漏;
15.s23:对加窗后的所述音频数据进行快速傅里叶变换,并在时间维度上进行滑窗重组,将一维的时序声音特征变为二维的时空声音特征;
16.s24:对傅里叶变换后的所述音频数据采用mel滤波器组进行滤波;
17.s25:对滤波后的所述音频数据进行运算和变换,得到mfcc特征。
18.在本技术的进一步实施例中,所述滑窗重组包括将经过mfcc提取的特征维度在时间维度上进行滑窗,采用预设步长的窗口在n的维度进行滑动,得到mfcc特征,其中n表示mfcc特征提取的特征数目。
19.在本技术的进一步实施例中,所述预处理包括对所述音频数据进行预加重,并将预加重后的音频数据进行分帧。
20.在本技术的进一步实施例中,所述步骤s25还包括:
21.对所述滤波后的音频数据进行对数运算,将运算后的音频数据进行离散余弦变换,得到梅尔频率倒谱系数,将离散余弦变换后的输出进行降维输出。
22.在本技术的进一步实施例中,所述ai声音表情模型推理包括以下步骤:
23.s41:对所述音频数据进行格式转换;
24.s42:将格式转换后的音频数据窗口与标签帧对齐,确保所述音频数据语义的正确性;
25.s43:将对齐后的音频数据进行数据增强;
26.s44:将增强后的音频数据进行mfcc特征提取,并使用滑窗机制生成训练特征,得到送入模型前的音频数据的语音特征;
27.s45:将所述语音特征与标签帧通过数据管道送入所述ai声音表情模型中,得到所述与嘴形相关的表情系数。
28.本技术还提供一种移动端虚拟形象实时语音驱动表情装置,包括:
29.采集模块,用于移动端采集用户的实时连续语音,将所述实时连续语音组合形成音频数据包;
30.特征提取模块,用于对所述音频数据包中的音频数据进行mfcc特征提取;
31.静音检测模块,用于判断特征提取后的音频数据是否是静音场景;
32.推理模块,用于将非静音场景下的音频数据输入ai声音表情模型中进行推理,输出与用户嘴形相关的表情系数;
33.驱动模块,用于根据所述表情系数控制avatar对应的表情。
34.在本技术的进一步实施例中,所述ai声音表情模型包括:
35.格式转换单元,用于将所述音频数据进行格式转换,便于移动端进行推理;
36.标签对齐单元,用于将格式转换后的音频数据窗口与标签帧对齐,确保所述音频数据语义的正确性;
37.数据增强单元,用于将对齐后的音频数据在时域进行增强,提升所述ai声音表情模型的鲁棒性;
38.特征提取单元,用于将数据增强后的语音数据进行mfcc特征提取,生成训练特征;所述mfcc特征提取和mfcc特征提取相同;
39.模型训练单元,用于对所述训练特征采用梯度下降法进行训练。
40.本技术还提供一种电子设备,包括:
41.至少一个处理器;
42.至少一个存储器,用于存储至少一个程序;
43.当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述任一项所述的方法。
44.本技术还提供一种计算机存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现上述任一项所述的方法。
45.与现有技术相比,本发明能够取得以下有益效果:
46.1、本技术通过在对音频数据进行mfcc特征提取时采用加窗和滑窗重组机制,将一维的时序声音特征变成二维的时空声音特征,一方面引入了时序上下文的信息,另一方面又保证了ai声音表情模型中音频数据的实时性。
47.2、本技术的ai声音表情模型通过格式转换将采集的音频数据转换为相同的格式,提高移动端的数据处理速度以及数据处理能力,ai声音表情模型中特征提取采用特征滑窗和特征重组机制,能够使模型的输出更加稳定;ai声音表情模型采用共振峰特征提取网络和关节网络对音频数据进行处理,只使用了极少的卷积层和通道数,满足移动端计算量需求,保证虚拟人物能够实时稳定的在不同的纯语音场景输出精确的嘴部表情。
附图说明
48.图1为本发明一实施方式的语音驱动表情方法的流程图;
49.图2为本发明一实施方式的mfcc特征提取的流程图;
50.图3为本发明一实施方式的ai声音表情模型推理的流程图;
51.图4为本发明一实施方式的ai声音表情模型的示意图;
52.图5为本发明一实施方式的mfcc特征提取的示意图;
53.图6为本发明一实施方式的语音驱动表情装置的示意图。
具体实施方式
54.为了使本领域的技术人员更好地理解本技术中的技术方案,下面将结合本技术实施例中的附图对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
55.需要说明的是,当元件被称为“固定于”或“设置于”另一个部件上,它可以直接在另一个部件上或者间接设置在另一个部件上;当一个部件被称为是“连接于”另一个部件,它可以是直接连接到另一个部件或间接连接至另一个部件上。
56.需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或部件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。
57.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者
隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”、“若干个”的含义是两个或两个以上,除非另有明确具体的限定。
58.须知,本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本技术所能产生的功效及所能达成的目的下,均应仍落在本技术所揭示的技术内容得能涵盖的范围内。
59.如图1所示,本技术提供一种移动端虚拟形象实时语音驱动表情方法,包括:
60.s1:移动端采集用户的实时语音,并将所述实时语音组合形成音频数据包;
61.s2:对所述音频数据包中的音频数据进行mfcc特征提取,将所述音频数据采用加窗和滑窗重组操作,得到特征提取后的音频数据;
62.s3:检测特征提取后的音频数据是否是静音场景,若是,则返回步骤s1;若不是,则进行下一步骤;
63.s4:将非静音场景下的音频数据输入ai声音表情模型中,经过所述ai声音表情模型推理后,输出与用户嘴形相关的表情系数,所述表情系数为跟用户嘴部表情相关的表情向量;
64.s5:通过所述ai声音表情模型输出的表情系数控制avatar对应的表情。
65.在本技术实施例中,移动端通过采集用户的实时连续音频数据,此时的音频数据为pcm裸声音数据,所述pcm裸声音数据是指未经压缩的音频采样数据,是由模拟信号经过采样、量化、编码转换成的标准数字音频数据;将实时语音组成音频数据包并对音频数据进行mfcc特征提取,以便给ai声音表情模型提供更高质量的输入用以更好的驱动avatar(虚拟形象)的表情;将特征提取后的音频数据进行静音检测,判断音频数据是否是静音场景,若是静音场景则重新利用移动端对用户进行音频数据采样;若不是静音场景则将特征提取后的音频数据输入已经训练好的ai声音表情模型中进行推理,输出跟嘴形相关的表情系数,表情系数为跟用户嘴部表情相关的表情向量,可选的,表情向量可以设置为29个,表示29个表情的强弱;通过ai声音表情模型输出的表情系数控制avatar对应的表情,能够在移动端算力和资源有限的情况下,保证虚拟形象能够实时稳定的输出精确的嘴部表情。
66.如图2所示,在本技术的进一步实施方案中,mfcc特征提取还包括以下步骤:
67.s21:对所述音频数据进行预处理;
68.s22:将预处理后的所述音频数据使用汉宁窗函数进行加窗操作,防止音频数据的频率泄漏;
69.s23:对加窗后的音频数据进行快速傅里叶变换,并在时间维度上进行滑窗重组,将一维的时序声音特征变为二维的时空声音特征;
70.s24:对傅里叶变换后的音频数据采用mel滤波器组进行滤波,对所述音频数据中的高频信息进行衰减;
71.s25:对滤波后的音频数据进行运算和变换,得到mfcc特征。
72.作为本领域技术人员可以理解地,mfcc用于提取语音特征参数,因其独特的基于倒谱的提取方式,更加的符合人类的听觉原理,因此mfcc特诊提取也是最普遍、最有效的语音特征提取算法。mfcc是在mel标度频率域提取出来的倒谱系数,mel标度描述了人耳对频
率感知的非线性特性。
73.在申请实施方案中,预处理包括对所述音频数据进行预加重,并对预加重后的音频数据进行分帧,减少音频数据在高频部分的损耗,保护音频数据声道信息的完整性,减少移动端采集用户实时语音数据不稳定时对音频数据产生的影响;mel滤波器组中的每个滤波器都具有三角滤波特性,且每个滤波器的带宽都是相等的,在数据的高频部分分辨率较低,在数据的低频部分分辨率较高,通过对音频数据的mfcc语音特征提取,采用mel滤波器对音频数据进行滤波,能够有效对音频数据中的高频信息进行衰减,最大化音频数据的有效音频数据,以达到最好特征参数的提取。
74.在本技术的进一步实施方案中,所述滑窗重组包括将经过mfcc提取的特征维度在时间维度上进行滑窗,采用预设步长的窗口在n的维度进行滑动,得到提取特征,其中n表示mfcc特征提取的特征数目。优选的,步长设置为16,则经过在步长为16的窗口在n的维度进行滑动后,得到s个16*39的特征,即s*16*39。经过mfcc提取的特征维度f为n*39,对特征维度进行滑窗操作,将经过滑窗操作后的特征作为mfcc特征。
75.在本技术的进一步实施方案中,步骤s25还包括对所述滤波后的音频数据进行对数运算,将运算后的音频数据进行离散余弦变换,得到梅尔频率倒谱系数,将离散余弦变换后的输出进行降维输出。
76.如图3所示,在本技术的进一步实施方案中,所述ai声音表情模型推理包括以下步骤:
77.s41:对所述音频数据进行格式转换,以便于移动端对音频数据进行处理,提高移动端的处理速度以及处理能力;
78.s42:将格式转换后的音频数据窗口与标签帧对齐,确保所述音频数据语义的正确性;
79.s43:将对齐后的音频数据进行数据增强,提升ai声音表情模型在各种复杂模式下对所述音频数据处理的鲁棒性;
80.s44:将增强后的音频数据进行mfcc特征提取,并使用滑窗机制生成训练特征,得到送入模型前的音频数据的语音特征;
81.s45:将所述语音特征与标签帧通过数据管道基于反向传播学习策略,利用梯度下降法对ai声音表情模型进行训练,得到与嘴形相关的表情系数。
82.本技术实施方案通过将采集的各种音频格式、不同采样率的音频数据转换为相同的音频格式,方便移动端在算力和资源有限的情况下对音频数据进行处理,提高移动端的数据处理速度以及数据处理能力,可选的,将不同音频格式以及不用采样率的音频数据源转换为采样率为16000hz的wav音频格式。
83.将格式转换后的wav音频数据窗口与标签帧进行对齐,具体地,通过标签帧的表情数据序列的时间戳,选取第2帧和倒数第2帧的时间戳,将时间戳转换为相当于音频数据声音信号的绝对时间,然后进行音频数据声音信号的裁剪,从而完成音频数据与标签帧的对齐,确保音频数据语义的正确性;针对语音驱动的具体使用场景,将对齐后的音频数据在时域对音频信号进行音高、时序移动、白噪声等增强方式,对声音施加一定程度的白噪声和音高的调整,略微改变声音信号本身的模式,从而提升模型对各种复杂模式的鲁棒性,将数据增强后的音频数据进行mfcc特征提取,并采用滑动窗口的方式对mfcc提取的特征进行重
组,这样一方面引入了时序上下文的信息,另一方面又保证了模型端对端的实时性,是本方案模型训练有效性的基础。
84.在本技术实施方案中,可选的,在对音频提取mfcc特征使用滑窗机制生成训练特征时,将快速傅里叶变幻的点数设置为532,将窗口的长度设置为33.25ms,则滑窗的步长为0.5*33.25ms,再采用汉宁窗进行加窗操作,防止频率泄漏,最终经过mfcc提取的特征维度f为n*39,然后对特征维度f在时间维度上进行滑窗,将窗口的步长设为16,采用步长为16的窗口在n的维度进行滑动,得到m个16*39的特征,即m*16*39,将提取的mfcc特征作为送入模型前的语音特征,其中n为mfcc特征提取滑窗计算后的特征数目,即特征的第一维,n与音频数据的长度相关,音频数据的序列越长,则n计算值越大。
85.在本技术进一步实施方案中,所述ai声音表情模型的设计遵循轻量化的原则,具体的,如图4和图5所示,formant network为共振峰特征提取网络,共振峰特征提取网络采用5层1*3卷积核,目的在于提取跟音频数据信号本身相关的特征,articulation network为关节网络,关节网络采用5层3*1的卷积核,目的是提取时间维度上的关联性;经过共振峰特征提取网络和关节网络提取后的特征向量,再经过三层全卷积网络后回归至29维,即输出avatar表情系数,即29个表情向量。ai声音表情模型的设计使用了极少的卷积层和通道数,并转换为tflite进行部署,满足移动端计算量需求。
86.在本技术的进一步实施方案中,模型训练基于bp(反向传播)学习策略,利用梯度下降法对所述ai声音表情模型进行训练,其中,loss采用huberloss,训练直至收敛,参数设置为batchsize=128,初始learningrate=0.001。
87.如图6所示,本技术还提供一种移动端虚拟形象实时语音驱动表情装置,包括:
88.采集模块100,用于移动端采集用户的实时连续语音,将所述实时连续语音组合形成频频数据包;
89.特征提取模块200,用于对所述音频数据包中的音频数据进行mfcc特征提取;
90.静音检测模块300,用于判断特征提取后的音频数据是否是静音场景;
91.推理模块400,用于将非静音场景下的音频数据输入ai声音表情模型中进行推理,输出与用户嘴形相关的表情系数;
92.驱动模块500,用于根据所述表情系数控制avatar对应的表情。
93.在本技术的进一步实施方案中,所述特征提取模块包括:
94.预处理单元,用于对所述音频数据进行预处理,所述预处理包括预加重和分帧;
95.提取单元,用于对所述预处理后的音频数据进行加窗操作和滑窗重组;
96.滤波单元,用于对加窗和滑窗重组后的音频数据进行滤波;
97.计算单元,用于对滤波后的音频数据进行对数计算和离散余弦变换,得到mfcc特征。
98.在本技术的进一步实施方案中,所述ai声音表情模型包括:
99.格式转换单元,用于将所述音频数据进行格式转换,便于移动端进行推理;
100.标签对齐单元,用于将格式转换后的音频数据窗口与标签帧对齐,确保所述音频数据语义的正确性;
101.数据增强单元,用于将对齐后的音频数据在时域进行增强,提升所述ai声音表情模型的鲁棒性;
102.特征提取单元,用于将数据增强后的语音数据进行mfcc特征提取,生成训练特征;
103.模型训练单元,用于对所述训练特征采用梯度下降法进行训练。
104.本技术利用移动端通过采集模块采集用户的实时连续语音,特征提取模块对音频数据进行mfcc特征提取,其中mfcc特征提取还包括利用特征提取模块中的预处理单元对所述音频数据进行预处理,减少移动端采集用户实时语音数据不稳定时对音频数据产生的影响,提取单元对预处理后的音频数据进行加窗操作,并进行滑窗重组,保证了音频数据的实时性,再通过滤波单元对音频数据进行滤波,并对滤波后的音频数据进行对数计算和离散余弦变换,得出音频数据的mfcc特征,判断所述音频数据是否处于静音场景,若处于静音场景,则通过移动端重新采集用户的实时连续语音,若不是处于静音场景,则将所述音频数据的mfcc特征输入ai声音表情模型中进行推理,输出与用户嘴形相关的表情系数,驱动模块根据所述表情系数控制avatar对应的表情。
105.在本技术中,ai声音表情模型是已经训练好的模型,ai声音表情模型中包括格式转换单元、标签对齐单元、数据增强单元、特征提取单元以及模型训练单元,格式转换单元将采集的音频数据转换同一格式,便于所述ai声音表情对数据进行处理,使ai声音表情模型在算力和资源有限的移动端也能够稳定输出精确的嘴部表情,标签对齐单元将格式转换后的音频数据窗口与标签帧对齐,确保音频数据语义的准确性,通过数据增强单元将对齐后的音频数据在时域上进行增强,提高ai声音表情模型的鲁棒性,特征提取单元通过采用共振峰特征提取网络和关节网络对音频数据进行特征向量提取,满足移动端计算量需求,模型训练单元将提取后的音频数据特征和标签通过数据管道基于bp(反向传播)学习策略,利用梯度下降法对ai声音表情模型进行训练,直至收敛,输出音频数据对应的表情系数。
106.本技术实施例还提供一种电子设备,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述任一项所述的方法。
107.本技术实施例还提供一种计算机存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现上述任一项所述的方法。
108.本技术所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram),它用作外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddr sdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)。
109.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
110.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
111.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
112.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
113.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种移动端虚拟形象实时语音驱动表情方法,其特征在于,包括:s1:移动端采集用户的实时语音,并将所述实时语音组合形成音频数据包;s2:对所述音频数据包中的音频数据进行mfcc特征提取,将所述音频数据采用加窗和滑窗重组操作,得到特征提取后的音频数据;s3:检测所述特征提取后的音频数据是否是静音场景,若是,则返回步骤s1;若不是,则进行下一步骤;s4:将非静音场景下的所述音频数据输入ai声音表情模型中,经过所述ai声音表情模型推理后,输出与用户嘴形相关的表情系数,所述表情系数为跟用户嘴部表情相关的表情向量;s5:通过所述ai声音表情模型输出的表情系数控制avatar对应的表情。2.根据权利要求1所述的一种移动端虚拟形象实时语音驱动表情方法,其特征在于,所述mfcc特征提取还包括以下步骤:s21:对所述音频数据进行预处理;s22:将预处理后的所述音频数据使用汉宁窗函数进行加窗操作,防止音频数据的频率泄漏;s23:对加窗后的所述音频数据进行快速傅里叶变换,并在时间维度上进行滑窗重组,将一维的时序声音特征变为二维的时空声音特征;s24:对傅里叶变换后的所述音频数据采用mel滤波器组进行滤波;s25:对滤波后的所述音频数据进行运算和变换,得到mfcc特征。3.根据权利要求2所述的一种移动端虚拟形象实时语音驱动表情方法,其特征在于,所述滑窗重组包括将经过mfcc提取的特征维度在时间维度上进行滑窗,采用预设步长的窗口在n的维度进行滑动,得到mfcc特征,其中n表示mfcc特征提取的特征数目。4.根据权利要求2所述的一种移动端虚拟形象实时语音驱动表情方法,其特征在于,所述预处理包括对所述音频数据进行预加重,并将预加重后的音频数据进行分帧。5.根据权利要求2所述的一种移动端虚拟形象实时语音驱动表情方法,其特征在于,所述步骤s25还包括:对所述滤波后的音频数据进行对数运算,将运算后的音频数据进行离散余弦变换,得到梅尔频率倒谱系数,将离散余弦变换后的输出进行降维输出。6.根据权利要求1所述的一种移动端虚拟形象实时语音驱动表情方法,其特征在于,所述ai声音表情模型推理包括以下步骤:s41:对所述音频数据进行格式转换;s42:将格式转换后的音频数据窗口与标签帧对齐,确保所述音频数据语义的正确性;s43:将对齐后的音频数据进行数据增强;s44:将增强后的音频数据进行mfcc特征提取,并使用滑窗机制生成训练特征,得到送入模型前的音频数据的语音特征;s45:将所述语音特征与标签帧通过数据管道送入所述ai声音表情模型中,得到所述与嘴形相关的表情系数。7.一种移动端虚拟形象实时语音驱动表情装置,其特征在于,包括:采集模块,用于移动端采集用户的实时连续语音,将所述实时连续语音组合形成音频
数据包;特征提取模块,用于对所述音频数据包中的音频数据进行mfcc特征提取;静音检测模块,用于判断特征提取后的音频数据是否是静音场景;推理模块,用于将非静音场景下的音频数据输入ai声音表情模型中进行推理,输出与用户嘴形相关的表情系数;驱动模块,用于根据所述表情系数控制avatar对应的表情。8.根据权利要求6所述的一种移动端虚拟形象实时语音驱动表情装置,其特征在于,所述ai声音表情模型包括:格式转换单元,用于将所述音频数据进行格式转换,便于移动端进行推理;标签对齐单元,用于将格式转换后的音频数据窗口与标签帧对齐,确保所述音频数据语义的正确性;数据增强单元,用于将对齐后的音频数据在时域进行增强,提升所述ai声音表情模型的鲁棒性;特征提取单元,用于将数据增强后的语音数据进行mfcc特征提取,生成训练特征;模型训练单元,用于对所述训练特征采用梯度下降法进行训练。9.一种电子设备,其特征在于,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-8中任一项所述的方法。10.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-8任一项所述的方法。
技术总结
本申请提出一种移动端虚拟形象实时语音驱动表情方法,包括S1:移动端采集用户的实时语音,并将实时语音组合形成音频数据包;S2:对音频数据包中的音频数据进行MFCC特征提取,将所述音频数据采用加窗和滑窗重组操作,得到特征提取后的音频数据;S3:检测音频数据是否是静音场景,若是,则返回步骤S1;若不是,则进行下一步骤;S4:将所述音频数据输入AI声音表情模型中,经过所述AI声音表情模型推理后,输出与用户嘴形相关的表情系数;S5:通过表情系数控制Avatar对应的表情。本申请的在特征提取时采用特征滑窗和重组机制,使模型的输出更加稳定,模型采用轻量化设计,满足移动端计算量需求。求。求。
技术研发人员:黄仰光
受保护的技术使用者:深圳市即构科技有限公司
技术研发日:2022.11.10
技术公布日:2023/9/25
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/