声纹注册方法、装置、计算设备及介质与流程

未命名 08-03 阅读:170 评论:0


1.本公开涉及音频处理技术领域,尤其涉及一种声纹注册方法、装置、计算设备及介质。


背景技术:

2.声纹识别也可以称为说话人识别,是一种根据音频中反映说话人生理和行为特征的音频特征(如声纹特征),自动识别说话人身份的技术。声纹识别通过音频采集设备采集说话人的音频,并基于所采集到的音频确定说话人的声纹特征,进而将所确定出的声纹特征与数据库中的声纹特征进行比较,以实现对说话人身份的校验和识别。而音频采集设备可以内置于智能手机、智能手表等通用的电子设备中,从而使得音频采集过程十分方便,进而使得声纹识别成为一种极为经济、便捷的身份识别方式。
3.其中,数据库中的声纹特征可以通过引导说话人预先进行声纹注册获取得到。相关技术中,在进行声纹注册时,可以通过语音引导说话人说出一段预先设置好的注册文本,从而采集说话人的注册音频,进而从注册音频中获取说话人的声纹特征,并将获取到的声纹特征存储至数据库中,作为后续声纹识别时的判断依据。
4.在上述实现过程中,说话人在进行声纹注册时所处的环境一般是固定且单一的,而在实际的声纹识别过程中,说话人可能处在各种不同的环境中,从而导致说话人在进行声纹注册时所处的环境,可能与在对说话人进行声纹识别时所处的环境有较大差异,这会对说话人的身份识别造成较大影响,导致声纹识别的准确性较差。


技术实现要素:

5.有鉴于此,本公开提供一种声纹注册方法、装置、计算设备及介质,可以提高声纹识别的准确性。
6.根据本公开实施例的第一方面,提供了一种声纹注册方法,该方法包括:
7.获取用于进行声纹注册的注册音频;
8.确定注册音频的信噪比;
9.通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频;
10.基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量;
11.将目标特征向量作为声纹特征,为注册音频进行声纹注册。
12.在本公开的一些实施例中,通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频之前,该方法还包括:
13.基于信噪比的数值所属的数值区间,确定对应的数据增强处理方式;
14.其中,不同的数值区间所对应的数据增强处理方式为加噪处理、加混响处理、变速处理和降噪处理中至少一项。
15.在本公开的一些实施例中,基于信噪比的数值所属的数值区间,确定对应的数据
增强处理方式,包括下述任一项:
16.在信噪比的数值小于第一目标阈值的情况下,将数据增强处理方式确定为降噪处理;
17.在信噪比的数值大于等于第一目标阈值小于第二目标阈值的情况下,将数据增强处理方式确定为变速处理;
18.在信噪比的数值大于等于第二目标阈值的情况下,将数据增强处理方式确定为加噪处理、加混响处理以及变速处理中的至少一项。
19.在本公开的一些实施例中,通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频,包括:
20.在信噪比的数值小于第一目标阈值的情况下,对注册音频进行降噪处理,得到第一目标音频。
21.在本公开的一些实施例中,基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量,包括:
22.分别获取第一目标音频对应的第一特征向量以及注册音频对应的特征向量;
23.对第一特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
24.在本公开的一些实施例中,通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频,包括:
25.在信噪比的数值大于等于第一目标阈值小于第二目标阈值的情况下,对注册音频进行变速处理,得到第二目标音频。
26.在本公开的一些实施例中,基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量,包括:
27.分别获取第二目标音频对应的第二特征向量以及注册音频对应的特征向量;
28.对第二特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
29.在本公开的一些实施例中,通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频,包括下述至少一项:
30.在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行加噪处理,得到第三目标音频;
31.在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行加混响处理,得到第四目标音频;
32.在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行变速处理,得到第五目标音频。
33.在本公开的一些实施例中,基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量,包括:
34.获取第三目标音频对应的第三特征向量、第四目标音频对应的第四特征向量、第五目标音频对应的第五特征向量中的至少一项,以及注册音频对应的特征向量;
35.将第三特征向量、第四特征向量、第五特征向量中的至少一项,与注册音频对应的特征向量进行加权求和,得到目标特征向量。
36.在本公开的一些实施例中,确定注册音频的信噪比,包括:
37.对注册音频进行语音端点检测,得到注册音频中包括说话人语音的有效音频;
38.确定有效音频的信噪比,将有效音频的信噪比作为注册音频的信噪比。
39.在本公开的一些实施例中,确定注册音频的信噪比,包括:
40.在注册音频满足目标条件的情况下,确定注册音频的信噪比;
41.其中,目标条件包括注册音频对应于目标文本,和/或,环境噪声的噪声分贝值小于预设分贝阈值。
42.在本公开的一些实施例中,该方法包括:
43.获取多个注册音频;
44.基于多个注册音频,确定多个目标特征向量;
45.确定多个目标特征向量的平均特征向量;
46.将平均特征向量作为声纹特征,为注册音频进行声纹注册。
47.根据本公开实施例的第二方面,提供了一种声纹注册装置,该装置包括:
48.获取模块,用于获取用于进行声纹注册的注册音频;
49.确定模块,用于确定注册音频的信噪比;
50.处理模块,用于通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频;
51.该确定模块,还用于基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量;
52.注册模块,用于将目标特征向量作为声纹特征,为注册音频进行声纹注册。
53.在本公开的一些实施例中,该确定模块,还用于基于信噪比的数值所属的数值区间,确定对应的数据增强处理方式;
54.其中,不同的数值区间所对应的数据增强处理方式为加噪处理、加混响处理、变速处理和降噪处理中至少一项。
55.在本公开的一些实施例中,该确定模块,在用于基于信噪比的数值所属的数值区间,确定对应的数据增强处理方式时,用于下述任一项:
56.在信噪比的数值小于第一目标阈值的情况下,将数据增强处理方式确定为降噪处理;
57.在信噪比的数值大于等于第一目标阈值小于第二目标阈值的情况下,将数据增强处理方式确定为变速处理;
58.在信噪比的数值大于等于第二目标阈值的情况下,将数据增强处理方式确定为加噪处理、加混响处理以及变速处理中的至少一项。
59.在本公开的一些实施例中,该处理模块,在用于通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频时,用于:
60.在信噪比的数值小于第一目标阈值的情况下,对注册音频进行降噪处理,得到第一目标音频。
61.在本公开的一些实施例中,该确定模块,在用于基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量时,用于:
62.分别获取第一目标音频对应的第一特征向量以及注册音频对应的特征向量;
63.对第一特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
64.在本公开的一些实施例中,该处理模块,在用于通过与信噪比的数值对应的数据
增强处理方式,对注册音频进行数据增强处理,得到目标音频时,用于:
65.在信噪比的数值大于等于第一目标阈值小于第二目标阈值的情况下,对注册音频进行变速处理,得到第二目标音频。
66.在本公开的一些实施例中,该确定模块,在用于基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量时,用于:
67.分别获取第二目标音频对应的第二特征向量以及注册音频对应的特征向量;
68.对第二特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
69.在本公开的一些实施例中,该处理模块,在用于通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频时,用于下述至少一项:
70.在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行加噪处理,得到第三目标音频;
71.在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行加混响处理,得到第四目标音频;
72.在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行变速处理,得到第五目标音频。
73.在本公开的一些实施例中,该确定模块,在用于基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量时,用于:
74.获取第三目标音频对应的第三特征向量、第四目标音频对应的第四特征向量、第五目标音频对应的第五特征向量中的至少一项,以及注册音频对应的特征向量;
75.将第三特征向量、第四特征向量、第五特征向量中的至少一项,与注册音频对应的特征向量进行加权求和,得到目标特征向量。
76.在本公开的一些实施例中,该确定模块,在用于确定注册音频的信噪比时,用于:
77.对注册音频进行语音端点检测,得到注册音频中包括说话人语音的有效音频;
78.确定有效音频的信噪比,将有效音频的信噪比作为注册音频的信噪比。
79.在本公开的一些实施例中,该确定模块,在用于确定注册音频的信噪比时,用于:
80.在注册音频满足目标条件的情况下,确定注册音频的信噪比;
81.其中,目标条件包括注册音频对应于目标文本,和/或,环境噪声的噪声分贝值小于预设分贝阈值。
82.在本公开的一些实施例中,该获取模块,还用于获取多个注册音频;
83.该确定模块,还用于基于多个注册音频,确定多个目标特征向量;
84.该确定模块,还用于确定多个目标特征向量的平均特征向量;
85.该注册模块,还用于将平均特征向量作为声纹特征,为注册音频进行声纹注册。
86.根据本公开实施例的第三方面,提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面及第一方面的任一实施例所提供的声纹注册方法的方法步骤。
87.根据本公开实施例的第四方面,提供了一种计算设备,该计算设备包括:
88.处理器;
89.用于存储处理器可执行指令的存储器;
90.其中,该处理器被配置为:
91.获取用于进行声纹注册的注册音频;
92.确定注册音频的信噪比;
93.通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频;
94.基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量;
95.将目标特征向量作为声纹特征,为注册音频进行声纹注册。
96.根据本公开实施例的第五方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,程序被处理器执行时实现上述第一方面及第一方面的任一实施例所提供的声纹注册方法的方法步骤。
97.本公开实施例提供的技术方案可以包括以下有益效果:
98.通过在获取到用于声纹注册的注册音频后,通过与注册音频的信噪比数值对应的数据增强处理方式,来对注册音频进行数据增强处理,从而得到音频质量较好的目标音频,从而综合目标音频对应的特征向量,以及注册音频对应的特征向量,来实现声纹特征的确定,提高所确定出的声纹特征的复杂度,使得所确定出的声纹特征具有较强的抗干扰能力,进而基于所确定出的目标特征向量,来为注册音频进行声纹注册,以提高后续基于声纹特征进行声纹识别的过程的准确性。
99.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
100.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
101.图1是本公开根据一示例性实施例示出的一种声纹注册方法的流程图;
102.图2是本公开根据一示例性实施例示出的一种数据增强处理过程的流程图;
103.图3是本公开根据一示例性实施例示出的一种基于多个注册音频进行声纹注册的流程图;
104.图4是本公开根据一示例性实施例示出的一种声纹注册装置的框图;
105.图5是本公开根据一示例性实施例示出的一种计算设备的结构示意图。
具体实施方式
106.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
107.在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
108.应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这
些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
109.本公开提供了一种声纹注册方法,用于基于用户输入的注册音频,来为用户进行声纹注册。上述声纹注册方法可以由计算设备执行,计算设备可以为台式计算机、智能手机、智能手表、平板电脑、笔记本电脑,等等,本公开对计算设备的具体类型不加以限定。
110.在通过计算设备进行声纹注册时,可以通过语音引导用户说出注册文本,计算设备采集用户发出的语音,从而得到用于进行声纹注册的注册音频,进而通过本公开所提供的声纹注册方法,基于注册音频获取用户的声纹特征,实现声纹注册过程。
111.示例性地,通过上述声纹注册方法所获取到的声纹特征,可以应用于如下几种场景中:
112.场景一、在用户与智能设备(也即是计算设备)的人机交互场景中,在用户语音唤醒智能设备(如智能手机、智能家居等)时进行声纹验证,只有注册过声纹的用户可以通过验证,从而实现对智能设备的解锁,进而实现用户与智能设备之间的交互。
113.场景二、在通信系统、金融系统等系统呼叫中心中,可以应用声纹确认功能,将用户的声音作为验证用户身份的依据,从而在用户身份验证通过后,允许用于登录相应的账号。在上述场景中,可以在用户提供账号和密码等必要的身份验证信息的基础上,将用户的声纹特征作为识别用户身份的辅助信息,进而在用户自然的说话中就可以进一步确认用户的身份,进一步保证用户的账号安全,且不涉及隐私,用户不会产生任何心理障碍,用户接受程度高。
114.场景三、在涉及需要进行通话监听的场景中,可以应用声纹识别技术,来确定通话过程中是否存在目标人物的说话声,从而实现对目标人物的通话内容的监听。
115.上述为有关本公开的应用场景的几种示例性说明,并不构成对本公开的应用场景的限定,在更多可能的实现方式中,本公开还可以应用在其他多种涉及到声纹识别过程的场景中,本公开对此不加以限定。
116.在介绍了本公开的应用场景后,下面结合本公开对应的多个实施例,对本公开所提供的声纹注册方法进行详细说明。
117.参见图1,图1是本公开根据一示例性实施例示出的一种声纹注册方法的流程图,该方法可以由计算设备执行,包括以下步骤:
118.步骤101、获取用于进行声纹注册的注册音频。
119.在一种可能的实现方式中,计算设备可以通过麦克风组件获取用于进行声纹注册的注册音频,麦克风组件可以内置或外接于计算设备,本公开对此不加以限定。
120.步骤102、确定注册音频的信噪比。
121.其中,信噪比(signal-noise ratio,snr或s/n)还可以称为讯噪比,是指注册音频中信号与噪声的比例,信号也即是用户的说话声。
122.步骤103、通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频。
123.在一种可能的实现方式中,可以预先设置至少一个目标阈值,从而通过将该信噪
比的数值与目标阈值进行比较,进而根据比较结果,来确定要采取的数据增强处理方式,进而根据所确定出的数据增强处理方式,来对注册音频进行数据增强处理。
124.步骤104、基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量。
125.步骤105、将目标特征向量作为声纹特征,为注册音频进行声纹注册。
126.在一种可能的实现方式中,可以将确定出的目标特性向量作为声纹特征进行存储,从而实现注册音频的声纹注册。
127.本公开通过在获取到用于声纹注册的注册音频后,通过与注册音频的信噪比数值对应的数据增强处理方式,来对注册音频进行数据增强处理,从而得到音频质量较好的目标音频,从而综合目标音频对应的特征向量,以及注册音频对应的特征向量,来实现声纹特征的确定,提高所确定出的声纹特征的复杂度,使得所确定出的声纹特征具有较强的抗干扰能力,进而基于所确定出的目标特征向量,来为注册音频进行声纹注册,以提高后续基于声纹特征进行声纹识别的过程的准确性。
128.在介绍了本公开的基本实现过程之后,下面介绍本公开几个非限制性的可选实施例。
129.在一些实施例中,对于上述步骤101,在获取用于进行声纹注册的注册音频时,可以通过如下方式实现:
130.在一种可能的实现方式中,可以通过计算设备显示注册文本,并通过计算设备发出诸如“请读出所显示的文本”的语音提示,来引导用户进行声纹注册。用户发出语音后,计算设备即可通过内置或外接于计算设备的麦克风组件,来采集用户所发出的语音,从而得到用于声纹注册的注册音频。
131.通过计算设备显示注册文本,并通过计算设备发出语音提示,以便用户可以基于注册文本和语音提示,来进行注册音频的录制,在提高用户体验的同时,保证所录制的注册音频的规范性。
132.在一些实施例中,在获取到注册音频后,即可基于所获取到的注册音频,进行后续确定注册音频的过程。对于上述步骤102,在确定注册音频的信噪比时,可以通过如下方式实现:
133.在一种可能的实现方式中,可以基于所获取到的用于进行声纹注册的注册音频,获取注册音频的频谱,从而通过盲源分离技术,从注册音频的频谱中,分离出语音信号频谱和噪声信号频谱,以实现语音信号和噪声信号的分离,以便后续可以基于语音信号频谱和噪声信号频谱,分别确定语音信号功率和噪声信号功率,进而基于语音信号功率和噪声信号功率,确定注册音频的信噪比。
134.其中,在获取注册音频的频谱时,可以对获取到的注册音频进行傅里叶变换,得到注册音频在频域上的幅值信息,也即是,注册音频在各个频率所对应的幅值,从而得到注册音频的频谱。
135.在基于语音信号频谱确定语音信号功率时,可以对语音信号在各个频率的幅值取平方后求和值,所确定出的和值即为语音信号的能量,从而用语音信号的能量除以注册音频的音频时长,即可得到语音信号功率。
136.在基于噪声信号频谱确定噪声信号功率时,可以对噪声信号在各个频率的幅值取
平方后求和值,所确定出的和值即为噪声信号的能量,从而用噪声信号的能量除以注册音频的音频时长,即可得到噪声信号功率。
137.在基于语音信号功率和噪声信号功率确定注册音频的信噪比时,可以用语音信号功率除以噪声信号功率,即可得到注册音频的信噪比。可选地,可以以分贝(db)作为信噪比的度量单位,则可以通过如下公式(1),来进行信噪比的计算:
138.信噪比(db)=10*log
10
(s/n)(db)
ꢀꢀ
(1)
139.其中,s为语音信号功率,n为噪声信号功率。
140.上述过程是以在获取到注册音频后,直接基于注册音频进行信噪比的确定为例来进行说明的,在更多可能的实现方式中,还可以对获取到的注册音频进行进一步的处理,从而基于处理得到的音频,来进行信噪比的确定。
141.在一些实施例中,可以在获取到用于声纹注册的注册音频后,对注册音频进行检测,以确定注册音频是否满足目标条件,从而在注册音频满足目标条件的情况下,执行步骤102,来确定注册音频的信噪比。
142.其中,目标条件包括注册音频对应于目标文本,和/或,注册音频中的噪声分贝值小于预设分贝阈值。
143.下面分别对如何判断注册音频是否满足这两种目标条件进行详细说明。
144.在目标条件为注册音频对应于目标文本的情况下,对获取到的注册音频进行语音识别,从而得到注册音频对应的文本,进而对识别得到的文本与注册文本进行比较,以确定识别得到的文本与注册文本的相似度,在相似度大于预设相似度阈值的情况下,可以确定注册音频对应于目标文本。
145.其中,在对获取到的注册音频进行语音识别时,可以通过神经网络实现,例如,可以通过深度神经网络(deep neural networks,dnn)、基于加权有限状态机(weighted finite state transducer,wfst)的解码网络等实现,可选地,还可以采用其他方式来进行语音识别,本公开对具体采用哪种方式进行语音识别不加以限定。预设相似度阈值可以为任意取值,本公开对预设相似度阈值的具体取值不加以限定。
146.在目标条件为环境噪声的噪声分贝值小于预设分贝阈值的情况下,可以在用户未发出语音的情况下,采集环境噪声,从而基于所采集到的环境噪声,获取环境噪声的频谱,进而基于环境噪声的频谱,确定环境噪声的分贝值。预设分贝阈值可以为任意分贝值,本公开对预设分贝阈值的具体取值不加以限定。
147.其中,在基于环境噪声获取环境噪声的频谱时,可以对环境噪声进行傅里叶变换,得到环境噪声在频域上的幅值信息,也即是,环境噪声在各个频率所对应的幅值,从而得到环境噪声的频谱。
148.在基于环境噪声的频谱,确定环境噪声的分贝值时,可以对语音信号在各个频谱的幅值取平方后求和值,所确定出的和值即为环境噪声的能量,从而用环境噪声的能量除以环境噪声的录制时长,即可得到环境噪声的功率,进而通过如下公式(2),来计算环境噪声的分贝值:
149.环境噪声(db)=10*log
10
p(db)
ꢀꢀ
(2)
150.其中,p为环境噪声的功率。
151.需要说明的是,若计算设备在发出语音提示的同时,进行环境噪声的采集,所采集
到的环境噪声中会包括计算设备自身所发出的语音提示的声音,则在采集到环境噪声后,可以通过回声消除算法,来从所采集到的环境噪声中,去除计算设备自身所发出的语音提示的声音,从而得到仅包括环境音的环境噪声。
152.通过在计算设备所采集到的环境噪声中包括计算设备自身所发出的语音提示的声音的情况下,来对所采集到的环境噪声进行回声消除,从而保证所采集到的环境噪声较为纯净,进而提高后续所确定出的环境噪声的分贝值的准确性。
153.上述过程通过在获取到注册音频后,对注册音频是否满足目标条件进行检测,以确定注册音频是否能够用于进行声纹注册,从而保证用于进行声纹注册的注册音频的规范性,进而提高后续获取到的声纹特征的准确性。
154.需要说明的是,上述两种目标条件可以分别作为检测注册音频是否能够用于进行声纹注册的依据,此外,上述两种目标条件还可以结合使用,也即是,在注册音频对应于目标文本,且环境噪声的噪声分贝值小于预设分贝阈值的情况下,确定注册音频能够用于进行声纹注册。
155.此外,在另一些实施例中,在获取到用于声纹注册的注册音频后,还可以对注册音频进行语音端点检测(voice activity detection,vad),得到注册音频中包括说话人语音的有效音频,进而确定有效音频的信噪比,将有效音频的信噪比作为注册音频的信噪比。
156.其中,在对注册音频进行语音端点检测,以获取包括说话人语音的有效音频时,可以先将注册音频按照设定时长(比如20毫秒)进行分割,分割得到的每个单元称为帧,每帧中所包含的采样点的数量相同,然后计算每帧音频的能量值,计算每帧音频的能量值的过程与上述实施例中计算语音信号的能量的过程,以及计算噪声信号的能量的过程同理,此处不再赘述。
157.若某一帧音频前面部分连续x帧的能量值均小于预设能量值阈值,且这一帧音频后面的连续x帧的能量值均大于设定能量阈值,则可以将这一帧音频确定为有效音频的前端点。同理,若某一帧音频前面部分连续y帧的能量值均大于预设能量值阈值,且这一帧音频后面的连续y帧的能量值均小于设定能量阈值,则可以将这一帧音频确定为有效音频的后端点,从而将前端点与后端点之间的这部分音频,作为有效音频。其中,预设能量阈值、x和y均可以为任意取值,本公开对此不加以限定。
158.需要说明的是,确定有效音频的信噪比的过程与上述实施例中确定注册音频的信噪比的过程同理,此处不再赘述。
159.通过对注册音频进行语音端点检测,可检测出注册音频中所包括的静音段或非人声音频等无效部分,进而可以删除无效部分,而仅保留包括说话人语音的有效音频,提高用于确定信噪比的音频的信号质量,从而提高所确定出的信噪比的准确性,进而提高后续基于信噪比数值所进行的音频处理过程的准确性。
160.在一些实施例中,在确定出注册音频的信噪比后,即可基于所确定出的信噪比,来确定对注册音频进行数据增强处理时所要采取的数据增强处理方式,从而通过所确定出的数据增强处理方式,来对注册音频进行数据增强处理。
161.也即是,在上述步骤103之前,还可以包括以下过程:
162.基于信噪比的数值所属的数值区间,确定对应的数据增强处理方式;其中,不同的数值区间所对应的数据增强处理方式为加噪处理、加混响处理、变速处理和降噪处理中至
少一项。
163.在一种可能的实现方式中,可以预先设置有两个目标阈值(包括第一目标阈值和第二目标阈值),从而可以基于信噪比的数值与第一目标阈值、第二目标阈值的大小关系,来确定要采取的数据增强处理方式。
164.也即是,在基于信噪比的数值所属的数值区间,确定对应的数据增强处理方式时,可以包括下述任一种可能情况:
165.在一种可能的实现方式中,在信噪比的数值小于第一目标阈值的情况下,将数据增强处理方式确定为降噪处理。
166.在另一种可能的实现方式中,在信噪比的数值大于等于第一目标阈值小于第二目标阈值的情况下,将数据增强处理方式确定为变速处理。
167.在另一种可能的实现方式中,在信噪比的数值大于等于第二目标阈值的情况下,将数据增强处理方式确定为加噪处理、加混响处理以及变速处理中的至少一项。
168.通过设置第一目标阈值和第二目标阈值,可以将环境划分为三种状态,也即是安静、一般和噪声三种状态,从而根据实际环境的状态,来确定要采取的数据增强处理方式。
169.下面分别对这三种状态下的数据增强处理过程进行说明。
170.状态一、噪声状态:信噪比的数值小于第一目标阈值。
171.在一种可能的实现方式中,在信噪比的数值小于第一目标阈值的情况下,对注册音频进行降噪处理,得到第一目标音频。
172.为便于说明,下面以q来表示第一目标阈值。在信噪比的数值小于第一目标阈值(也即是snr<q)的情况下,可以认为用户处于噪声环境中,此时注册音频中的噪声较大,因而可以通过对注册音频进行降噪处理,来实现对注册音频的数据增强处理。
173.可选地,可以采用滤波的方法,来对注册音频进行降噪处理。例如,可以通过维纳滤波的方法,来对注册音频进行降噪处理。此外,还可以采用其他方法,来实现对目标音频的降噪处理,本公开对具体采用哪种方式不加以限定。
174.在通过对注册音频进行降噪处理得到第一目标音频后,对于上述步骤104,在基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量时,可以通过如下方式实现:
175.分别获取第一目标音频对应的第一特征向量以及注册音频对应的特征向量,对第一特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
176.其中,第一目标音频对应的第一特征向量以及注册音频对应的特征向量均可以为i-vector向量,则在获取第一目标音频对应的第一特征向量时,可以获取各个音频的i-vector向量,作为各个音频对应的特征向量。
177.在获取各个音频的i-vector向量时,可以通过i-vector提取器实现。下面以获取第一目标音频对应的第一特征向量的过程为例,对通过i-vector提取器获取i-vector向量的过程进行说明。
178.步骤一、确定第一目标音频的频谱。
179.在一种可能的实现方式中,在获取到第一目标音频后,对第一目标音频进行傅里叶变换,得到第一目标音频在频域上的幅值信息,也即是,第一目标音频在各个频率所对应的幅值,从而得到第一目标音频的频谱。
180.步骤二、基于第一目标音频的频谱,确定第一目标音频的梅尔频率倒谱系数(mel-frequency cepstral coefficient,mfcc)特征。
181.在一种可能的实现方式中,通过梅尔(mel)尺度滤波器组,对第一目标音频的频谱进行过滤,得到第一目标音频的至少一个能量值,从而对所确定出的能量值取对数,基于所确定出的对数值进行离散余弦变换(discrete cosine transform,dct),得到第一目标音频的mfcc特征。
182.其中,梅尔尺度滤波器组中包括至少一个梅尔尺度滤波器。在通过梅尔尺度滤波器组,对第一目标音频的频谱进行过滤时,也即是,通过至少一个梅尔尺度滤波器,对第一目标音频的频谱进行过滤。
183.在一种可能的实现方式中,在通过至少一个梅尔尺度滤波器,对第一目标音频的频谱进行过滤时,可以通过如下方式实现:
184.在获取到第一目标音频的频谱后,可以将所获取到的频谱与每一个梅尔尺度滤波器进行频率相乘累加,得到的数值即为第一目标音频在该滤波器对应频段的能量值,从而得到数量与滤波器数量一致的能量值。例如,若梅尔尺度滤波器的数量为12,则可以得到第一目标音频对应的12个能量值。
185.步骤三、通过高斯混合模型-通用背景模型(gaussian mixed model-universal background model,gmm-ubm),基于mfcc特征,确定第一目标音频对应的gmm参数m。
186.在一种可能的实现方式中,将mfcc特征输入gmm-ubm,通过最大后验概率(maximum a posteriori,map)算法自适应得到第一目标音频对应的gmm参数m。
187.步骤四、通过如下公式(3),基于第一目标音频对应的gmm参数m,确定第一目标音频对应的i-vector向量:
188.m=m+tω
ꢀꢀ
(3)
189.其中,m为第一目标音频对应的gmm参数,m为第一目标音频的信道无关分量,通常可以采用ubm的均值超矢量来代替,t是总体变化子空间矩阵,ω是包含了第一目标音频和信道信息的变化因子,即i-vector向量。
190.可选地,在确定第一目标音频的频谱前,还可以对第一目标音频进行预加重、加窗处理等,以提高第一目标音频的信号质量,从而提高后续音频处理过程的准确性。
191.可选地,该i-vector提取器可以通过预先训练得到,i-vector提取器的训练过程包括:
192.步骤一、获取样本音频,并基于所获取到的样本音频,确定样本音频的样本频谱。
193.该步骤与上述确定第一目标音频的频谱的过程同理,此处不再赘述。
194.步骤二、基于样本频谱,确定样本音频的mfcc特征。
195.该步骤与上述基于第一目标音频的频谱,确定第一目标音频的mfcc特征的过程同理,此处不再赘述。
196.步骤三、通过gmm-ubm,基于mfcc特征,确定第一目标音频对应的gmm参数m,并计算第一目标音频的前向-后向(baum-welch)统计量。
197.其中,baum-welch统计量可以为baum-welch一阶统计量,baum-welch一阶统计量的计算方式可以参见如下公式(4):
198.nc(s)=∑
t
γ
t
(c)
ꢀꢀ
(4)
199.其中,nc(s)表示第一目标音频对应的baum-welch一阶统计量,t表示时间段,γ
t
(c)表示mfcc特征对第c个gmm混合分量的后验概率,γ
t
(c)可以通过如下公式(5)确定:
[0200][0201]
其中,wc表示ubm中第c个高斯分量的混合权值,pc(y
t
)表示特征矢量y
t
相对于第c个高斯分量的状态占有率,也就是y
t
落入c状态的后验分布,c表示混合高斯分量总数,wj表示ubm中第j个高斯分量的混合权值,pj(y
t
)表示特征矢量y
t
相对于第j个高斯分量的状态占有率,也就是y
t
落入j状态的后验分布。
[0202]
步骤五、基于mfcc特征训练gmm-ubm模型,并通过gmm-ubm模型计算mfcc特征的高维充分统计量。
[0203]
步骤六、基于baum-welch统计量训练i-vector提取器,以便后续可以利用训练好的i-vector提取器来进行i-vector向量的提取。
[0204]
上述过程是以获取第一目标音频对应的第一特征向量的过程为例来进行说明的,获取注册音频对应的特征向量的过程,与上述过程同理,此处不再赘述。
[0205]
为便于说明,可以将第一目标音频对应的第一特征向量记为i
noise_slience
,将注册音频对应的特征向量记为i,从而可以通过如下公式(6),来对第一特征向量和注册音频对应的特征向量进行加权求和:
[0206]isum
=m*i+n*i
noise_slience
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0207]
其中,i
sum
为目标特征向量,i
noise_slience
为第一特征向量,i为注册音频对应的特征向量,m为注册音频对应的特征向量的权重,n为第一特征向量对应的权重,m和n均可以为大于0小于1的任意值,本公开对m和n的具体取值不加以限定,保证m+n=1即可。
[0208]
状态二、介于安静状态和噪声状态之间的一般状态:信噪比的数值大于等于第一目标阈值小于第二目标阈值。
[0209]
在一种可能的实现方式中,在信噪比的数值大于等于第一目标阈值小于第二目标阈值的情况下,对注册音频进行变速处理,得到第二目标音频。
[0210]
为便于说明,下面以q来表示第一目标阈值,以p来表示第二目标阈值。在信噪比的数值大于等于第一目标阈值小于第二目标阈值(也即是q≤snr<p)的情况下,可以认为用户当前所处的环境介于安静环境和噪声环境之间,此时注册音频中的噪声适中,因而可以通过对注册音频进行变速处理,来实现对注册音频的数据增强处理。
[0211]
可选地,在对注册音频进行变速处理时,可以按照预设采样率,从注册音频的频谱中进行采样,从而基于采样得到的频谱,生成第二目标音频,实现对注册音频的变速处理。
[0212]
其中,该预设采样率可以为基于变速需求设置的任意取值,本公开对预设采样率的具体取值不加以限定。
[0213]
例如,若第二目标音频是注册音频二倍速后得到的音频,则可以将预设采样率设置为当前采样率的2倍,即可从注册音频的频谱中,获取到二倍速的第二目标音频对应的频谱,从而获取到二倍速的第二目标音频。
[0214]
在通过对注册音频进行变速处理得到第二目标音频后,对于上述步骤104,在基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量时,可以通过如下方式实现:
[0215]
分别获取第二目标音频对应的第二特征向量以及注册音频对应的特征向量,进而对第二特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
[0216]
其中,第二目标音频对应的第二特征向量以及注册音频对应的特征向量均可以为i-vector向量,获取第二目标音频对应的第二特征向量的过程,与上述实施例中,获取第一目标音频对应的第一特征向量的过程同理,此处不再赘述。
[0217]
为便于说明,可以将第二目标音频对应的第二特征向量记为i
speed
,将注册音频对应的特征向量记为i,从而可以通过如下公式(7),来对第二特征向量和注册音频对应的特征向量进行加权求和:
[0218]isum
=u*i+v*i
speed
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0219]
其中,i
sum
为目标特征向量,i
speed
为第二特征向量,i为注册音频对应的特征向量,u为注册音频对应的特征向量的权重,v为第二特征向量对应的权重,u和v均可以为大于0小于1的任意值,本公开对u和v的具体取值不加以限定,保证u+v=1即可。
[0220]
状态三、安静状态:信噪比的数值大于等于第二目标阈值。
[0221]
在一种可能的实现方式中,在信噪比的数值大于等于第二目标阈值的情况下,可以通过加噪处理、加混响处理、变速处理中的至少一项,来对注册音频进行处理,从而实现对注册音频的数据增强处理。
[0222]
在信噪比的数值小于第一目标阈值(也即是snr≥p)的情况下,可以认为用户处于安静环境中,此时注册音频中的噪声较小,因而可以通过对注册音频进行加噪处理、加混响处理以及变速处理中的至少一项,来实现对注册音频的数据增强处理。
[0223]
也即是,在信噪比大于等于第二目标阈值的情况下,获取目标音频的方式可以包括如下至少一项:
[0224]
在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行加噪处理,得到第三目标音频。
[0225]
在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行加混响处理,得到第四目标音频。
[0226]
在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行变速处理,得到第五目标音频。
[0227]
在一种可能的实现方式中,在对注册音频进行加噪处理时,可以将待添加的噪声的频谱,与注册音频的频谱进行混叠,从而得到混叠后的频谱,进而基于混叠后的频谱,生成第三目标音频,实现对注册音频的加噪处理。可选地,待添加的噪声可以为高斯白噪声,或者,待添加的噪声还可以为其他类型的噪声,本公开对待添加的噪声的具体类型不加以限定。
[0228]
在一种可能的实现方式中,在对注册音频进行加混响处理时,可以基于注册音频,确定至少一个反射信号,从而获取这至少一个反射信号的频谱,进而将该至少一个反射信号的频谱,与注册音频的频谱进行混叠,从而得到混叠后的频谱,进而基于混叠后的频谱,生成第四目标音频,实现对注册音频的加混响处理。
[0229]
需要说明的是,上述通过对注册音频进行变速处理,以得到第五注册音频的过程,与上述实施例中,对注册音频进行变速处理,以得到第二目标音频的过程同理,此处不再赘述。
[0230]
需要说明的是,上述三种数据增强处理方式可以单独使用,也可以任意两种方式结合使用,也可以三种方式结合使用,本公开对此不加以限定。
[0231]
在通过上述过程获取到通过加噪处理所得到的第三目标音频、通过加混响处理所得到的第四目标音频以及通过变速处理所得到的第五目标音频后,对于上述步骤104,在基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量时,可以通过如下方式实现:
[0232]
获取第三目标音频对应的第三特征向量、第四目标音频对应的第四特征向量、第五目标音频对应的第五特征向量中的至少一项,以及注册音频对应的特征向量;对第三特征向量、第四特征向量、第五特征向量中的至少一项,与注册音频对应的特征向量进行加权求和,得到目标特征向量。
[0233]
也即是,可以获取第三目标音频对应的第三特征向量以及注册音频对应的特征向量,从而对第三特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
[0234]
还可以获取第四目标音频对应的第四特征向量以及注册音频对应的特征向量,从而对第四特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
[0235]
还可以获取第五目标音频对应的第五特征向量以及注册音频对应的特征向量,从而对第五特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
[0236]
还可以获取第三目标音频对应的第三特征向量、第四目标音频对应的第四特征向量、第五目标音频对应的第五特征向量中的任意两项,从而对获取到的特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
[0237]
还可以获取第三目标音频对应的第三特征向量、第四目标音频对应的第四特征向量、第五目标音频对应的第五特征向量,从而对第三特征向量、第四特征向量、第五特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
[0238]
其中,第三目标音频对应的第三特征向量、第四目标音频对应的第四特征向量、第五目标音频对应的第五特征向量以及注册音频对应的特征向量均可以为i-vector向量,获取第三目标音频对应的第三特征向量、第四目标音频对应的第四特征向量以及第五目标音频对应的第五特征向量的过程,与上述实施例中,获取第一目标音频对应的第一特征向量的过程同理,此处不再赘述。
[0239]
以在对注册音频进行数据处理方式时采用了加噪处理、加混响处理和变速处理三种方式为例,则在确定目标特征向量时,可以通过如下公式(8),来对第三特征向量、第四特征向量、第五特征向量和注册音频对应的特征向量进行加权求和:
[0240]isum
=a*i+b*i
noise
+c*i
reverb
+d*i
speed
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0241]
其中,i
sum
为目标特征向量,i
noise
为第三特征向量,i
reverb
为第四特征向量,i
speed
为第五特征向量,i为注册音频对应的特征向量,a为注册音频对应的特征向量的权重,b为第三特征向量对应的权重,c为第四特征向量对应的权重,d为第五特征向量对应的权重,a、b、c、d均可以为大于0小于1的任意值,本公开对a、b、c、d的具体取值不加以限定,保证a+b+c+d=1即可。
[0242]
需要说明的是,上述过程中所涉及到的第一目标阈值和第二目标阈值均为任意取值,保证第一目标阈值的取值小于第二目标阈值即可。
[0243]
上述数据增强处理过程可以参见图2,图2是本公开根据一示例性实施例示出的一
种数据增强处理过程的流程图,用户基于注册文本,对计算设备的麦克风组件录入语音后,计算设备即可获取到用于声纹注册的注册音频,从而可以对注册音频进行语音端点检测,得到仅包括说话人语音的有效音频,以便基于有效音频,计算注册音频的信噪比,从而基于信噪比的数值,来对注册音频进行数据增强处理。在snr≥p的情况下,对注册音频进行加噪处理、加混响处理和变速处理,从而分别基于用于声纹注册的原音频(也即是注册音频)、加噪后的注册音频、加混响后的注册音频以及变速后的注册音频,进行特征向量的提取,得到4个特征向量,进而为这4个特征向量分配不同的权重,来对这4个向量进行加权求和,得到注册音频的目标特征向量;在snr<q的情况下,对注册音频进行降噪处理,从而分别基于用于声纹注册的原音频以及降噪后的注册音频,进行特征向量的提取,得到2个特征向量,进而为这2个特征向量分配不同的权重,来对这2个向量进行加权求和,得到注册音频的目标特征向量;在q≤snr<p的情况下,对注册音频进行变速处理,从而分别基于用于声纹注册的原音频以及变速后的注册音频,进行特征向量的提取,得到2个特征向量,进而为这2个特征向量分配不同的权重,来对这2个向量进行加权求和,得到注册音频的目标特征向量。需要说明的是,上述各个特征向量均可以为i-vector向量。
[0244]
通过上述数据增强处理过程,可以有效提高音频的质量。通过降噪处理、加噪处理、加混响处理、变速处理这些数据增强处理,可以提高获取到的目标特征向量的复杂度,从而提高获取到的用于进行声纹注册的声纹特征的复杂度,使得所确定出的声纹特征更加能够表征用户的声纹,具有更强的鲁棒性和抗干扰能力。从而使得后续在进行声纹识别时,如果用户进行声纹验证时所处的环境状态与声纹注册时所产生的环境状态差别较大,能有效提高此时声纹识别的准确性,以适应用户在千差万别的环境中实现声纹识别的要求,提升用户体验。
[0245]
上述实施例是以获取到一个注册音频,从而基于一个注册音频来进行声纹注册为例来进行说明的,在更多可能的实现方式中,还可以获取多个注册音频,从而基于这多个注册音频来进行声纹注册。
[0246]
在一种可能的实现方式中,获取多个注册音频,从而基于多个注册音频,确定多个目标特征向量,进而确定多个目标特征向量的平均特征向量,将平均特征向量作为用于进行声纹注册的声纹特征。
[0247]
以获取到5个注册音频,从而基于这5个注册音频,来进行声纹注册的过程为例来进行说明,分别对这5个音频进行如上述步骤101至步骤104以及各个可选实施例的处理过程,从而得到5个目标特征向量,进而通过如下公式(9),来确定这5个目标特征向量的平均特征向量,从而将所确定出的平均特征向量,作为用于进行声纹注册的声纹特征。
[0248]iarv
=∑i1+i2+i3+i4+i5ꢀꢀ
(9)
[0249]
其中,i
arv
为平均特征向量,i1、i2、i3、i4、i5分别为5个目标特征向量。
[0250]
上述基于多个注册音频来进行声纹注册的过程可以参见图3,图3是本公开根据一示例性实施例示出的一种基于多个注册音频进行声纹注册的流程图,当注册音频的数量(count)为0时,语音引导说话人根据注册文本录入语音,从而获取到1个注册音频,在注册音频满足目标条件的情况下,对注册音频进行数据增强处理,从而基于数据增强处理后的音频和注册音频,来进行目标特征向量的确定。在确定出第一个注册音频对应的目标特征向量后,将注册音频的数量加1,从而确定更新后的注册音频的数量是否为k,在更新后的注
册音频的数量不是k的情况下,继续进行注册音频的获取、目标特征向量的确定以及注册音频的数量的更新,直至更新后的注册音频的数量为k。其中,k为声纹注册所需要的注册音频的数量,k可以为任意正整数值,本公开对k的具体取值不加以限定。
[0251]
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。
[0252]
其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
[0253]
与前述应用功能实现方法实施例相对应,本公开还提供了相应的声纹注册装置及相应的计算设备的实施例。
[0254]
参见图4,图4是本公开根据一示例性实施例示出的一种声纹注册装置的框图,该装置可以包括:
[0255]
获取模块401,用于获取用于进行声纹注册的注册音频;
[0256]
确定模块402,用于确定注册音频的信噪比;
[0257]
处理模块403,用于通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频;
[0258]
该确定模块402,还用于基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量;
[0259]
注册模块404,用于将目标特征向量作为声纹特征,为注册音频进行声纹注册。
[0260]
在本公开的一些实施例中,该确定模块402,还用于基于信噪比的数值所属的数值区间,确定对应的数据增强处理方式;
[0261]
其中,不同的数值区间所对应的数据增强处理方式为加噪处理、加混响处理、变速处理和降噪处理中至少一项。
[0262]
在本公开的一些实施例中,该确定模块402,在用于基于信噪比的数值所属的数值区间,确定对应的数据增强处理方式时,用于下述任一项:
[0263]
在信噪比的数值小于第一目标阈值的情况下,将数据增强处理方式确定为降噪处理;
[0264]
在信噪比的数值大于等于第一目标阈值小于第二目标阈值的情况下,将数据增强处理方式确定为变速处理;
[0265]
在信噪比的数值大于等于第二目标阈值的情况下,将数据增强处理方式确定为加噪处理、加混响处理以及变速处理中的至少一项。
[0266]
在本公开的一些实施例中,该处理模块403,在用于通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频时,用于:
[0267]
在信噪比的数值小于第一目标阈值的情况下,对注册音频进行降噪处理,得到第一目标音频。
[0268]
在本公开的一些实施例中,该确定模块402,在用于基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量时,用于:
[0269]
分别获取第一目标音频对应的第一特征向量以及注册音频对应的特征向量;
[0270]
对第一特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
[0271]
在本公开的一些实施例中,该处理模块403,在用于通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频时,用于:
[0272]
在信噪比的数值大于等于第一目标阈值小于第二目标阈值的情况下,对注册音频进行变速处理,得到第二目标音频。
[0273]
在本公开的一些实施例中,该确定模块402,在用于基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量时,用于:
[0274]
分别获取第二目标音频对应的第二特征向量以及注册音频对应的特征向量;
[0275]
对第二特征向量和注册音频对应的特征向量进行加权求和,得到目标特征向量。
[0276]
在本公开的一些实施例中,该处理模块403,在用于通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频时,用于下述至少一项:
[0277]
在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行加噪处理,得到第三目标音频;
[0278]
在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行加混响处理,得到第四目标音频;
[0279]
在信噪比的数值大于等于第二目标阈值的情况下,对注册音频进行变速处理,得到第五目标音频。
[0280]
在本公开的一些实施例中,该确定模块402,在用于基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量时,用于:
[0281]
获取第三目标音频对应的第三特征向量、第四目标音频对应的第四特征向量、第五目标音频对应的第五特征向量中的至少一项,以及注册音频对应的特征向量;
[0282]
将第三特征向量、第四特征向量、第五特征向量中的至少一项,与注册音频对应的特征向量进行加权求和,得到目标特征向量。
[0283]
在本公开的一些实施例中,该确定模块402,在用于确定注册音频的信噪比时,用于:
[0284]
对注册音频进行语音端点检测,得到注册音频中包括说话人语音的有效音频;
[0285]
确定有效音频的信噪比,将有效音频的信噪比作为注册音频的信噪比。
[0286]
在本公开的一些实施例中,该确定模块402,在用于确定注册音频的信噪比时,用于:
[0287]
在注册音频满足目标条件的情况下,确定注册音频的信噪比;
[0288]
其中,目标条件包括注册音频对应于目标文本,和/或,环境噪声的噪声分贝值小于预设分贝阈值。
[0289]
在本公开的一些实施例中,该获取模块401,还用于获取多个注册音频;
[0290]
该确定模块402,还用于基于多个注册音频,确定多个目标特征向量;
[0291]
该确定模块402,还用于确定多个目标特征向量的平均特征向量;
[0292]
该注册模块404,还用于将平均特征向量作为声纹特征,为注册音频进行声纹注册。
[0293]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中上述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以
不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0294]
本公开实施例还提供了一种计算设备,该计算设备包括:处理器;用于存储处理器可执行指令的存储器;其中,上述处理器被配置为执行下述步骤:
[0295]
获取用于进行声纹注册的注册音频;
[0296]
确定注册音频的信噪比;
[0297]
通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频;
[0298]
基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量;
[0299]
将目标特征向量作为声纹特征,为注册音频进行声纹注册。
[0300]
图5是本公开根据一示例性实施例示出的一种计算设备的结构示意图。例如,计算设备500可以是用户设备,可以具体为移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理,可穿戴设备如智能手表、智能眼镜、智能手环、智能跑鞋等。
[0301]
参见图5,计算设备500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(i/o)的接口512,传感器组件514,以及通信组件516。
[0302]
处理组件502通常控制计算设备500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述声纹注册方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
[0303]
存储器504被配置为存储各种类型的数据以支持在计算设备500的操作。这些数据的示例包括用于在计算设备500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0304]
电源组件506为计算设备500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为计算设备500生成、管理和分配电力相关联的组件。
[0305]
多媒体组件508包括在上述计算设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当计算设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0306]
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(mic),当计算设备500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
[0307]
i/o接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0308]
传感器组件514包括一个或多个传感器,用于为计算设备500提供各个方面的状态评估。例如,传感器组件514可以检测到计算设备500的打开/关闭状态,组件的相对定位,例如上述组件为计算设备500的显示器和小键盘,传感器组件514还可以检测计算设备500或计算设备500一个组件的位置改变,用户与计算设备500接触的存在或不存在,计算设备500方位或加速/减速和计算设备500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0309]
通信组件516被配置为便于计算设备500和其他设备之间有线或无线方式的通信。计算设备500可以接入基于通信标准的无线网络,如wifi,2g或3g,4g lte、5g nr或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,上述通信组件516还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0310]
在示例性实施例中,计算设备500可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述声纹注册方法。
[0311]
在示例性实施例中,还提供了一种非临时性计算机可读存储介质,例如包括指令的存储器504,当存储介质中的指令由计算设备500的处理器520执行时,使得计算设备500能够执行声纹注册方法,该方法包括:
[0312]
获取用于进行声纹注册的注册音频;
[0313]
确定注册音频的信噪比;
[0314]
通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频;
[0315]
基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量;
[0316]
将目标特征向量作为声纹特征,为注册音频进行声纹注册。
[0317]
该非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0318]
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,程序被计算设备500的处理器520执行时,使得计算设备500能够执行一种声纹注册方法,该方法包括:
[0319]
获取用于进行声纹注册的注册音频;
[0320]
确定注册音频的信噪比;
[0321]
通过与信噪比的数值对应的数据增强处理方式,对注册音频进行数据增强处理,得到目标音频;
[0322]
基于目标音频对应的特征向量和注册音频对应的特征向量,确定目标特征向量;
[0323]
将目标特征向量作为声纹特征,为注册音频进行声纹注册。
[0324]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0325]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征:
1.一种声纹注册方法,其特征在于,所述方法包括:获取用于进行声纹注册的注册音频;确定所述注册音频的信噪比;通过与所述信噪比的数值对应的数据增强处理方式,对所述注册音频进行数据增强处理,得到目标音频;基于所述目标音频对应的特征向量和所述注册音频对应的特征向量,确定目标特征向量;将所述目标特征向量作为声纹特征,为所述注册音频进行声纹注册。2.根据权利要求1所述的方法,其特征在于,所述通过与所述信噪比的数值对应的数据增强处理方式,对所述注册音频进行数据增强处理,得到目标音频之前,所述方法还包括:基于所述信噪比的数值所属的数值区间,确定对应的数据增强处理方式;其中,不同的数值区间所对应的数据增强处理方式为加噪处理、加混响处理、变速处理和降噪处理中至少一项。3.根据权利要求2所述的方法,其特征在于,所述基于所述信噪比的数值所属的数值区间,确定对应的数据增强处理方式,包括下述任一项:在所述信噪比的数值小于第一目标阈值的情况下,将所述数据增强处理方式确定为降噪处理;在所述信噪比的数值大于等于第一目标阈值小于第二目标阈值的情况下,将所述数据增强处理方式确定为变速处理;在所述信噪比的数值大于等于第二目标阈值的情况下,将所述数据增强处理方式确定为加噪处理、加混响处理以及变速处理中的至少一项。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述通过与所述信噪比的数值对应的数据增强处理方式,对所述注册音频进行数据增强处理,得到目标音频,包括:在所述信噪比的数值小于第一目标阈值的情况下,对所述注册音频进行降噪处理,得到第一目标音频。5.根据权利要求4所述的方法,其特征在于,所述基于所述目标音频对应的特征向量和所述注册音频对应的特征向量,确定目标特征向量,包括:分别获取所述第一目标音频对应的第一特征向量以及所述注册音频对应的特征向量;对所述第一特征向量和所述注册音频对应的特征向量进行加权求和,得到所述目标特征向量。6.根据权利要求1所述的方法,其特征在于,所述通过与所述信噪比的数值对应的数据增强处理方式,对所述注册音频进行数据增强处理,得到目标音频,包括:在所述信噪比的数值大于等于第一目标阈值小于第二目标阈值的情况下,对所述注册音频进行变速处理,得到第二目标音频。7.根据权利要求6所述的方法,其特征在于,所述基于所述目标音频对应的特征向量和所述注册音频对应的特征向量,确定目标特征向量,包括:分别获取所述第二目标音频对应的第二特征向量以及所述注册音频对应的特征向量;对所述第二特征向量和所述注册音频对应的特征向量进行加权求和,得到所述目标特征向量。
8.根据权利要求1所述的方法,其特征在于,所述通过与所述信噪比的数值对应的数据增强处理方式,对所述注册音频进行数据增强处理,得到目标音频,包括下述至少一项:在所述信噪比的数值大于等于第二目标阈值的情况下,对所述注册音频进行加噪处理,得到第三目标音频;在所述信噪比的数值大于等于第二目标阈值的情况下,对所述注册音频进行加混响处理,得到第四目标音频;在所述信噪比的数值大于等于第二目标阈值的情况下,对所述注册音频进行变速处理,得到第五目标音频。9.根据权利要求8所述的方法,其特征在于,所述基于所述目标音频对应的特征向量和所述注册音频对应的特征向量,确定目标特征向量,包括:获取所述第三目标音频对应的第三特征向量、所述第四目标音频对应的第四特征向量、所述第五目标音频对应的第五特征向量中的至少一项,以及所述注册音频对应的特征向量;将所述第三特征向量、所述第四特征向量、所述第五特征向量中的至少一项,与所述注册音频对应的特征向量进行加权求和,得到所述目标特征向量。10.根据权利要求1所述的方法,其特征在于,所述确定所述注册音频的信噪比,包括:对所述注册音频进行语音端点检测,得到所述注册音频中包括说话人语音的有效音频;确定所述有效音频的信噪比,将所述有效音频的信噪比作为所述注册音频的信噪比。11.根据权利要求1所述的方法,其特征在于,所述确定所述注册音频的信噪比,包括:在所述注册音频满足目标条件的情况下,确定所述注册音频的信噪比;其中,所述目标条件包括所述注册音频对应于目标文本,和/或,环境噪声的噪声分贝值小于预设分贝阈值。12.根据权利要求1所述的方法,其特征在于,所述方法包括:获取多个注册音频;基于所述多个注册音频,确定多个目标特征向量;确定所述多个目标特征向量的平均特征向量;将所述平均特征向量作为声纹特征,为所述注册音频进行声纹注册。13.一种声纹注册装置,其特征在于,所述装置包括:获取模块,用于获取用于进行声纹注册的注册音频;确定模块,用于确定所述注册音频的信噪比;处理模块,用于通过与所述信噪比的数值对应的数据增强处理方式,对所述注册音频进行数据增强处理,得到目标音频;所述确定模块,还用于基于所述目标音频对应的特征向量和所述注册音频对应的特征向量,确定目标特征向量;注册模块,用于将所述目标特征向量作为声纹特征,为所述注册音频进行声纹注册。14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一所述的声纹注册方法的方法步骤。15.一种计算设备,其特征在于,所述计算设备包括:
处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取用于进行声纹注册的注册音频;确定所述注册音频的信噪比;通过与所述信噪比的数值对应的数据增强处理方式,对所述注册音频进行数据增强处理,得到目标音频;基于所述目标音频对应的特征向量和所述注册音频对应的特征向量,确定目标特征向量;将所述目标特征向量作为声纹特征,为所述注册音频进行声纹注册。

技术总结
本公开提供一种声纹注册方法、装置、计算设备及介质,属于音频处理技术领域。本公开通过在获取到用于声纹注册的注册音频后,通过与注册音频的信噪比数值对应的数据增强处理方式,来对注册音频进行数据增强处理,从而得到音频质量较好的目标音频,从而综合目标音频对应的特征向量,以及注册音频对应的特征向量,来实现声纹特征的确定,提高所确定出的声纹特征的复杂度,使得所确定出的声纹特征具有较强的抗干扰能力,进而基于所确定出的目标特征向量,来为注册音频进行声纹注册,以提高后续基于声纹特征进行声纹识别的过程的准确性。于声纹特征进行声纹识别的过程的准确性。于声纹特征进行声纹识别的过程的准确性。


技术研发人员:刘佳杨 史润宇
受保护的技术使用者:北京小米移动软件有限公司
技术研发日:2022.01.19
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐