一种声纹识别方法、装置、终端及存储介质与流程

未命名 09-02 阅读:171 评论:0


1.本发明涉及人工智能技术领域,具体涉及一种声纹识别方法、装置、终端及存储介质。


背景技术:

2.声纹信息中包含了说话人的身份信息,是一种通过语音波形反映说话人生理和行为特征的语音信息。但是没有包含说话人的生命信息,所以声纹识别模型可以抵御冒名攻击而无法有效防御攻击。声纹识别是指通过未知说话人或不确定说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对,做出两者是否同一的结论的过程,为了提升声纹识别的准确性和高效性,设计一种声纹识别分析方法是非常必要的。


技术实现要素:

3.因此,本发明提供的一种声纹识别方法、装置、终端及存储介质,克服了现有技术中对于待识别语音识别准确率低、速度慢的缺陷。
4.为达到上述目的,本发明提供如下技术方案:
5.第一方面,本发明实施例提供一种声纹识别方法,包括:
6.获取测试语音和训练语音,所述测试语音和训练语音均包括多个语音特征;
7.将测试语音和训练语音分别输入到训练好的声纹模型中,获得测试语音中多个语音特征分别对应预设语音特征的第一后验概率矩阵,及训练语音中多个语音特征分别对应预设语音特征的第二后验概率矩阵;
8.利用cds相似度算法,对第一后验概率矩阵及第二后验概率矩阵进行相似度比较,得到所述测试语音的声纹识别结果。
9.可选地,所述声纹模型包括包括:声纹背景子模型、声纹分类子模型及声纹识别子模型,其中,
10.声纹背景子模型,用于滤除输入语音的背景噪声;
11.声纹分类子模型,用于对输入语音进行分类,其中,每个语音样本均对应有一个类别标签;
12.声纹识别子模型,用于对输入语音进行声纹目标识别。
13.可选地,所述声纹模型中任意一个子模型的训练过程均包括:
14.获取预设语音集,所述预设语音集包括多个语音样本;
15.采用小波变换对预设语音集进行分解,提取多个语音样本特征对应的小波熵;
16.将所述小波熵输入预设神经网络训练声纹子模型中进行训练,当满足预设条件时,得到训练好的声纹子模型。
17.可选地,所述声纹分类子模型通过em估计算法验证该子模型是否完成训练。
18.可选地,所述声纹识别子模型通过map算法验证该子模型是否完成训练。
19.可选地,所述预设神经网络为卷积神经网络,其结构包括:输入层、第一隐藏层、第
二隐藏层、第三隐藏层、第四隐藏层及输出层,后验概率矩阵为预设神经网络的输出。
20.可选地,所述语音特征包括:语音频率、语音分贝、语音的语义及语音字符的数量。
21.第二方面,本发明实施例提供一种声纹识别装置,包括:
22.获取模块,用于获取测试语音和训练语音,所述测试语音和训练语音均包括多个语音特征;
23.训练模块,用于将测试语音和训练语音分别输入到训练好的声纹模型中,获得测试语音中多个语音特征分别对应预设语音特征的第一后验概率矩阵,及训练语音中多个语音特征分别对应预设语音特征的第二后验概率矩阵;
24.识别模块,用于利用cds相似度算法,对第一后验概率矩阵及第二后验概率矩阵进行相似度比较,得到所述测试语音的声纹识别结果。
25.第三方面,本发明实施例提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的声纹识别方法。第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的声纹识别方法。
26.本发明技术方案,具有如下优点:
27.本发明提供的一种声纹识别方法、装置、终端及存储介质,通过本发明提供的声纹模型,分别计算测试语音和训练语音的后验概率矩阵,利用cds相似度算法,对两个矩阵进行相似度比较,得到测试语音的声纹识别结果,通过本发明提供的方法提高了运算的速度及声纹识别的准确率。
附图说明
28.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
29.图1为本发明实施例提供的一种声纹识别方法的一个具体示例的流程图;
30.图2为本发明实施例提供的卷积神经网络的一个具体示例的结构图;
31.图3为本发明实施例提供的一种声纹识别装置一个具体示例的模块组成图;
32.图4为本发明实施例提供的一种终端一个具体示例的组成图。
具体实施方式
33.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
34.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、
以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
35.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
36.此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
37.实施例1
38.本发明实施例提供的一种声纹识别方法,用于音响、手机等需要通过识别声纹信息进行工作的终端设备。
39.如图1所示,包括如下步骤:
40.步骤s1:获取测试语音和训练语音,测试语音和训练语音均包括多个语音特征。
41.在本发明实施例中,通过语音录制设备获取测试语音及训练语音,语音的录制设备在此不作限制,根据实际情况进行相应的选取。语音特征包括:语音频率、语音分贝、语音的语义及语音字符的数量,仅以此举例,不以此为限,在实际应用中根据实际情况划分相应的语音特征。例如:根据说话人的声音,可以将此人的语音特征按照快慢、高低、长短、及语气状态进行划分,语气状态分为:疑问、肯定、否定、惊讶等表示状态的信息。
42.步骤s2:将测试语音和训练语音分别输入到训练好的声纹模型中,获得测试语音中多个语音特征分别对应预设语音特征的第一后验概率矩阵,及训练语音中多个语音特征分别对应预设语音特征的第二后验概率矩阵。
43.在本发明实施例中,声纹模型包括:声纹背景子模型、声纹分类子模型及声纹识别子模型。声纹背景子模型用于滤除输入语音的背景噪声,通过对输入语音进行去噪处理,得到去噪后的待识别语音,基于去噪后的待识别语音进行声纹识别,有助于提高声纹识别结果。声纹分类子模型用于对输入语音进行分类,每个语音样本均对应有一个类别标签,分类的类别标签可以是男人、女人、小孩、动物等,类别标签在此不作限制,根据实际情况进行相应的选取。声纹识别子模型,用于对输入语音进行声纹目标识别,将输入语音进行目标确定。
44.在本发明实施例中,三个子模型的训练过程均相同,任意一个子模型的训练过程均包括:
45.获取预设语音集,预设语音集包括多个语音样本,三个子模型训练时分别获取不同的语音集,分别为背景语音集、开发语音集及目标语音集。背景语音集记录不同的背景下说话人的语音,按照背景进行划分;开发语音集记录的是对说话者按照标签类别进行划;目标语音集记录的是各个不同人的语音信息。预设语音集的语音样本在此不作限制根据实际情况选取相应的数量。
46.采用小波变换对预设语音集进行分解,提取多个语音样本特征对应的小波熵,根据小波变换将语音特征从时域转换到频域进行分析,语音信号是一个非稳态的、时变的信号,基于小波自适应的原理、及全局处理的性能,所以用小波变换提取语音特征信息,抑制
了全局噪音干扰,并利用小波局部性特性抑制了局部噪音的干扰。。
47.将小波熵输入预设神经网络训练声纹子模型中进行训练,当满足预设条件时,得到训练好的声纹子模型。预设条件在此不作限制,根据实际情况进行相应的选取,例如:循环的次数超过预设数值和/或达到预设精度时,停止训练得到训练好的声纹子模型。声纹分类子模型是对输入语音进行分类,此时通过em估计算法验证该子模型是否完成训练;而声纹识别子模型是对输入语音进行目标确定,此时通过map算法验证该子模型是否完成训练,基于两种模型的不同作用所以采用不同的验证算法进行验证。
48.在本发明实施例中,预设神经网络为卷积神经网络,其结构包括:输入层、第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层及输出层,是一个六层的网络结构,后验概率矩阵为预设神经网络的输出。
49.在一具体实施例中,提出了一种基于卷积神经网络的因子分析技术模型(i-vector),i-vector是一种基于因子分析技术的说话人模型,能够较准确地对蕴含在语音特征中的说话人身份信息进行编码。
50.利用卷积神经网络cnn结构提出了一个通用背景模型(universal background model,ubm)即cnn-ubm。本发明实施例是利用i-vector模型采用cnn-ubm估计出后验概率,基于cnn-ubm进一步提出了cnn/i-vector说话人模型。本发明实施例提出的神经网络相较于传统的神经网络运算量小,运算速度快,且占用内存资源较少。
51.如图2所示为cnn-ubm的网络结构,分别由一个输入层、四个隐藏层和一个输出层组成。隐藏层是从1到7,任选四个作为本发明实施例的四个隐藏层与输入层、输出层组成六层网络结构,各层间的操作在下方方框中标明,其中f为卷积核的大小,p为填充0的层数,s为步长。输入层由一个语音特征以及它的15个上下文语音特征组成。
52.本发明提供的cnn-ubm要求语音特征向量的维度为16维,因此输入层为1
×
256的向量,其结构如下:
[0053]vn
=x
n-7
,...,xn,...,x
n+8
]
t
[0054]
其中,xn为当前语音特征,x
n-7
到x
n-1
和x
n+1
到x
n+8
,为xn的上下文特征。所有特征均由横向量表示,“t”表示转置运算。卷积神经网络的每个隐藏层包含了八个map,每个map大小为1
×
128,所有隐藏层均使用relu作为激励函数。输出层是一个全连接层,输出层的节点数量与背景语音集中的说话人数量一致,其中第k个节点表示了说话人sk说出vn的后验概率o
nk
=(vn|sk),其中vn为输入。在cnn-ubm模型中,损失函数定义为:
[0055][0056][0057]
其中,zk为第k个节点的理想输出,若输入vn是说话人sk的语音样本,那么zk=1,否则zk=0,m为节点个数,当损失函数小于预设数值时,完成训练,得到训练好的子模型。
[0058]
步骤s3:利用cds相似度算法,对第一后验概率矩阵及第二后验概率矩阵进行相似度比较,得到所述测试语音的声纹识别结果。
[0059]
在一具体实施例中,cds相似度算法是用于i-vector分类的常用工具,具有分类快
速的优点,通过cds启发式算法快速对三个子模型进行选择,及对语音特征进行处理,利用两个i-vector之间的夹角的余弦值来估计两个模型的相似度,该相似度的定义为:
[0060][0061]
其中,x,y分别为已知和未知i-vector,对应步骤s3中的第一后验概率矩阵及第二后验概率,t为转置。
[0062]
由于i-vector的生成算法将通道信息和说话人的信息合并在一起建模,因此i-vector自身不能有效的分离通道信息和说话人的信息。这导致cds在多通道环境下会带来不正确的结果,为了解决这个问题,将通道补偿技术引入了cds相似度计算过程,以保证cds可以给出恰当的结果,为了解决这个问题,引入了cds相似度计算的过程。
[0063]
本发明实施例中提供的声纹识别方法,通过本发明提供的声纹模型,分别计算测试语音和训练语音的后验概率矩阵,利用cds相似度算法,对两个矩阵进行相似度比较,得到测试语音的声纹识别结果。通过本发明提供的方法提高了运算的速度及声纹识别的准确率。
[0064]
实施例2
[0065]
本发明实施例提供一种声纹识别装置,如图3所示,包括:
[0066]
获取模块1,用于获取测试语音和训练语音,所述测试语音和训练语音均包括多个语音特征;此模块执行实施例1中的步骤s1所描述的方法,在此不再赘述。
[0067]
训练模块2,用于将测试语音和训练语音分别输入到训练好的声纹模型中,获得测试语音中多个语音特征分别对应预设语音特征的第一后验概率矩阵,及训练语音中多个语音特征分别对应预设语音特征的第二后验概率矩阵;此模块执行实施例1中的步骤s2所描述的方法,在此不再赘述。
[0068]
识别模块3,用于利用cds相似度算法,对第一后验概率矩阵及第二后验概率矩阵进行相似度比较,得到所述测试语音的声纹识别结果;此模块执行实施例1中的步骤s3所描述的方法,在此不再赘述。
[0069]
本发明实施例提供一种声纹识别装置,通过本发明提供的训练模块,分别计算测试语音和训练语音的后验概率矩阵,利用识别模块的cds相似度算法,对两个矩阵进行相似度比较,得到测试语音的声纹识别结果。通过本发明提供的装置提高了运算的速度及声纹识别的准确率。
[0070]
实施例3
[0071]
本发明实施例提供一种终端,如图4所示,包括:至少一个处理器401,例如cpu(central processing unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(display)、键盘(keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速ram存储器(random access memory,易挥发性随机存取存储器),也可以是非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的分类器链标签序列的优化方法。存储器404中存储一组程序代码,且处理器
401调用存储器404中存储的程序代码,以用于执行实施例1中的声纹识别方法。其中,通信总线402可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:ram);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:hdd)或固降硬盘(英文:solid-state drive,缩写:ssd);存储器404还可以包括上述种类的存储器的组合。其中,处理器401可以是中央处理器(英文:central processing unit,缩写:cpu),网络处理器(英文:network processor,缩写:np)或者cpu和np的组合。
[0072]
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:ram);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:hdd)或固态硬盘(英文:solid-state drive,缩写:ssd);存储器404还可以包括上述种类的存储器的组合。
[0073]
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:cpu),网络处理器(英文:network processor,缩写:np)或者cpu和np的组合。
[0074]
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:asic),可编程逻辑器件(英文:programmable logic device,缩写:pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:cpld),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:fpga),通用阵列逻辑(英文:generic array logic,缩写:gal)或其任意组合。
[0075]
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本技术执行实施例1中的声纹识别方法。
[0076]
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的声纹识别方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
[0077]
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

技术特征:
1.一种声纹识别方法,其特征在于,包括:获取测试语音和训练语音,所述测试语音和训练语音均包括多个语音特征;将测试语音和训练语音分别输入到训练好的声纹模型中,获得测试语音中多个语音特征分别对应预设语音特征的第一后验概率矩阵,及训练语音中多个语音特征分别对应预设语音特征的第二后验概率矩阵;利用cds相似度算法,对第一后验概率矩阵及第二后验概率矩阵进行相似度比较,得到所述测试语音的声纹识别结果。2.根据权利要求1所述的声纹识别方法,其特征在于,所述声纹模型包括包括:声纹背景子模型、声纹分类子模型及声纹识别子模型,其中,声纹背景子模型,用于滤除输入语音的背景噪声;声纹分类子模型,用于对输入语音进行分类,其中,每个语音样本均对应有一个类别标签;声纹识别子模型,用于对输入语音进行声纹目标识别。3.根据权利要求2所述的声纹识别方法,其特征在于,所述声纹模型中任意一个子模型的训练过程均包括:获取预设语音集,所述预设语音集包括多个语音样本;采用小波变换对预设语音集进行分解,提取多个语音样本特征对应的小波熵;将所述小波熵输入预设神经网络训练声纹子模型中进行训练,当满足预设条件时,得到训练好的声纹子模型。4.根据权利要求3所述的声纹识别方法,其特征在于,所述声纹分类子模型通过em估计算法验证该子模型是否完成训练。5.根据权利要求3所述的声纹识别方法,其特征在于,所述声纹识别子模型通过map算法验证该子模型是否完成训练。6.根据权利要求3所述的声纹识别方法,其特征在于,所述预设神经网络为卷积神经网络,其结构包括:输入层、第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层及输出层,后验概率矩阵为预设神经网络的输出。7.根据权利要求1所述的声纹识别方法,其特征在于,所述语音特征包括:语音频率、语音分贝、语音的语义及语音字符的数量。8.一种声纹识别装置,其特征在于,包括:获取模块,用于获取测试语音和训练语音,所述测试语音和训练语音均包括多个语音特征;训练模块,用于将测试语音和训练语音分别输入到训练好的声纹模型中,获得测试语音中多个语音特征分别对应预设语音特征的第一后验概率矩阵,及训练语音中多个语音特征分别对应预设语音特征的第二后验概率矩阵;识别模块,用于利用cds相似度算法,对第一后验概率矩阵及第二后验概率矩阵进行相似度比较,得到所述测试语音的声纹识别结果。9.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任一所述的声纹识别
方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任一所述的声纹识别方法。

技术总结
本发明公开了一种声纹识别方法、装置、终端及存储介质,包括:获取测试语音和训练语音,测试语音和训练语音均包括多个语音特征;将测试语音和训练语音分别输入到训练好的声纹模型中,获得测试语音中多个语音特征分别对应预设语音特征的第一后验概率矩阵,及训练语音中多个语音特征分别对应预设语音特征的第二后验概率矩阵;利用CDS相似度算法,对第一后验概率矩阵及第二后验概率矩阵进行相似度比较,得到所述测试语音的声纹识别结果。通过本发明通过分别计算测试语音和训练语音的后验概率矩阵,利用CDS相似度算法,对两个矩阵进行相似度比较,得到测试语音的声纹识别结果。通过本发明提供的方法提高了运算的速度及声纹识别的准确率。准确率。准确率。


技术研发人员:王宇 徐念龙 潘俊 谭泉 石林
受保护的技术使用者:王力安防科技股份有限公司
技术研发日:2023.06.27
技术公布日:2023/8/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐