基于说话人注册信息的实时说话人日志生成方法及装置与流程
未命名
08-02
阅读:111
评论:0

1.本发明涉及自然语言处理领域,具体涉及一种基于说话人注册信息的实时说话人日志生成方法及装置。
背景技术:
2.说话人日志是将一段语音标注出每个人的说话起止时间的技术。而实时说话人日志则需要随着语音的采集不断判断当前语音段对应的所属说话人。离线说话人日志则是对一段采集好的语音进行处理。
3.当前采用的实时说话人日志技术需要提前对语音中可能出现的说话人先行进行声纹注册,然后对采集的语音分帧采集声纹特征,每帧的声纹特征和注册声纹比对,将其分给最相似的说话人即可。该方法缺点是分配机制简单,没有充分考虑上下文关系,效果一般,准确率较低。
技术实现要素:
4.针对上述提到的技术问题。本技术的实施例的目的在于提出了一种基于说话人注册信息的实时说话人日志生成方法及装置,来解决以上背景技术部分提到的技术问题。
5.第一方面,本发明提供了一种基于说话人注册信息的实时说话人日志生成方法,包括以下步骤:
6.s1,获取说话人注册信息,说话人注册信息包括注册说话人状态合集及其对应的预注册声纹特征向量序列;
7.s2,获取实时语音数据,并将实时语音数据进行分帧,对每帧实时语音通过声纹模型提取声纹特征向量,得到实时声纹特征向量序列;
8.s3,将实时声纹特征向量序列输入改进的隐马尔可夫模型中,将初始实时说话人状态合集设为空集,实时解码更新状态合集,并根据注册说话人状态合集确定实时说话人状态合集;
9.s4,根据实时说话人状态合集产生所有可能路径,根据预注册声纹特征向量序列计算每条说话人路径的概率,并以当前最大概率说话人路径作为最优说话人路径输出。
10.作为优选,根据预注册声纹特征向量序列计算每条说话人路径的概率,具体包括:
11.实时说话人状态合集为y={y1,y2,y3,...,y
t
},y
t
∈q,q为注册说话人状态合集,q={1,2,3,
…
,n},n代表第n个注册说话人;
12.假设当前路径的概率为p,则其跳转到下一个状态的概率为p
new
=p*转移概率*生成概率;
13.根据前t时刻的实时说话人状态是否与前t-1时刻的实时说话人状态相等,确定转移概率p(y
t
|y
t-1
),y
t
为前t时刻的实时说话人状态,y
t-1
为前t-1时刻的实时说话人状态;
14.根据i时刻新产生的声纹特征向量中属于m个实时说话人的声纹特征向量集合的数量,计算生成概率为p(x
t
|sm),实时声纹特征向量序列为x={x1,x2,x3,...,x
t
},其中,x
t
为t时刻新产生的声纹特征向量,sm为第m个实时说话人的声纹特征向量。
15.作为优选,转移概率p(y
t
|y
t-1
)的计算过程如下:
16.当y
t
=y
t-1
时,p(y
t
|y
t-1
)=loopprob;当y
t
≠y
t-1
时,p(y
t
|y
t-1
)=1-loopprob;其中,loopprob为自循环概率,取值范围为(0,1)。
17.作为优选,生成概率为p(x
t
|sm)的计算过程如下:
18.在t时刻,当时,m∈[1,n],其中,fa和fc为超参数,取值范围为(0,∞),rm表示第m个注册说话人的预注册声纹特征向量;
[0019]
在t时刻,当时,m∈[1,n],其中,fb和fc为超参数,取值范围(-∞,∞)。
[0020]
作为优选,步骤s3中的解码采用维特比算法。
[0021]
作为优选,预注册声纹特征向量序列为预先采集n个注册说话人的语音数据生成预注册声纹特征向量所构成的集合,r={r1,r2,...,rn};sm表示对话过程中生成且更新的m个实时说话人的声纹特征向量集合,sm={s1,s2,...,sm},m∈[1,n]。
[0022]
作为优选,在t时刻,由前t-1帧计算的第m个实时说话人的声纹特征向量为:
[0023][0024]
其中,α为超参数。
[0025]
第二方面,本发明提供了一种基于说话人注册信息的实时说话人日志生成装置,包括:
[0026]
注册信息获取模块,被配置为获取说话人注册信息,说话人注册信息包括注册说话人状态合集及其对应的预注册声纹特征向量序列;
[0027]
实时声纹特征获取模块,被配置为获取实时语音数据,并将实时语音数据进行分帧,对每帧实时语音通过声纹模型提取声纹特征向量,得到实时声纹特征向量序列;
[0028]
实时说话人状态合集获取模块,被配置为将实时声纹特征向量序列输入改进的隐马尔可夫模型中,将初始实时说话人状态合集设为空集,实时解码更新状态合集,并根据注册说话人状态合集确定实时说话人状态合集;
[0029]
路径输出模块,被配置为根据实时说话人状态合集产生所有可能路径,根据预注册声纹特征向量序列计算每条说话人路径的概率,并以当前最大概率说话人路径作为最优说话人路径输出。
[0030]
第三方面,本发明提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0031]
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0032]
相比于现有技术,本发明具有以下有益效果:
[0033]
(1)本发明提出的基于说话人注册信息的实时说话人日志生成方法根据统计出的前t-1时刻内的声纹特征向量属于m个实时说话人的声纹特征向量集合的情况确定不同的生成概率的计算方式,在分配时考虑说话人注册信息,使得计算更加准确。
[0034]
(2)本发明提出的基于说话人注册信息的实时说话人日志生成方法中的m个实时说话人的声纹特征向量集合在对话过程中生成且实时更新,并且当统计出的前t-1时刻内的声纹特征向量属于m个实时说话人的声纹特征向量集合时,生成概率的计算公式中需同时考虑第m个实时说话人的声纹特征向量和第m个注册说话人的声纹特征向量,可结合上下文信息,优化分配结果。
[0035]
(3)本发明提出的基于说话人注册信息的实时说话人日志生成方法利用已有的说话人注册信息,同时考虑上下文关系,提高分配的准确性,避免将注册说话人以外的说话人在最优说话人路径中输出,效果更好。
附图说明
[0036]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]
图1是本技术的一个实施例可以应用于其中的示例性装置架构图;
[0038]
图2为本技术的实施例的基于说话人注册信息的实时说话人日志生成方法的流程示意图;
[0039]
图3为本技术的实施例的基于说话人注册信息的实时说话人日志生成方法的解码流程示意图;
[0040]
图4为本技术的实施例的基于说话人注册信息的实时说话人日志生成装置的示意图;
[0041]
图5是适于用来实现本技术实施例的电子设备的计算机装置的结构示意图。
具体实施方式
[0042]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0043]
图1示出了可以应用本技术实施例的基于说话人注册信息的实时说话人日志生成方法或基于说话人注册信息的实时说话人日志生成装置的示例性装置架构100。
[0044]
如图1所示,装置架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0045]
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、文件处理类应用等。
[0046]
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
[0047]
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理,生成处理结果。
[0048]
需要说明的是,本技术实施例所提供的基于说话人注册信息的实时说话人日志生成方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,基于说话人注册信息的实时说话人日志生成装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
[0049]
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下,上述装置架构可以不包括网络,而只需服务器或终端设备。
[0050]
图2示出了本技术的实施例提供的一种基于说话人注册信息的实时说话人日志生成方法,包括以下步骤:
[0051]
s1,获取说话人注册信息,说话人注册信息包括注册说话人状态合集及其对应的预注册声纹特征向量序列。
[0052]
在具体的实施例中,该方法基于隐马尔可夫模型(hmm)进行改良,预注册声纹特征向量序列r为预先采集n个注册说话人的语音数据生成预注册声纹特征向量所构成的集合,即r={r1,r2,...,rn};sm表示对话过程中生成且更新的m个实时说话人的声纹特征向量集合,sm={s1,s2,...,sm},m∈[1,n]。
[0053]
在具体的实施例中,在t时刻,由前t-1帧计算的第m个实时说话人的声纹特征向量为:
[0054][0055]
其中,α为超参数。
[0056]
具体的,已知有n个说话人注册信息,则注册说话人状态合集q={1,2,3,
…
,n},n代表第n个注册说话人,相应的,第n个注册说话人的预注册声纹特征向量为rn,最终构成的预注册声纹特征向量序列为r={r1,r2,...,rn}。
[0057]
s2,获取实时语音数据,并将实时语音数据进行分帧,对每帧实时语音通过声纹模型提取声纹特征向量,得到实时声纹特征向量序列。
[0058]
具体的,改进的隐马尔可夫模型的输入序列(观测序列)为x={x1,x2,x3,...,x
t
},其中t为当前时刻。x是将一段实时语音数据进行分帧处理,每帧实时语音通过声纹模型提取声纹特征向量,构成实时声纹特征向量序列。分帧的窗长和窗移根据需求设定,一般可以分别设置为1.5s和0.25s。声纹模型为d-vector、x-vector、resnet等模型。
[0059]
s3,将实时声纹特征向量序列输入改进的隐马尔可夫模型中,将初始实时说话人状态合集设为空集,实时解码更新状态合集,并根据注册说话人状态合集确定实时说话人状态合集。
[0060]
在具体的实施例中,步骤s3中的解码采用维特比算法。
[0061]
具体的,初始实时说话人状态合集为空,随着对输入序列的处理,会从注册说话人状态合集中找到新的说话人标签添加到实时说话人状态合集中,同时实时说话人的声纹特征向量集合sm也相应地进行更新,也就是说,sm是在对话过程中生成且更新的。初始状态概率π={1},因为初始实时说话人状态合集为空,因此该值为1。根据注册说话人状态合集确定实时说话人状态合集,实时说话人状态合集对应实时说话人标签,实时说话人状态合集中的数值属于注册说话人状态合集,即对话中共有n个注册说话人,则实时说话人状态合集中的值只能从这n个注册说话人中选择,例如不会出现只有2人对话,结果分配给3人的情况,因此采用注册说话人状态合集对实时说话人状态合集中的数值进行限制,在已知注册说话人信息的情况下,考虑上下文信息,使计算结果会更加准确。
[0062]
s4,根据实时说话人状态合集产生所有可能路径,根据预注册声纹特征向量序列计算每条说话人路径的概率,并以当前最大概率说话人路径作为最优说话人路径输出。
[0063]
在具体的实施例中,根据预注册声纹特征向量序列计算每条说话人路径的概率,具体包括:
[0064]
实时说话人状态合集为y={y1,y2,y3,...,y
t
},y
t
∈q,q为注册说话人状态合集,q={1,2,3,
…
,n},n代表第n个注册说话人;
[0065]
假设当前路径的概率为p,则其跳转到下一个状态(新说话人)的概率为p
new
=p*转移概率*生成概率;
[0066]
根据前t时刻的实时说话人状态是否与前t-1时刻的实时说话人状态相等,确定转移概率p(y
t
|y
t-1
),y
t
为前t时刻的实时说话人状态,y
t-1
为前t-1时刻的实时说话人状态;
[0067]
根据i时刻新产生的声纹特征向量中属于m个实时说话人的声纹特征向量集合的数量,计算生成概率为p(x
t
|sm),实时声纹特征向量序列为x={x1,x2,x3,...,x
t
},其中,x
t
为t时刻新产生的声纹特征向量,sm为第m个实时说话人的声纹特征向量。
[0068]
在具体的实施例中,转移概率p(y
t
|y
t-1
)的计算过程如下:
[0069]
当y
t
=y
t-1
时,p(y
t
|y
t-1
)=loopprob;当y
t
≠y
t-1
时,p(y
t
|y
t-1
)=1-loopprob;其中,loopprob为自循环概率,取值范围为(0,1)。
[0070]
具体的,若前t时刻的实时说话人状态与前t-1时刻的实时说话人状态相等,则p(y
t
|y
t-1
)=loopprob;若前t时刻的实时说话人状态与前t-1时刻的实时说话人状态不相等,则p(y
t
|y
t-1
)=1-loopprob,loopprob为0~1。
[0071]
在具体的实施例中,生成概率为p(x
t
|sm)的计算过程如下:
[0072]
在t时刻,当时,m∈[1,n],其中,fa和fc为超参数,取值范围为(0,∞),rm表示第m个注册说话人的预注册声纹特征向量;
[0073]
在t时刻,当时,m∈[1,n],其中,fb和fc为超参数,取值范围(-∞,∞)。
[0074]
具体的,生成概率的计算过程中需判断前t-1帧实时语音中有多少帧实时语音对应的实时声纹特征向量属于m个实时说话人的声纹特征向量集合,当没有帧实时语音的实时声纹特征向量属于m个实时说话人的声纹特征向量集合sm时,其为零向量,则生成概率为m∈[1,n];当有帧实时语音的实时声纹特征向量属于m个实时说话人的声纹特征向量集合sm时,则生成概率为m∈[1,n],在分配时计算考虑了说话人注册信息,使计算更加准确。实时说话人状态合集产生所有可能路径的个数是m
t
,在第t帧时,以概率最大的路径作为解码结果。
[0075]
超参数loopprob、fa、fb、fc、α优化方法采用网格搜索,准备一组有标注的测试数据,在上面寻求最优解。
[0076]
具体实施例
[0077]
假设有一段对话共3帧语音数据,对应的实时声纹特征向量序列为{x1,x2,x3},其中真实说话人顺序为{1,2,1}(该值属于未知)。对话中一共有两人,预先提取两人的注册语音,并生成预注册声纹特征向量序列r={r1,r2},另外,注册说话人状态合集q={1,2}。
[0078]
如图3所示为解码流程图,其中每列对应每一帧输入情况,每个圆圈表示对应帧跳转到的说话人。解码中共有2个说话人,对应为{1,2}。
[0079]
1、输入x1。y可能的路径为{1},{2},共2种,分别计算各个路径的概率及更新sm。输出最优说话人路径:y={1}。此时sm={s1}。
[0080]
2、输入x2。y可能的路径为{1,1},{1,2},{2,1},{2,2},共4种,分别计算各个路径的概率及更新sm。输出最优说话人路径:y={1,2}。此时产生新的说话人,则sm={s1,s2}。
[0081]
3、输入x3。y可能的路径为{1,1,1},{1,1,2},{1,2,1},{1,2,2},{2,1,1},{2,1,2},{2,2,1},{2,2,2},共8种,分布计算各个路径的概率及更新sm。输出最优说话人路径:y={1,2,1}。此时sm={s1,s2}。
[0082]
具体的,每输入一帧新的实时语音数据会进行解码,即可产生所有可能路径,同时计算每条路径的概率,并以当前最大概率路径作为最优说话人路径输出。实际计算时由于是使用hmm计算,及根据分配计算sm,因此会对当前的实时声纹特征向量x的分配产生影响,sm在实时说话人日志生成过程中随着新的实时语音对应的实时声纹特征向量的输入而发生改变,可实现上下文信息的结合。
[0083]
进一步参考图4,作为对上述各图所示方法的实现,本技术提供了一种基于说话人注册信息的实时说话人日志生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0084]
本技术实施例提供了一种基于说话人注册信息的实时说话人日志生成装置,包括:
[0085]
注册信息获取模块1,被配置为获取说话人注册信息,说话人注册信息包括注册说话人状态合集及其对应的预注册声纹特征向量序列;
[0086]
实时声纹特征获取模块2,被配置为获取实时语音数据,并将实时语音数据进行分帧,对每帧实时语音通过声纹模型提取声纹特征向量,得到实时声纹特征向量序列;
[0087]
实时说话人状态合集获取模块3,被配置为将实时声纹特征向量序列输入改进的隐马尔可夫模型中,将初始实时说话人状态合集设为空集,实时解码更新状态合集,并根据
注册说话人状态合集确定实时说话人状态合集;
[0088]
路径输出模块4,被配置为根据实时说话人状态合集产生所有可能路径,根据预注册声纹特征向量序列计算每条说话人路径的概率,并以当前最大概率说话人路径作为最优说话人路径输出。
[0089]
下面参考图5,其示出了适于用来实现本技术实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0090]
如图5所示,计算机装置500包括中央处理单元(cpu)501和图形处理器(gpu)502,其可以根据存储在只读存储器(rom)503中的程序或者从存储部分509加载到随机访问存储器(ram)504中的程序而执行各种适当的动作和处理。在ram 504中,还存储有装置500操作所需的各种程序和数据。cpu 501、gpu502、rom 503以及ram 504通过总线505彼此相连。输入/输出(i/o)接口506也连接至总线505。
[0091]
以下部件连接至i/o接口506:包括键盘、鼠标等的输入部分507;包括诸如、液晶显示器(lcd)等以及扬声器等的输出部分508;包括硬盘等的存储部分509;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分510。通信部分510经由诸如因特网的网络执行通信处理。驱动器511也可以根据需要连接至i/o接口506。可拆卸介质512,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器511上,以便于从其上读出的计算机程序根据需要被安装入存储部分509。
[0092]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分510从网络上被下载和安装,和/或从可拆卸介质512被安装。在该计算机程序被中央处理单元(cpu)501和图形处理器(gpu)502执行时,执行本技术的方法中限定的上述功能。
[0093]
需要说明的是,本技术所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件或者上述的任意合适的组合。在本技术中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0094]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算
机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,也可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0095]
附图中的流程图和框图,图示了按照本技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,该模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0096]
描述于本技术实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
[0097]
作为另一方面,本技术还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取说话人注册信息,说话人注册信息包括注册说话人状态合集及其对应的预注册声纹特征向量序列;获取实时语音数据,并将实时语音数据进行分帧,对每帧实时语音通过声纹模型提取声纹特征向量,得到实时声纹特征向量序列;将实时声纹特征向量序列输入改进的隐马尔可夫模型中,将初始实时说话人状态合集设为空集,实时解码更新状态合集,并根据注册说话人状态合集确定实时说话人状态合集;根据实时说话人状态合集产生所有可能路径,根据预注册声纹特征向量序列计算每条说话人路径的概率,并以当前最大概率说话人路径作为最优说话人路径输出。
[0098]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
技术特征:
1.一种基于说话人注册信息的实时说话人日志生成方法,其特征在于,包括以下步骤:s1,获取说话人注册信息,所述说话人注册信息包括注册说话人状态合集及其对应的预注册声纹特征向量序列;s2,获取实时语音数据,并将实时语音数据进行分帧,对每帧实时语音通过声纹模型提取声纹特征向量,得到实时声纹特征向量序列;s3,将所述实时声纹特征向量序列输入改进的隐马尔可夫模型中,将初始实时说话人状态合集设为空集,实时解码更新状态合集,并根据注册说话人状态合集确定实时说话人状态合集;s4,根据所述实时说话人状态合集产生所有可能路径,根据预注册声纹特征向量序列计算每条说话人路径的概率,并以当前最大概率说话人路径作为最优说话人路径输出。2.根据权利要求1所述的基于说话人注册信息的实时说话人日志生成方法,其特征在于,所述根据预注册声纹特征向量序列计算每条说话人路径的概率,具体包括:实时说话人状态合集为y={y1,y2,y3,...,y
t
},y
t
∈q,q为注册说话人状态合集,q={1,2,3,
…
,n},n代表第n个注册说话人;假设当前路径的概率为p,则其跳转到下一个状态的概率为p
new
=p*转移概率*生成概率;根据前t时刻的实时说话人状态是否与前t-1时刻的实时说话人状态相等,确定所述转移概率p(y
t
|y
t-1
),y
t
为前t时刻的实时说话人状态,y
t-1
为前t-1时刻的实时说话人状态;根据i时刻新产生的声纹特征向量中属于m个实时说话人的声纹特征向量集合的数量,计算所述生成概率为p(x
t
|s
m
),所述实时声纹特征向量序列为x={x1,x2,x3,...,x
t
},其中,x
t
为t时刻新产生的声纹特征向量,s
m
为第m个实时说话人的声纹特征向量。3.根据权利要求2所述的基于说话人注册信息的实时说话人日志生成方法,其特征在于,所述转移概率p(y
t
|y
t-1
)的计算过程如下:当y
t
=y
t-1
时,p(y
t
|y
t-1
)=loopprob;当y
t
≠y
t-1
时,p(y
t
|y
t-1
)=1-loopprob;其中,loopprob为自循环概率,取值范围为(0,1)。4.根据权利要求2所述的基于说话人注册信息的实时说话人日志生成方法,其特征在于,所述生成概率为p(x
t
|s
m
)的计算过程如下:在t时刻,当时,m∈[1,n],其中,f
a
和f
c
为超参数,取值范围为(0,∞),r
m
表示第m个注册说话人的预注册声纹特征向量;在t时刻,当时,m∈[1,n],其中,f
b
和f
c
为超参数,取值范围(-∞,∞)。5.根据权利要求1所述的基于说话人注册信息的实时说话人日志生成方法,其特征在于,所述步骤s3中的解码采用维特比算法。6.根据权利要求2所述的基于说话人注册信息的实时说话人日志生成方法,其特征在于,所述预注册声纹特征向量序列为预先采集n个注册说话人的语音数据生成预注册声纹特征向量所构成的集合,r={r1,r2,...,r
n
};s
m
表示对话过程中生成且更新的m个实时说话
人的声纹特征向量集合,s
m
={s1,s2,...,s
m
},m∈[1,n]。7.根据权利要求2所述的基于说话人注册信息的实时说话人日志生成方法,其特征在于,在t时刻,由前t-1帧计算的第m个实时说话人的声纹特征向量为:其中,α为超参数。8.一种基于说话人注册信息的实时说话人日志生成装置,其特征在于,包括:注册信息获取模块,被配置为获取说话人注册信息,所述说话人注册信息包括注册说话人状态合集及其对应的预注册声纹特征向量序列;实时声纹特征获取模块,被配置为获取实时语音数据,并将实时语音数据进行分帧,对每帧实时语音通过声纹模型提取声纹特征向量,得到实时声纹特征向量序列;实时说话人状态合集获取模块,被配置为将所述实时声纹特征向量序列输入改进的隐马尔可夫模型中,将初始实时说话人状态合集设为空集,实时解码更新状态合集,并根据注册说话人状态合集确定实时说话人状态合集;路径输出模块,被配置为根据所述实时说话人状态合集产生所有可能路径,根据预注册声纹特征向量序列计算每条说话人路径的概率,并以当前最大概率说话人路径作为最优说话人路径输出。9.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
技术总结
本发明公开了一种基于说话人注册信息的实时说话人日志生成方法及装置,通过获取说话人注册信息,说话人注册信息包括注册说话人状态合集及其对应的预注册声纹特征向量序列;获取实时语音数据,并将实时语音数据进行分帧,对每帧实时语音通过声纹模型提取声纹特征向量,得到实时声纹特征向量序列;将实时声纹特征向量序列输入改进的隐马尔可夫模型中,实时解码更新状态合集,并根据注册说话人状态合集确定实时说话人状态合集;根据实时说话人状态合集产生所有可能路径,根据预注册声纹特征向量序列计算每条说话人路径的概率,并以当前最大概率说话人路径作为最优说话人路径输出。利用说话人注册信息同时考虑上下文关系,提高准确性。确性。确性。
技术研发人员:洪国强 肖龙源 李海洲 李稀敏 叶志坚
受保护的技术使用者:厦门快商通科技股份有限公司
技术研发日:2023.03.29
技术公布日:2023/7/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/