语音数据识别的方法、生成会议纪要的方法及相关装置与流程

未命名 09-27 阅读:105 评论:0


1.本技术实施例涉及人工智能技术领域,尤其涉及一种语音数据识别的方法及相关装置。


背景技术:

2.随着智能语音技术的不断发展,智能会议的概念被提出,会议中最重要的功能就是会议纪要。智能会议纪要,主要用到的技术包括语音识别(asr)、说话人分割(speaker diralization)、语音活动检测(vad)等技术。
3.智能会议纪要的主要功能包括识别每个人说话的内容并转换为文字、对每段文字标注说话人身份等,该功能也可以概括为将会议中的语音数据的类别进行识别,每个类别代表一个人。
4.在实际中,智能会议纪要面对的场景复杂,受到说话人数、重叠说话、说话风格、交谈环境等影响较大,所以如何保证智能会议纪要中语音数据识别的准确性,是亟需解决的重要问题。


技术实现要素:

5.本技术实施例提供了一种评分方法及相关装置,用于对用户的回复内容进行评分,以准确地考核员工。
6.第一方面,本技术提供了一种音频数据识别的方法,包括:
7.根据模板库以及第一音频数据的特征确定第一音频数据的类别,第一音频数据可以是任意一段待识别的音频数据,第一音频数据的特征可以是第一音频数据的声纹特征,该声纹特征可以采用向量表示;模板库中包含n条音频数据的特征以及,n条音频数据的特征与n条音频数据的类别的对应关系,模板库中的音频数据的特征也可以是声纹特征,该声纹特征可以采用向量表示,其中,n为正整数;当第一音频数据满足目标条件时,将第一音频数据的特征添加至模板库中第一音频数据的类别下,目标条件可以,目标条件可以根据需要进行设定,例如可以根据第一音频数据的信噪比、第一音频数据的混响情况等进行设定,以保证加入模板库中的第一音频数据的质量。
8.当满足目标条件时,才将第一音频数据的特征以及第一音频数据与第一音频数据的类别的对应关系加入模板库,使得加入模板库的音频数据的特征都可以用来准确地识别音频数据的类别,以防止质量较差的音频数据的特征影响后续音频数据的识别,降低累积误差的影响。
9.作为一种可实现的方式,方法还包括:根据第一音频数据的信噪比、第一音频数据的混响情况,以及第一音频数据的特征与k条音频数据的特征的相似度中的至少一者,确定第一音频数据满足目标条件,其中,k条音频数据属于n条音频数据,且k条音频数据的类别与第一音频数据的类别相同,k为正整数。
10.信噪比是正常声音信号与信号噪声信号比值,第一音频数据的信噪比越高,则说
明第一音频数据的质量越好;混响可以理解为声音经多次反射后混合,若第一音频数据存在混响,说明第一音频数据的质量较差;第一音频数据的特征与k条音频数据的特征的相似度越高,则说明第一音频数据的特征与k条音频数据的特征越接近,基于此,便可以采用第一音频数据的特征与k条音频数据的特征,对同一类别的音频数据进行识别。
11.通过上述参数可以保证,加入模板库的音频数据的特征能够用来准确地识别音频数据的类别,以防止质量较差的音频数据的特征影响后续音频数据的识别,降低累积误差的影响。
12.作为一种可实现的方式,方法还包括:根据聚类算法对模板库中的音频数据的特征进行聚类处理;聚类算法,又称聚类分析、群分析,它是研究(样品或指标)识别问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类算法的种类有很多,该实施例采用谱聚类算法进行聚类处理。聚类处理可以是周期性地进行,例如,每5min进行一次聚类处理。
13.通过聚类算法可以剔除模板库中与其他特征的相似度较低的个别特征,以实现对模板库中特征的矫正,防止误差累积,从而提高模板库中音频数据的特征的准确性,进一步保证了音频数据识别的准确性。
14.作为一种可实现的方式,第一音频数据是由目标音频数据分离得到的,目标音频数据还分离得到第二音频数据;第一音频数据的采集时间和第二音频数据的采集时间存在相同的部分,这也可以理解为,目标音频数据中存在重叠的音频数据。例如,第一音频数据是人物aa在第0s至第5s发出的语音数据,第二音频数据是人物bb在第3s至第8s发出的语音数据,这意味着目标音频数据在第3s至第5s内存在重叠的音频数据。目标音频数据可以是由麦克风采集到任意音频数据,通常情况下,目标音频数据包含多个人的音频数据。可以采用多种方法对目标音频数据进行分离,例如,可以采用beamforming技术或基于深度学习的盲源分离方法对目标音频数据进行分离。
15.将目标音频数据分离,得到第一音频数据和第二音频数据,然后单独对第一音频数据进行识别,避免了直接对目标音频数据中重叠部分的音频数据进行识别,造成错误地将多个人的语音数据划分为一个类别的情况,从而保证了第一音频数据识别的准确性。
16.作为一种可实现的方式,方法还包括:根据模板库以及第二音频数据的特征确定第二音频数据的类别,第二音频数据的类别的确定方法与第一音频数据的类别的确定方法类似。
17.单独对第二音频数据进行识别,避免了直接对目标音频数据中重叠部分的音频数据进行识别,造成错误地将多个人的语音数据划分为一个类别的情况,从而保证了第一音频数据识别的准确性。
18.作为一种可实现的方式,方法还包括:根据第一音频数据的类别和第二音频数据的类别,对目标音频数据进行标记,使得目标音频数据中重叠部分的音频数据能够同时获得第一音频数据的类别和第二音频数据的类别的标记,保证了标记的准确性。
19.作为一种可实现的方式,方法还包括:向终端发送经过标记的目标音频数据,以使得终端显示经过标记的目标音频数据。
20.第二方面,本技术提供了一种音频数据识别的方法,包括:根据模板库以及第一音频数据的特征确定第一音频数据的类别,第一音频数据可以是任意一段待识别的音频数
据,第一音频数据的特征可以是第一音频数据的声纹特征,该声纹特征可以采用向量表示;模板库中包含n条音频数据的特征以及,n条音频数据的特征与n条音频数据的类别的对应关系,模板库中的音频数据的特征也可以是声纹特征,该声纹特征可以采用向量表示,其中,n为正整数;根据聚类算法对模板库中的音频数据的特征进行聚类处理;聚类算法,又称聚类分析、群分析,它是研究(样品或指标)识别问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类算法的种类有很多,该实施例采用谱聚类算法进行聚类处理。聚类处理可以是周期性地进行,例如,每5min进行一次聚类处理。另外,聚类处理可以在确定第一音频数据的类别前执行,也可以在确定第一音频数据的类别后执行。
21.通过聚类算法可以剔除模板库中与其他特征的相似度较低的个别特征,以实现对模板库中特征的矫正,防止误差累积,从而提高模板库中音频数据的特征的准确性,进一步保证了音频数据识别的准确性。
22.第三方面,本技术提供了一种生成会议纪要的方法,采用如第一方面中任意一项的方法对音频数据进行识别;根据所述音频数据的识别结果生成会议纪要;向终端发送所述会议纪要,以使得终端显示所述会议纪要。
23.当满足目标条件时,才将第一音频数据的特征以及第一音频数据与第一音频数据的类别的对应关系加入模板库,使得加入模板库的音频数据的特征都可以用来准确地识别音频数据的类别,从而保证根据音频数据的类别生成的会议纪要的准确性。
24.第四方面,本技术提供了一种音频数据识别的装置,包括:类别确定单元,用于根据模板库以及第一音频数据的特征确定第一音频数据的类别,模板库中包含n条音频数据的特征以及,n条音频数据的特征与n条音频数据的类别的对应关系,其中,n为正整数;模板库添加单元,用于当第一音频数据满足目标条件时,将第一音频数据的特征添加至模板库中第一音频数据的类别下。
25.作为一种可实现的方式,该装置还包括:条件判断单元,用于根据第一音频数据的信噪比、第一音频数据的混响情况,以及第一音频数据的特征与k条音频数据的特征的相似度中的至少一者,确定第一音频数据满足目标条件,其中,k条音频数据属于n条音频数据,且k条音频数据的类别与第一音频数据的类别相同,k为正整数。
26.作为一种可实现的方式,该装置还包括:聚类处理单元,用于根据聚类算法对模板库中的音频数据的特征进行聚类处理。
27.作为一种可实现的方式,第一音频数据是由目标音频数据分离得到的,目标音频数据还分离得到第二音频数据;第一音频数据的采集时间和第二音频数据的采集时间存在相同的部分。
28.作为一种可实现的方式,类别确定单元,还用于根据模板库以及第二音频数据的特征确定第二音频数据的类别。
29.作为一种可实现的方式,该装置还包括:标记单元,用于根据第一音频数据的类别和第二音频数据的类别,对目标音频数据进行标记。
30.作为一种可实现的方式,该装置还包括:发送单元,用于向终端发送经过标记的目标音频数据,以使得终端显示经过标记的目标音频数据。
31.第五方面,本技术提供了一种音频数据识别的装置,包括:类别确定单元,用于根据模板库以及第一音频数据的特征确定第一音频数据的类别,模板库中包含n条音频数据
的特征以及,n条音频数据的特征与n条音频数据的类别的对应关系,其中,n为正整数;聚类处理单元,用于根据聚类算法对所述模板库中的所述音频数据的特征进行聚类处理。
32.第六方面,本技术提供了一种生成会议纪要的装置,包括:识别单元,用于采用如第一方面中任意一项的方法对音频数据进行识别;会议纪要生成单元,用于根据所述音频数据的识别结果生成会议纪要;显示单元,用于向终端发送所述会议纪要,以使得终端显示所述会议纪要。
33.第七方面,本技术提供了一种计算机设备,终端设备包括:存储器和处理器,其中,n为正整数;处理器,用于执行存储器中存储的计算机程序或指令,以使终端设备执行如第一方面至第三方面中任一项的方法。
34.第八方面,本技术提供了一种计算机可读存储介质,计算机可读存储介质具有程序指令,当程序指令被直接或者间接执行时,使得第一方面中任一的方法被实现。
35.第九方面,本技术提供了一种芯片系统,芯片系统包括至少一个处理器,处理器用于执行存储器中存储的计算机程序或指令,当计算机程序或指令在至少一个处理器中执行时,使得第一方面至第三方面中任一项的方法被实现。
36.第十方面,本技术提供了一种计算机程序产品,包括指令,当指令在计算机上运行时,使得计算机执行第一方面至第三方面中任一项的方法。
附图说明
37.图1为本技术实施例提供的实时会议纪要系统的架构示意图;
38.图2为音频数据的识别过程的第一实施例示意图;
39.图3为本技术提供的一种音频数据识别的方法的一个实施例示意图;
40.图4为分布图的一个实施例示意图;
41.图5为本技术提供的一个应用例的示意图;
42.图6为本技术提供的音频数据识别的方法的另一个实施例示意图;
43.图7为本技术实施例中分离目标音频数据的实施例示意图;
44.图8为本技术实施例中目标音频数据的标记示意图;
45.图9为音频数据的识别过程的第二实施例示意图;
46.图10为本技术实施例提供的一种音频数据识别的装置的一个实施例示意图;
47.图11为本技术实施例提供的一种生成会议纪要的装置的一个实施例示意图;
48.图12为本技术实施例提供的计算机设备的一种结构示意图。
具体实施方式
49.本技术实施例可以应用于图1所示的实时会议纪要系统中。该实时会议纪要系统包括录音终端和服务器。
50.录音终端可以是包括麦克风、中央处理器以及通信模块的任意终端。其中,麦克风可以是单麦克风或多个麦克风(也可以称为麦克风阵列),用于采集音频数据。中央处理器,可以是任何中央处理器,用于对音频数据进行前端处理。例如,音频数据包含重叠的部分,相应地,前段处理可以是声音分离处理。通信模块用于将经过前段处理的音频数据发送至服务器。
51.服务器包括通信模块、中央处理器和图形处理器。通信模块用于接收来自录音终端的音频数据。中央处理器和图形处理器用于对音频数据进行识别处理;需要说明的是,该识别处理可以是识别音频数据的类别,例如,按照说话人的身份对音频数据进行划分,同一个人的音频数据会被划分为一类。
52.当识别处理是识别音频数据的类别时,识别处理也可以称为类别划分、说话人分隔、说话人识别或说话人标注。
53.为了便于理解,下面先对音频数据的识别大致过程进行介绍。
54.如图2所示,音频数据的识别过程可以如下。
55.第一步,通过语音识别(automatic speech recognition,asr)技术对输入的音频数据进行识别,以将音频数据切分为多个长段的音频数据。
56.其中,asr技术是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语句,简单的说,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
57.例如,音频数据为“大家好,现在会议正式开始。下面我先介绍一下今天会议的主题,会议的主题是如何进行项目的前期调研”,在识别后,可以将该音频数据切分为“大家好,现在会议正式开始”和“下面我先介绍一下今天会议的主题,会议的主题是如何进行项目的前期调研”两个长段的音频数据。
58.第二步,将上述长段的音频数据切分为等时间长度的小段的音频数据,然后提取每一小段的音频数据的特征。
59.其中,每一小段的音频数据的时间长度可以根据实际需要进行设定,一般情况下,该时间长度的设定需要保证每一小段的音频数据可以包含一个人的一句完整的话,同时又不包含其他人说的话。
60.例如,每一小段的音频数据的时间长度可以选择在1.5至2s之间。
61.在本技术实施例中,音频数据的特征主要是指音频数据的声纹特征,该声纹特征可以用从音频数据中提取出来的一组声学描述参数(例如向量)表示,具体可以采用基于深度学习的神经网络提取。
62.第三步,将每一小段的音频数据的特征与模板库中的每个人的音频数据的特征对比,根据对比结果(例如相似度)得到每一小段的音频数据的分割结果,该分割结果指示说话人的身份。
63.其中,每个人的音频数据可以看成是一类音频数据,相应地,分割结果指示每一小段的音频数据的类别。
64.比对过程一般是计算每一小段的音频数据的特征与模板库中的每个人的音频数据的特征的相似度,然后将模板库中相似度最高且高于阈值的音频数据的类别作为这一小段的音频数据的类别。
65.若比对结果指示模板库中的所有音频数据的特征与某一段的音频数据的特征的相似度都低于阈值,则为这某一小段的音频数据设定一个新的类别,并将这某一小段的音频数据的特征加入模板库中。
66.需要说明的是,通常情况下,在得到当前的小段的音频数据的类别后,会将当前的小段的音频数据的特征加入模板库中,以用于下一个小段的音频数据的识别。
67.然而,当前的小段的音频数据的类别若出现错误,则会导致下一个小段的音频数据的特征与模板库中其他音频数据的特诊的相似度出现误差,该误差可能影响下一个小段的音频数据的识别结果。若下一个小段的音频数据的识别结果出现错误,则会继续影响后续的音频数据的特征的相似度计算,以及后续音频数据的识别结果。
68.由此可见,上述方法存在累积误差的问题,随着时间的推移,相似度的误差会越来越大,并且音频数据的识别结果也会越来越差。
69.为此,本技术实施例提供了一种音频数据识别的方法,该方法在确定音频数据的类别后,通过设定的目标条件对音频数据进行判断,若满足预先设定的目标条件,则将音频数据的特征添加至模板库,以用于后续音频数据的识别;若不满足预先设定的目标条件,则不将音频数据的特征添加至模板库,从而保证模板库中的音频数据的特征的准确性,以最大限度地降低累积误差,保证音频数据识别的准确性。
70.本技术实施例提供的方法可以应用于多种场景,例如,可以应用于会议、访谈、朗读、闲谈等场景,即图2所示的实施例中输入的音频数据可以是会议、访谈、朗读、闲谈等场景下采集到的音频数据;相应地,本技术实施例则可以用于对图2所示的实施例中的等时间长度的小段的音频数据进行识别。
71.下面对本技术实施例提供的方法进行介绍。
72.如图3所示,本技术提供了一种音频数据识别的方法的一个实施例,该实施例通常应用于服务器中,即通常由服务器执行;该实施例也可以由终端设备执行,该实施例具体包括:
73.步骤101,根据模板库以及第一音频数据的特征确定第一音频数据的类别,模板库中包含n条音频数据的特征以及,n条音频数据的特征与n条音频数据的类别的对应关系,其中,n为正整数。
74.第一音频数据可以是任意一段待识别的音频数据,具体可以是图3所示的实施例中通过第二步得到的小段的音频数据。
75.基于前文说明可知,第一音频数据的特征可以是第一音频数据的声纹特征,该声纹特征可以采用向量表示;同样地,模板库中的音频数据的特征也可以是声纹特征,该声纹特征可以采用向量表示。
76.n条音频数据的特征与n条音频数据的类别的对应关系可以采用多种形式表示,例如,可以采用索引或表格的形式表示。
77.基于前文的说明可知,可以通过计算第一音频数据的特征与n条音频数据的特征之间的相似度,然后根据该相似度确定第一音频数据的类别。
78.除此之外,在计算第一音频数据的特征与n条音频数据的特征之间的相似度后,可以根据该相似度进行打分,然后根据打分情况确定第一音频数据的类别。一般情况下,相似度越高,分值越高。
79.在模板库中,假设n条音频数据的特征对应m个类别,其中,m为正整数;每个类别可以对应一条或多条音频数据的特征。
80.当某一类别对应多条音频数据的特征时,可以对这多条音频数据的特征(例如是向量)进行融合处理,然后根据融合处理的结果计算第一音频数据的特征与该类别的音频数据的特征间的相似度。
81.上述融合处理可以是加权平均处理。
82.基于前文说明可知,通常会将模板库中,与第一音频数据的特征的相似度最大的音频数据的特征所对应的类别,作为第一音频数据的类别;此时,第一音频数据的类别为n条音频数据的类别中的一个。
83.若模板库中的所有音频数据的特征与第一音频数据的特征的相似度都低于阈值,则为第一音频数据设定一个新的类别,此时,第一音频数据的类别则不属于n条音频数据的类别。
84.步骤102,确定第一音频数据是否满足目标条件。
85.确定第一音频数据是否满足目标条件的方法有多种。下面对此进行具体介绍。
86.作为一种可实现的方式,步骤102包括:根据第一音频数据的信噪比、第一音频数据的混响情况,以及第一音频数据的特征与k条音频数据的特征的相似度中的至少一者,确定第一音频数据满足目标条件,其中,k条音频数据属于n条音频数据,且k条音频数据的类别与第一音频数据的类别相同,k为正整数。
87.信噪比是正常声音信号与信号噪声信号比值,所以第一音频数据的信噪比越高,则说明第一音频数据的质量越好。
88.若根据第一音频数据的信噪比确定第一音频数据满足目标条件,则目标条件可以包含信噪比的阈值。
89.混响可以理解为声音经多次反射后混合,若第一音频数据存在混响,说明第一音频数据的质量较差。
90.若根据第一音频数据的混响情况确定第一音频数据满足目标条件,则目标条件可以包含:不存在混响。
91.第一音频数据的特征与k条音频数据的特征的相似度越高,则说明第一音频数据的特征与k条音频数据的特征越接近,基于此,便可以采用第一音频数据的特征与k条音频数据的特征,对同一类别的音频数据进行识别。
92.若根据第一音频数据的特征与k条音频数据的特征的相似度确定第一音频数据满足目标条件,则目标条件可以包含:相似度的阈值。
93.基于上述说明可知,信噪比和混响情况主要反映的是第一音频数据的质量,第一音频数据的特征与k条音频数据的特征的相似度主要反映的是,第一音频数据的特征能否与模板库中的音频数据的特征一起用于识别某个类别的音频数据。
94.相似度也可以采用其他方式表示。
95.例如,基于前文说明可知,可以基于第一音频数据的特征与k条音频数据的特征的相似度进行打分,所以相似度也可以采用打分情况表示。
96.再例如,可以采用分布图的形式表示第一音频数据和k条音频数据,在该分布图中,一个点表示一条音频数据,不同类别的音频数据可以采用不同的点示出。两个点之间的距离越近,则这两个点所表示的音频数据的特征间的相似度越高。两个点之间的距离越远,则这两个点所表示的音频数据的特征间的相似度越低。
97.因此,第一音频数据的特征与k条音频数据的特征的相似度可以采用,表示第一音频数据的点与表示k条音频数据点间的距离表示。相应地,目标条件可以包含:两个点间的距离。
98.请参阅图4,图4为分布图的一个实施例示意图。在该分布图中,圆圈所示的点表示第一音频数据,从分布图中可以看出,第一音频数据属于第一类别的音频数据。
99.但由于表示第一音频数据的点与表示第一类别的音频数据的点间的距离较远(即第一音频数据的特征与第一类别的音频数据的特征间的相似度较低),并且,相对于表示第一类别的音频数据的其他点来说,表示第一音频数据的点与表示第二类别的音频数据的点间的距离较近,则可以确定第一音频数据不满足目标条件。
100.简单的来说,在分布图中,若一个点位于表示同一类列的音频数据的所有点的边缘,则说明该点所表示的音频数据的特征与该类别的音频数据的特征间的相似度较低,那么该点所表示的音频数据通常不满足目标条件。
101.需要说明的是,相似度通常更能反映出第一音频数据的质量,所以相似度的优先级往往大于第一音频数据的信噪比的优先级,以及第一音频数据的混响情况的优先级。
102.因此,若除了根据第一音频数据的特征与k条音频数据的特征的相似度之外,还根据第一音频数据的信噪比和第一音频数据的混响情况中的至少一者,来判断第一音频数据是否满足目标条件,则可以优先考虑第一音频数据的特征与k条音频数据的特征的相似度。
103.若第一音频数据的特征与k条音频数据的特征的相似度高于某一特定值,即使存在混响,或信噪比较低,也可以确定第一音频数据满足目标条件。
104.若第一音频数据的特征与k条音频数据的特征的相似度低于某一特定值,则可以再根据信噪比的大小以及是否存在混响,来判断第一音频数据是否满足目标条件。
105.步骤103,基于第一音频数据满足目标条件,将第一音频数据的特征以及第一音频数据与第一音频数据的类别的对应关系,添加至模板库。
106.在将第一音频数据的特征以及第一音频数据与第一音频数据的类别的对应关系,添加至模板库后,便可以利用第一频数据的特征、n条音频数据的特征、第一音频数据与第一音频数据的类别的对应关系,以及n条音频数据的特征与n条音频数据的类别的对应关系,确定其他音频数据的类别。
107.步骤104,基于第一音频数据不满足目标条件,则不将第一音频数据的特征以及第一音频数据与第一音频数据的类别的对应关系添加至模板库。
108.在该实施例中,先判断第一音频数据是否满足目标条件,当满足目标条件时,才将第一音频数据的特征以及第一音频数据与第一音频数据的类别的对应关系加入模板库;否则,则不将第一音频数据的特征以及第一音频数据与第一音频数据的类别的对应关系添加至模板库,使得加入模板库的音频数据的特征都可以用来准确地识别音频数据的类别,以防止质量较差的音频数据的特征影响后续音频数据的识别,降低累积误差的影响。
109.步骤105,根据聚类算法对模板库中的音频数据的特征进行聚类处理。
110.聚类算法,又称聚类分析、群分析,它是研究(样品或指标)识别问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。
111.聚类算法的种类有很多,该实施例采用谱聚类算法进行聚类处理。
112.聚类处理可以是周期性地进行,例如,每5min进行一次聚类处理。
113.可以理解的是,模板库中的音频数据的特征可能包含某一特征,该特征与其他特征的相似度较低,通过聚类算法便可以剔除该特征,以实现对模板库中特征的矫正,防止误差累积,从而提高模板库中音频数据的特征的准确性。
114.步骤105的执行与步骤103的执行没有先后顺序,例如,步骤105可以在步骤103前执行,也可以在步骤103后执行,图3仅示出了在步骤103后执行的情况。
115.由于步骤105是用于模板库的进一步维护,所以步骤105是可选的。
116.在上述实施例中,通过步骤102至步骤104保证了加入模板库中的音频数据的特征的准确性,通过步骤105可以剔除模板库中准确性相对较低的音频数据的特征,从而进一步保证了模板库中的音频数据的特征的准确性,提高音频数据的识别效果。
117.在另一实施例中,也可以仅通过步骤105保证模板库中的音频数据的特征的准确性。该实施例可以包括:步骤101和步骤105,其中,步骤105可以在步骤101前执行,也可以在步骤101后执行。
118.为了说明图3所示的实施例的效果,下面提供了一应用例。
119.如图5所示,图5示出了采用本技术实施例提供的方法和已有的方法对音频数据进行识别的错误率,其中,横轴为时间,纵轴为错误率,虚线2代表本技术,虚线1代表已有的方法。从图5中可以看出,随着时间推移,申请的错误率下降并趋于稳定,而已有的方法的错误率上升,由此可见,此申请可以减少累积误差的影响,达到越用越好的效果。
120.可以理解的是,麦克风采集到的音频数据可能包含重叠的部分。例如,由于同一时刻可能存在多人同时讲话或插话的情况,所以麦克风采集到的音频数据可能包含多人在同一时刻的语音数据。
121.所以,若直接对目标音频数据中重叠部分的音频数据进行识别,则会错误地将多个人的语音数据划分为一个类别。
122.为此,本技术还提供了另一实施例中,在该实施例中,将麦克风采集到的音频数据分离,然后对分离后的数据分别进行识别,以解决采集到的音频数据中音频数据重叠的问题。
123.如图6所示,本技术提供了音频数据识别的方法的另一个实施例,该实施例包括:
124.步骤201,对目标音频数据进行分离,以得到第一音频数据和第二音频数据。
125.第一音频数据的采集时间和第二音频数据的采集时间存在相同的部分,这也可以理解为,目标音频数据中存在重叠的音频数据。例如,第一音频数据是人物aa在第0s至第5s发出的语音数据,第二音频数据是人物bb在第3s至第8s发出的语音数据,这意味着目标音频数据在第3s至第5s内存在重叠的音频数据。
126.目标音频数据可以是由麦克风采集到任意音频数据,通常情况下,目标音频数据包含多个人的音频数据。
127.可以采用多种方法对目标音频数据进行分离,例如,可以采用beamforming技术或基于深度学习的盲源分离方法对目标音频数据进行分离。
128.可以将第一音频数据和第二音频数据分离至不同的音轨。其中,不同的音轨具有不同的属性,如音轨的音色、通道数、音量等。
129.需要说明的是,分离目标音频数据得到的音频数据的数量,与目标音频数据中重叠部分的音频数据的类别数量相同。例如,若目标音频数据在同一时刻包含三个人的音频数据,则分离目标音频数据可以得到三种的音频数据,即除了第一音频数据和第二音频数据外,还包含另外一种的音频数据。
130.在分离目标音频数据的过程中,可以采用固定时间长度的滑窗依次截取目标音频
数据,并检测截取的部分是否重;若截取的部分重叠,则对截取的部分进行分离。
131.如图7所示,目标音频数据在滑窗所在的位置存在重叠的情况,在对目标音频进行分离后,得到音轨1上的第一音频数据和音轨2上的第二音频数据。
132.考虑到不同录音终端采集到的目标音频数据的种类可能不同,所以分离目标音频数据所需的硬件可能不同,因此,步骤201在采集目标音频数据的终端本地执行,即步骤201通常由终端执行。在另一实施例中,步骤201也可以由服务器执行。
133.步骤202,根据模板库以及第一音频数据的特征确定第一音频数据的类别。
134.需要说明的是,步骤102与步骤101类似,具体可参照步骤101的相关说明进行理解;在执行步骤202后,也可以执行图3所示的实施例中的步骤102至步骤105。
135.步骤203,根据模板库以及第二音频数据的特征确定第二音频数据的类别。
136.需要说明的是,步骤103与步骤101类似,具体可参照步骤101的相关说明进行理解;在执行步骤203后,也可以执行类似于图3所示的实施例中的步骤102至步骤105。
137.步骤204,根据第一音频数据的类别和第二音频数据的类别,对目标音频数据进行标记。
138.标记目标音频数据的过程可以理解为,标记出目标音频数据中的每段时间的音频数据的类别(具体可以理解为说话的人)。
139.具体地,需要将第一音频数据和第二音频数据的时间戳对齐,并在重叠部分同时标记第一音频数据的类别和第二音频数据的类别。
140.为了便于理解,下面结合图8对上述标记过程进行说明。
141.如图所示,在将目标音频数据分离为5段音频数据,其中,音轨1对应2段音频数据,音轨2对应3段音频数据;这5段音频数据的类别如图8所示,第一段音频数据和第二音频数据由a说的,第二段音频数据和第四段音频数据由b说的,第五段音频数据由c说的。
142.根据上述5段音频数据的类别对目标音频数据进行标记,标记结果为:在目标音频数据中,第0至5s是由a说的,第6s至11s是由b说的,第10s至12s是由a说的,第13s至15秒是由b说的,第16秒至第18秒是由c说的。
143.步骤205,向终端发送经过标记的目标音频数据,以使得终端显示经过标记的所述目标音频数据。
144.例如,终端可以显示图8所示的目标音频数据。
145.在该实施例中,先将目标音频数据分离为第一音频数据和第二音频数据,然后分别确定第一音频数据和第三音频的类别,最后根据第一音频数据的类别和第二音频数据的类别,对目标音频数据进行标记,从而解决了目标音频数据中部分音频数据重叠的问题,避免部分音频数据重叠导致识别错误的情况。
146.在采用本技术实施例的方法进行音频数据的识别后,识别过程可以如图9所示。
147.具体地,如图9所示,先执行如图2所示的三步,然后在确定音频数据满足目标条件后,将音频数据的特征以及音频数据的特征与音频数据的类别间的对应关系,添加至模板库。此外,还周期性地对模板库中特征进行聚类处理。
148.本技术还提供了一种生成会议纪要的方法的一个实施例,该实施例采用上文的方法对音频数据进行识别;根据音频数据的识别结果生成会议纪要;向终端发送会议纪要,以使得终端显示会议纪要。
149.如图10所示,本技术实施例还提供了一种音频数据识别的装置,包括:类别确定单元301,用于根据模板库以及第一音频数据的特征确定第一音频数据的类别,模板库中包含n条音频数据的特征以及,n条音频数据的特征与n条音频数据的类别的对应关系,其中,n为正整数;模板库添加单元302,用于当第一音频数据满足目标条件时,将第一音频数据的特征添加至模板库中第一音频数据的类别下。
150.作为一种可实现的方式,该装置还包括:条件判断单元303,用于根据第一音频数据的信噪比、第一音频数据的混响情况,以及第一音频数据的特征与k条音频数据的特征的相似度中的至少一者,确定第一音频数据满足目标条件,其中,k条音频数据属于n条音频数据,且k条音频数据的类别与第一音频数据的类别相同,k为正整数。
151.作为一种可实现的方式,该装置还包括:聚类处理单元304,用于根据聚类算法对模板库中的音频数据的特征进行聚类处理。
152.作为一种可实现的方式,第一音频数据是由目标音频数据分离得到的,目标音频数据还分离得到第二音频数据;第一音频数据的采集时间和第二音频数据的采集时间存在相同的部分。
153.作为一种可实现的方式,类别确定单元301,还用于根据模板库以及第二音频数据的特征确定第二音频数据的类别。
154.作为一种可实现的方式,该装置还包括:标记单元305,用于根据第一音频数据的类别和第二音频数据的类别,对目标音频数据进行标记。
155.作为一种可实现的方式,该装置还包括:发送单元306,用于向终端发送经过标记的目标音频数据,以使得终端显示经过标记的目标音频数据。
156.第五方面,本技术提供了一种音频数据识别的装置,包括:类别确定单元,用于根据模板库以及第一音频数据的特征确定第一音频数据的类别,模板库中包含n条音频数据的特征以及,n条音频数据的特征与n条音频数据的类别的对应关系,其中,n为正整数;聚类处理单元,用于根据聚类算法对所述模板库中的所述音频数据的特征进行聚类处理。
157.如图11所示,本技术实施例还提供了一种生成会议纪要的装置,包括:识别单元401,用于采用如第一方面中任意一项的方法对音频数据进行识别;会议纪要生成单元402,用于根据所述音频数据的识别结果生成会议纪要;显示单元403,用于向终端发送所述会议纪要,以使得终端显示所述会议纪要。
158.请参阅图12,图12为本技术实施例提供的计算机设备1800的一种结构示意图,该计算机设备1800可以是服务器,也可以是终端设备;当计算机设备1800为服务器时,计算机设备1800具体用于实现图10对应实施例中音频数据识别装置的功能或图11对应实施例中生成会议纪要的装置的功能;计算机设备1800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)1822(例如,一个或一个以上处理器)和存储器1832,一个或一个以上存储应用程序1842或数据1844的存储介质1830(例如一个或一个以上海量存储设备)。其中,存储器1832和存储介质1830可以是短暂存储或持久存储。存储在存储介质1830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备1800中的一系列指令操作。更进一步地,中央处理器1822可以设置为与存储介质1830通信,在计算机设备1800上执行存储介质1830中的一系列指令操作。
159.计算机设备1800还可以包括一个或一个以上电源1826,一个或一个以上有线或无线网络接口1850,一个或一个以上输入输出接口1858,和/或,一个或一个以上操作系统1841,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
160.本技术实施例中,中央处理器1822,可以用于执行图10对应实施例中音频数据识别装置执行的音频数据识别方法。具体的,中央处理器1822,可以用于:
161.根据模板库以及第一音频数据的特征确定第一音频数据的类别,模板库中包含n条音频数据的特征以及,n条音频数据的特征与n条音频数据的类别的对应关系,其中,n为正整数;
162.当第一音频数据满足目标条件时,将第一音频数据的特征添加至模板库中第一音频数据的类别下。
163.本技术实施例中,中央处理器1822,可以用于执行图11对应实施例中生成会议纪要的装置执行的生成会议纪要的方法。具体的,中央处理器1822,可以用于:
164.采用图3所示的实施例中的音频数据识别方法对音频数据进行识别;
165.根据音频数据的识别结果生成会议纪要;
166.向终端发送会议纪要,以使得终端显示会议纪要。
167.本技术实施例还提供一种芯片,包括一个或多个处理器。所述处理器中的部分或全部用于读取并执行存储器中存储的计算机程序,以执行前述各实施例的方法。
168.可选地,该芯片该包括存储器,该存储器与该处理器通过电路或电线与存储器连接。进一步可选地,该芯片还包括通信接口,处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息,处理器从该通信接口获取该数据和/或信息,并对该数据和/或信息进行处理,并通过该通信接口输出处理结果。该通信接口可以是输入输出接口。
169.在一些实现方式中,所述一个或多个处理器中还可以有部分处理器是通过专用硬件的方式来实现以上方法中的部分步骤,例如涉及神经网络模型的处理可以由专用神经网络处理器或图形处理器来实现。
170.本技术实施例提供的方法可以由一个芯片实现,也可以由多个芯片协同实现。
171.本技术实施例还提供了一种计算机存储介质,该计算机存储介质用于储存为上述计算机设备所用的计算机软件指令,其包括用于执行为计算机设备所设计的程序。
172.该计算机设备可以如前述图10对应实施例中音频数据识别装置的功能或图11对应实施例中生成会议纪要的装置的功能。
173.本技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,该计算机软件指令可通过处理器进行加载来实现前述各个实施例所示的方法中的流程。
174.以上,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。

技术特征:
1.一种音频数据识别的方法,其特征在于,包括:根据模板库以及第一音频数据的特征确定所述第一音频数据的类别,所述模板库中包含n条音频数据的特征以及,所述n条音频数据的特征与n条音频数据的类别的对应关系,其中,n为正整数;当所述第一音频数据满足目标条件时,将所述第一音频数据的特征添加至所述模板库中所述第一音频数据的类别下。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述第一音频数据的信噪比、所述第一音频数据的混响情况,以及所述第一音频数据的特征与k条音频数据的特征的相似度中的至少一者,确定所述第一音频数据满足所述目标条件,其中,所述k条音频数据属于所述n条音频数据,且所述k条音频数据的类别与所述第一音频数据的类别相同,k为正整数。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:根据聚类算法对所述模板库中的所述音频数据的特征进行聚类处理。4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述第一音频数据是由目标音频数据分离得到的,所述目标音频数据还分离得到第二音频数据;所述第一音频数据的采集时间和所述第二音频数据的采集时间存在相同的部分。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据所述模板库以及第二音频数据的特征确定所述第二音频数据的类别。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:根据所述第一音频数据的类别和所述第二音频数据的类别,对所述目标音频数据进行标记。7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述方法还包括:向终端发送经过标记的所述目标音频数据,以使得所述终端显示经过标记的所述目标音频数据。8.一种生成会议纪要的方法,其特征在于,采用如权利要求1至7中任意一项所述的方法对音频数据进行识别;根据所述音频数据的识别结果生成会议纪要;向终端发送所述会议纪要,以使得终端显示所述会议纪要。9.一种音频数据识别的装置,其特征在于,包括:类别确定单元,用于根据模板库以及第一音频数据的特征确定所述第一音频数据的类别,所述模板库中包含n条音频数据的特征以及,所述n条音频数据的特征与n条音频数据的类别的对应关系,其中,n为正整数;模板库添加单元,用于当所述第一音频数据满足目标条件时,将所述第一音频数据的特征添加至所述模板库中所述第一音频数据的类别下。10.一种生成会议纪要的装置,其特征在于,包括:识别单元,用于采用如权利要求1至7中任意一项所述的方法对音频数据进行识别;会议纪要生成单元,用于根据所述音频数据的识别结果生成会议纪要;显示单元,用于向终端发送所述会议纪要,以使得终端显示所述会议纪要。11.一种计算机设备,其特征在于,所述终端设备包括:存储器和处理器,其中,n为正整
数;所述处理器,用于执行存储器中存储的计算机程序或指令,以使所述终端设备执行如权利要求1-8中任一项所述的方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质具有程序指令,当所述程序指令被直接或者间接执行时,使得如权利要求1至8中任一所述的方法被实现。13.一种芯片系统,其特征在于,所述芯片系统包括至少一个处理器,所述处理器用于执行存储器中存储的计算机程序或指令,当所述计算机程序或所述指令在所述至少一个处理器中执行时,使得如权利要求1至8中任一所述的方法被实现。14.一种计算机程序产品,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行权利要求1至8中任一项所述的方法。

技术总结
本申请实施例公开了一种语音数据识别的方法及相关装置,该方法用于提高模板库中音频数据的特征的准确性,以提高语音数据识别的准确度。本申请实施例方法包括:根据模板库以及第一音频数据的特征确定第一音频数据的类别,模板库中包含N条音频数据的特征以及,N条音频数据的特征与N条音频数据的类别的对应关系,其中,N为正整数;当第一音频数据满足目标条件时,将第一音频数据的特征添加至模板库中第一音频数据的类别下。音频数据的类别下。音频数据的类别下。


技术研发人员:王保辉 芦宇 李卓龙 王迎迎 胡伟湘 罗田锋
受保护的技术使用者:华为技术有限公司
技术研发日:2022.03.11
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐