音频数据处理方法、装置、电子设备及存储介质与流程

未命名 10-19 阅读：139 评论：0

1.本公开涉及人工智能技术领域，尤其涉及一种音频数据处理方法、装置、电子设备及存储介质。

背景技术：

2.随着移动互联网的发展，越来越多的平台提供基于音频的互动功能，例如：k歌、配音等功能。
3.在基于音频数据的互动过程中，往往可以基于用户的音频数据生成用户的互动数据，例如：评估用户的音频数据的质量、生成用户的年度或者季度的评价报告等。
4.然而在互动数据的生成过程中，往往仅考虑了用户的音准、节奏、技巧、情感、气息等评价指标，评价指标较为单一，导致基于用户音频数据生成互动数据的方式灵活性较低。

技术实现要素：

5.本公开提供一种音频数据处理方法、装置、电子设备及存储介质，以至少解决相关技术中基于音频数据生成互动数据的过程中，评价指标单一的问题。本公开的技术方案如下：
6.根据本公开实施例的第一方面，提供一种音频数据处理方法，包括：
7.对目标音频数据进行音色特征提取，得到所述目标音频数据的音色特征；
8.从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征，其中，不同的所述基准音色特征对应不同的音色等级；
9.根据所述目标基准音色特征对应的音色等级，确定所述目标音频数据的音色等级数据。
10.在其中一个实施例中，在从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征之前，所述方法还包括：
11.获取标定音频数据；
12.基于预设的音色处理策略，确定各所述标定音频数据的音色等级数据；
13.根据各所述标定音频数据的音色等级数据，确定各所述标定音频数据对应的音色等级；
14.针对任一所述音色等级，分别对所述音色等级对应的各所述标定音频数据进行音色特征提取，并根据各所述标定音频数据对应的音色特征，构建得到所述音色等级对应的基准音色特征。
15.在其中一个实施例中，所述基于预设的音色处理策略，确定各所述标定音频数据的音色等级数据，包括：
16.对所述标定音频数据进行分组处理，得到多个音频数据组，所述音频数据组中包括两个所述标定音频数据；
17.针对目标音频数据组，获取针对所述目标音频数据组中两个所述标定音频数据的
音色对比数据，所述目标音频数据组为任一所述音频数据组；
18.根据所述目标音频数据组中各所述标定音频数据的初始音色等级数据、两个所述标定音频数据的音色对比数据，确定所述目标音频数据组中各所述标定音频数据的音色等级数据。
19.在其中一个实施例中，所述目标音频数据组中包括第一标定音频数据和第二标定音频数据，所述根据所述目标音频数据组中各所述标定音频数据的初始音色等级数据、两个所述标定音频数据的音色对比数据，确定所述目标音频数据组中各所述标定音频数据的音色等级数据，包括：
20.根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据、及所述第一标定音频数据与所述第二标定音频数据的音色对比数据，确定所述第一标定音频数据的当前音色等级数据及所述第二标定音频数据的当前音色等级数据；
21.根据所述第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据，确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值；
22.在所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配失败的情况下，调整所述第一标定音频数据的所述初始音色等级数据，和/或，在所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配失败的情况下，调整所述第二标定音频数据的所述初始音色等级数据，并跳转至根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据，确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值的步骤，直至所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配成功、且所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配成功为止；
23.将所述第一标定音频数据当前的初始音色等级数据，作为所述第一标定音频数据的音色等级数据，及将所述第二标定音频数据当前的初始音色等级数据，作为所述第二标定音频数据的音色等级数据。
24.在其中一个实施例中，所述从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征，包括：
25.分别确定各基准音色特征与所述音色特征的特征相似度；
26.将对应特征相似度最高的所述基准音色特征，作为与所述音色特征相匹配的目标基准音色特征。
27.在其中一个实施例中，所述对目标音频数据进行音色特征提取，得到所述目标音频数据的音色特征，包括：
28.对所述目标音频数据进行频谱特征提取，得到所述目标音频数据的频谱特征；
29.通过音色特征提取网络对所述频谱特征进行音色特征提取，得到所述目标音频数据的音色特征。
30.在其中一个实施例中，所述音色特征提取网络包括特征提取网络和池化层，所述通过音色特征提取网络对所述频谱特征进行音色特征提取，得到所述目标音频数据的音色
特征，包括：
31.通过特征提取网络对所述频谱特征进行特征提取，得到目标特征，所述目标特征包括所述目标音频数据中各音频帧的特征表示；
32.通过所述池化层对所述目标特征进行音色特征提取，得到所述目标音频数据的音色特征。
33.在其中一个实施例中，所述通过所述池化层对所述目标特征进行音色特征提取，得到所述目标音频数据的音色特征，包括：
34.在所述池化层内，执行以下步骤：
35.针对任一所述音频帧，根据所述音频帧的特征表示，确定所述音频帧对应的注意力权重；
36.根据各所述音频帧对应的注意力权重及各所述音频帧的特征表示，确定所述目标音频数据对应的特征表示均值及特征表示方差；
37.对所述特征表示均值及所述特征表示方差进行拼接处理，得到所述目标音频数据的音色特征。
38.在其中一个实施例中，在通过音色特征提取网络对所述频谱特征进行音色特征提取，得到所述目标音频数据的音色特征之前，所述方法还包括：
39.获取样本音频数据，所述样本音频数据具有标注信息，所述标注信息包括所述样本音频数据所属样本对象的标签信息；
40.将所述样本音频数据对应的频谱特征输入初始音色特征提取网络进行音色特征提取，得到所述样本音频数据对应的音色特征；
41.对所述样本音频数据对应的音色特征进行识别处理，得到所述样本音频数据的识别结果；
42.根据所述样本音频数据的识别结果及所述样本音频数据的标注信息，确定所述初始音色特征提取网络的损失值，并根据所述损失值，训练所述初始音色特征提取网络，得到音色特征提取网络。
43.根据本公开实施例的第二方面，提供一种音频数据处理装置，包括：
44.提取单元，被配置为执行对目标音频数据进行音色特征提取，得到所述目标音频数据的音色特征；
45.第一确定单元，被配置为执行从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征，其中，不同的所述基准音色特征对应不同的音色等级；
46.第二确定单元，被配置为执行根据所述目标基准音色特征对应的音色等级，确定所述目标音频数据的音色等级数据。
47.在其中一个实施例中，所述装置还包括：
48.第一获取单元，被配置为执行获取标定音频数据；
49.第三确定单元，被配置为执行基于预设的音色处理策略，确定各所述标定音频数据的音色等级数据；
50.第四确定单元，被配置为执行根据各所述标定音频数据的音色等级数据，确定各所述标定音频数据对应的音色等级；
51.构建单元，被配置为执行针对任一所述音色等级，分别对所述音色等级对应的各
所述标定音频数据进行音色特征提取，并根据各所述标定音频数据对应的音色特征，构建得到所述音色等级对应的基准音色特征。
52.在其中一个实施例中，所述第三确定单元，还被配置为执行：
53.对所述标定音频数据进行分组处理，得到多个音频数据组，所述音频数据组中包括两个所述标定音频数据；
54.针对目标音频数据组，获取针对所述目标音频数据组中两个所述标定音频数据的音色对比数据，所述目标音频数据组为任一所述音频数据组；
55.根据所述目标音频数据组中各所述标定音频数据的初始音色等级数据、两个所述标定音频数据的音色对比数据，确定所述目标音频数据组中各所述标定音频数据的音色等级数据。
56.在其中一个实施例中，所述目标音频数据组中包括第一标定音频数据和第二标定音频数据，所述第三确定单元，还被配置为执行：
57.根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据、及所述第一标定音频数据与所述第二标定音频数据的音色对比数据，确定所述第一标定音频数据的当前音色等级数据及所述第二标定音频数据的当前音色等级数据；
58.根据所述第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据，确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值；
59.在所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配失败的情况下，调整所述第一标定音频数据的所述初始音色等级数据，和/或，在所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配失败的情况下，调整所述第二标定音频数据的所述初始音色等级数据，并跳转至根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据，确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值的步骤，直至所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配成功、且所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配成功为止；
60.将所述第一标定音频数据当前的初始音色等级数据，作为所述第一标定音频数据的音色等级数据，及将所述第二标定音频数据当前的初始音色等级数据，作为所述第二标定音频数据的音色等级数据。
61.在其中一个实施例中，所述第一确定单元，还被配置为执行：
62.分别确定各基准音色特征与所述音色特征的特征相似度；
63.将对应特征相似度最高的所述基准音色特征，作为与所述音色特征相匹配的目标基准音色特征。
64.在其中一个实施例中，所述提取单元，还被配置为执行：
65.对所述目标音频数据进行频谱特征提取，得到所述目标音频数据的频谱特征；
66.通过音色特征提取网络对所述频谱特征进行音色特征提取，得到所述目标音频数据的音色特征。
67.在其中一个实施例中，所述音色特征提取网络包括特征提取网络和池化层，所述提取单元，还被配置为执行：
68.通过特征提取网络对所述频谱特征进行特征提取，得到目标特征，所述目标特征包括所述目标音频数据中各音频帧的特征表示；
69.通过所述池化层对所述目标特征进行音色特征提取，得到所述目标音频数据的音色特征。
70.在其中一个实施例中，所述提取单元，还被配置为执行：
71.在所述池化层内，执行以下步骤：
72.针对任一所述音频帧，根据所述音频帧的特征表示，确定所述音频帧对应的注意力权重；
73.根据各所述音频帧对应的注意力权重及各所述音频帧的特征表示，确定所述目标音频数据对应的特征表示均值及特征表示方差；
74.对所述特征表示均值及所述特征表示方差进行拼接处理，得到所述目标音频数据的音色特征。
75.在其中一个实施例中，所述装置还包括：
76.第二获取单元，被配置为执行获取样本音频数据，所述样本音频数据具有标注信息，所述标注信息包括所述样本音频数据所属样本对象的标签信息；
77.第一处理单元，被配置为执行将所述样本音频数据对应的频谱特征输入初始音色特征提取网络进行音色特征提取，得到所述样本音频数据对应的音色特征；
78.识别单元，被配置为执行对所述样本音频数据对应的音色特征进行识别处理，得到所述样本音频数据的识别结果；
79.第五确定单元，被配置为执行根据所述样本音频数据的识别结果及所述样本音频数据的标注信息，确定所述初始音色特征提取网络的损失值，并根据所述损失值，训练所述初始音色特征提取网络，得到音色特征提取网络。
80.根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现第一方面中提供的任一项音频数据处理方法。
81.根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面中提供的任一项音频数据处理方法。
82.根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行第一方面中提供的任一项音频数据处理方法。
83.本公开的实施例提供的技术方案至少带来以下有益效果：
84.本公开实施例提供的音频数据处理方法、装置、电子设备及存储介质，对目标音频数据进行音色特征提取，得到目标音频数据的音色特征，从不同音色等级对应的基准音色特征中确定与音色特征相匹配的目标基准音色特征，并根据目标基准音色特征对应的音色等级，确定目标音频数据的音色等级数据。基于本公开实施例提供的音频数据处理方法、装置、电子设备及存储介质，可以从音色这一维度进行音频数据的分析处理，得到相关的音色
等级数据，丰富了针对音频数据的评价指标，进而使得基于用户的音频数据生成互动数据的过程中，可以充分考量用户的音色，提高基于用户音频数据生成互动数据的灵活性和精准性。
85.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
86.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
87.图1是根据一示例性实施例示出的一种音频数据处理方法的流程图。
88.图2是根据一示例性实施例示出的一种音频数据处理方法的流程图。
89.图3是根据一示例性实施例示出的步骤204的流程图。
90.图4是根据一示例性实施例示出的步骤306的流程图。
91.图5是根据一示例性实施例示出的步骤104的流程图。
92.图6是根据一示例性实施例示出的步骤102的流程图。
93.图7是根据一示例性实施例示出的步骤602的流程图。
94.图8是根据一示例性实施例示出的步骤702的流程图。
95.图9是根据一示例性实施例示出的一种音频数据处理方法的流程图。
96.图10a是根据一示例性实施例示出的一种音频数据处理方法的示意图。
97.图10b是根据一示例性实施例示出的一种音频数据处理方法的示意图。
98.图11是根据一示例性实施例示出的一种音频数据处理装置的框图。
99.图12是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
100.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
101.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
102.还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
103.图1是根据一示例性实施例示出的一种音频数据处理方法的流程图，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，或者应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，方法包括以下步骤：
104.在步骤102中，对目标音频数据进行音色特征提取，得到目标音频数据的音色特征。
105.本公开实施例中，目标音频数据为待进行音色评估或者音色评价的音频数据，目标音频数据中包括目标对象的语音信息，例如：目标音频数据可以为目标对象唱的歌曲、目标对象针对视频数据的配音信息等，本公开实施例中不对目标音频数据做具体限定。
106.可以对目标音频数据进行音色特征提取，得到目标音频数据的音色特征。示例性的，可以通过预先训练的神经网络、预先构建的模型等对目标音频数据进行处理，得到目标音频数据的音色特征。
107.在步骤104中，从基准音色特征中确定与音色特征相匹配的目标基准音色特征，其中，不同的基准音色特征对应不同的音色等级。
108.本公开实施例中，可以预先构建音色等级，不同的音色等级具有不同的基准音色特征。在得到目标音频数据的音色特征后，从各音色等级对应的基准音色特征中确定与该音色特征相匹配的基准音色特征，作为该音色特征对应的目标基准音色特征，例如：将与音色特征的相似度最高的基准音色特征作为目标基础音色特征，或者可以通过预先训练的神经网络从基础音色特征中确定与音色特征相匹配的目标基础音色特征。
109.示例性的，假设构建的音色等级包括a级、b级、c级和d级，共4个音色等级。a级对应基准音色特征a、b级对应基准音色特征b、c级对应基准音色特征c、d级对应基准音色特征d。可以从基准音色特征a、基准音色特征b、基准音色特征c、基准音色特征d中确定目标基准音色特征，例如：基准音色特征a与目标音频数据的音色特征的相似度最高，则可以将基准音色特征a作为目标基准音色特征。
110.在步骤106中，根据目标基准音色特征对应的音色等级，确定目标音频数据的音色等级数据。
111.本公开实施例中，音色等级数据可以为目标音频数据在音色指标维度上对应的数据，例如：音色等级、音色分数、音色排名等数据。不同的音色等级对应不同的音色分数范围，可以确定目标基准音色特征对应的音色等级，进而获取该音色等级对应的音色分数范围，进而根据该音色等级对应的音色分数范围，确定目标音频数据的音色等级数据。
112.示例性的，可以将目标基准音色数据对应的音色等级作为目标音频数据的音色等级；从该音色等级对应的音色分数范围内，确定目标音频数据的音色分数，例如：随机从该音色分数范围内确定出目标音频数据的音色分数，或者基于目标音频数据的音色特征与目标基准音色特征的相似度，从该音色分数范围内确定出目标音频数据的音色分数，相似度越高，音色分数越靠近音色分数范围的上限值，反之，相似度越低，音色分数越靠近音色分数范围的下限值；基于目标音频数据的音色分数，确定目标音频数据的音色排名等。
113.本公开实施例提供的音频数据处理方法，对目标音频数据进行音色特征提取，得到目标音频数据的音色特征，从不同音色等级对应的基准音色特征中确定与音色特征相匹配的目标基准音色特征，并根据目标基准音色特征对应的音色等级，确定目标音频数据的音色等级数据。基于本公开实施例提供的音频数据处理方法，可以从音色这一维度进行音频数据的分析处理，得到相关的音色等级数据，丰富了针对音频数据的评价指标，进而使得基于用户的音频数据生成互动数据的过程中，可以考量用户的音色，提高基于用户音频数据生成互动数据的灵活性。
114.在一示例性的实施例中，参照图2所示，在步骤104中，从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征之前，上述方法还可以包括：
115.在步骤202中，获取标定音频数据；
116.在步骤204中，基于预设的音色处理策略，确定各标定音频数据的音色等级数据；
117.在步骤206中，根据各标定音频数据的音色等级数据，确定各标定音频数据对应的音色等级；
118.在步骤208中，针对任一音色等级，分别对音色等级对应的各标定音频数据进行音色特征提取，并根据各标定音频数据对应的音色特征，构建得到音色等级对应的基准音色特征。
119.本公开实施例中，可以预先获取多个不同对象的音频数据作为标定音频数据，并基于预设的音色处理策略，确定各个标定音频数据的音色等级数据，其中预设的音色处理策略为用于确定各个标定音频数据的音色等级数据的策略，其可以包括：采用预先训练的神经网络确定标定音频数据的音色等级数据、或者采用预先设定的算法进行标定音频数据的音色等级数据的计算等。
120.在得到各个标定音频数据的音色等级数据后，可以根据各个标定音频数据的音色等级数据，确定各个标定音频数据的对应的音色等级，由于音色等级具有其对应的音色等级数据范围，故而可以确定标定音频数据的音色等级数据位于的音色等级数据范围，进而确定该音色等级数据范围对应的音色等级作为标定音频数据对应的音色等级。例如：音色等级a对应的音色等级数据范围为[80,90]，则确定音色等级数据位于该范围的标定音频数据的音色等级为音色等级a。
[0121]
在得到各个音色等级对应的标定音频数据后，针对任一音色等级来说，可以提取对应该音色等级的各标定音频数据的音色特征，提取标定音频数据的音色特征的方式参照前述提取目标音频数据的音色特征的方式即可，本公开实施例中在此对此不再赘述。针对任一音色等级，在得到对应该音色等级的标定数据的音色特征后，可以基于各标定音频数据的音色特征，构建音色等级的等级中心特征，也即该音色等级对应的基准音色特征，例如：将各标定音频数据的音色特征的均值，作为音色等级的基准音色特征，或者，确定各标定音频数据的权重(权重可以与音色等级数据正相关，也即音色等级数据越大，则对应的权重越大)，并基于各标定音频数据的权重及各标定音频数据的音色特征进行加权求和，得到音色等级的基准音色特征。以此类推，可以得到各个音色等级对应的基准音色特征。
[0122]
本公开实施例中不对音色等级的划分标准做具体限定，当音色等级的划分标准变化后，例如：对音色等级对应的音色等级数据范围做了调整，则可以基于调整后的音色等级数据范围确定对应该音色等级的标定音频数据，并基于标定音频数据对应的音色特征，重新构建该音色等级对应的基础音色特征。也即在音色等级的划分标准变化后，无需重新训练音色特征提取网络，从而能够只花费很小的代价就能够实现系统的更新。
[0123]
在一示例性的实施例中，参照图3所示，在步骤204中，所述基于预设的音色处理策略，确定各所述标定音频数据的音色等级数据，可以通过以下步骤实现：
[0124]
在步骤302中，对标定音频数据进行分组处理，得到多个音频数据组，音频数据组中包括两个标定音频数据；
[0125]
在步骤304中，针对目标音频数据组，获取针对目标音频数据组中两个标定音频数
据的音色对比数据，目标音频数据组为任一所述音频数据组；
[0126]
在步骤306中，根据目标音频数据组中各标定音频数据的初始音色等级数据、两个标定音频数据的音色对比数据，确定目标音频数据组中各标定音频数据的音色等级数据。
[0127]
本公开实施例中，可以将每两个标定音频数据划分为一组，以得到多个音频数据组，也即每个音频数据组中包括两个标定音频数据。针对任一音频数据组，可以将该音频数据组作为目标音频数据组，针对该目标音频数据组中的两个标定音频数据，可以获取针对该两个标定音频数据的音色对比数据，其中音色对比数据可以为对两个标定音频数据的音色进行比对后，得到的数据。例如：可以获取多个用户对两个标定音频数据音色的比对结果，例如：假设目标音频数据组中包括标定音频数据a和标定音频数据b，则针对该两个标定音频数据的音色对比数据可以包括各个用户对两个标定音频数据音色进行比对后，得到的比对结果，假设用户包括用户1、用户2和用户3，用户1对两个标定音频数据音色进行比对后，得到的比对结果1为(标定音频数据a胜出)、用户2对两个标定音频数据音色进行比对后，得到的比对结果2为(标定音频数据a胜出)、用户3对两个标定音频数据音色进行比对后，得到的比对结果3为(标定音频数据a与标定音频数据b平)，则针对标定音频数据a和标定音频数据b的音色对比数据可以包括(比对结果1、比对结果2和比对结果3)。
[0128]
举例来说，可以预先为各个标定音频数据赋予对应的初始音色等级数据，例如：确定各标定音频数据的初始音色等级数据均为50分。进而在得到针对目标音频数据中两个标定音频数据的音色对比数据后，可以根据两个标定音频数据的音色对比数据对各标定音频数据的初始音色等级数据进行调整，以得到目标音频数据组中各标定音频数据的音色等级数据。以此类推，可以得到各音频数据组中各标定音频数据的音色等级数据。
[0129]
需要说明的是，在标定音频数据已在其他音频数据组中完成音色等级数据的调整后，可以将该标定音频数据在其他音频数据组中确定音色等级数据，作为该标定音频数据在目标音频数据组中对应的初始音色等级数据。在完成针对全部音频数据组中标定音频数据的音色等级数据划分后，将各标定音频数据最后确定的音色等级数据，作为该标定音频数据的音色等级数据。
[0130]
本公开实施例提供的音频数据处理方法，可以基于任意两个标定音频数据的音色对比数据确定标定音频数据的音色等级数据，进而基于各标定音频数据的音色等级数据，确定各音色等级对应的标定音频数据，以基于各音色等级对应的标定音频数据构建各音色等级的基准音色特征，以能够基于音频数据的音色特征和基准音色特征进行匹配，确定音频数据的音色等级数据，这样一来，丰富了针对音频数据的评价指标，进而使得基于用户的音频数据生成互动数据的过程中，可以考量用户的音色，提高基于用户音频数据生成互动数据的灵活性。
[0131]
在一示例性实施例中，目标音频数据组中包括第一标定音频数据和第二标定音频数据，参照图4所示，在步骤306中，根据目标音频数据组中各标定音频数据的初始音色等级数据、两个标定音频数据的音色对比数据，确定目标音频数据组中各标定音频数据的音色等级数据，具体可以通过以下步骤实现：
[0132]
在步骤402中，根据第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据、及第一标定音频数据与第二标定音频数据的音色对比数据，确定第一标定音频数据的当前音色等级数据及第二标定音频数据的当前音色等级数据；
[0133]
在步骤404中，根据第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据，确定第一标定音频数据对应的胜率期望值及第二标定音频数据对应的胜率期望值；
[0134]
在步骤406中，在第一标定音频数据的当前音色等级数据与第一标定音频数据对应的胜率期望值匹配失败的情况下，调整第一标定音频数据的初始音色等级数据，和/或，在第二标定音频数据的当前音色等级数据与第二标定音频数据对应的胜率期望值匹配失败的情况下，调整第二标定音频数据的初始音色等级数据，并跳转至根据第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据，确定第一标定音频数据对应的胜率期望值及第二标定音频数据对应的胜率期望值的步骤，直至第一标定音频数据的当前音色等级数据与第一标定音频数据对应的胜率期望值匹配成功、且第二标定音频数据的当前音色等级数据与第二标定音频数据对应的胜率期望值匹配成功为止；
[0135]
在步骤408中，将第一标定音频数据当前的初始音色等级数据，作为第一标定音频数据的音色等级数据，及将第二标定音频数据当前的初始音色等级数据，作为第二标定音频数据的音色等级数据。
[0136]
本公开实施例中，针对任一音频数据组，可以将该音频数据组作为目标音频数据组，将该目标音频数据中的两个标定音频数据分别作为第一标定音频数据和第二标定音频数据。可以根据第一标定音频数据与第二标定音频数据的音色对比数据，分别对第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据进行调整，得到第一标定音频数据的当前音色等级数据和第二标定音频数据的当前音色等级数据。示例性的，以第一标定音频数据为例，在第一标定音频数据胜出时，可以对第一标定音频数据增加第一数值，在第一标定音频数据与第二标定音频数据平时，可以对第一标定音频数据增加第二数值，在第一标定音频数据负出时，可以对第一标定音频数据增加第三数值，其中第一数值大于第二数值，第二数值大于第三数值，例如：第一数值为1、第二数值为0.5、第三数值为0。以此类推，针对任一标定音频数据，均可以基于音色对比数据进行初始音色等级数据的调整，得到当前音色等级数据。
[0137]
本公开实施例中，可以基于第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据，确定第一标定音频数据相对第二标定音频数据的胜率期望值、第二标定音频数据相对第一标定音频数据的胜率期望值。其中胜率期望值用于表征获胜的期望值，也即预测的获胜的概率值，第一标定音频数据相对第二标定音频数据的胜率期望值即为第一标定音频数据相对第二标定音频数据获胜的概率值，第二标定音频数据相对第一标定音频数据的胜率期望值即为第二标定音频数据相对第一标定音频数据获胜的概率值。本公开实施例中不对确定胜率期望值的方式做具体限定，以下以公式(一)和公式(二)为例，确定第一标定音频数据和第二标定音频数据的胜率期望值。
[0138][0139][0140]
其中，ea用于表征第一标定音频数据相对第二标定音频数据的胜率期望值，eb用于表征第二标定音频数据相对第一标定音频数据的胜率期望值，rb用于表征第二标定音频数据的初始音色等级数据，ra用于表征第一标定音频数据的初始音色等级数据。
[0141]
在得到第一标定音频数据和第二标定音频数据的当前音色等级数据后，可以对第一标定音频数据的当前音色等级数据与第一标定音频数据对应的胜率期望值进行匹配，同时对第二标定音频数据的当前音色等级数据与第二标定音频数据对应的胜率期望值进行匹配。以第一标定音频数据为例，若第一标定音频数据的当前音色等级数据与第一标定音频数据对应的胜率期望值之间的差值小于预先设置的差值阈值，则可以确定第一标定音频数据的当前音色等级数据与第一标定音频数据对应的胜率期望值匹配成功，反之，若第一标定音频数据的当前音色等级数据与第一标定音频数据对应的胜率期望值之间的差值大于或者等于预先设置的差值阈值，则可以确定第一标定音频数据的当前音色等级数据与第一标定音频数据对应的胜率期望值匹配失败。
[0142]
若第一标定音频数据的当前音色等级数据与第一标定音频数据对应的胜率期望值匹配失败，则调整第一标定音频数据的初始音色等级数据，同理，若第二标定音频数据的当前音色等级数据与第二标定音频数据对应的胜率期望值匹配失败，则调整第二标定音频数据的初始音色等级数据。
[0143]
举例来说，针对任一标定音频数据来说，在调整标定音频数据的初始音色等级数据的过程中，可以基于该标定音频数据的当前音色等级数据与标定音频数据对应的胜率期望值之间的差值，确定针对初始音色等级数据的调整值，并基于该调整值对标定音频数据的初始音色等级数据进行调整，示例性的，在标定音频数据的当前音色等级数据小于第一标定音频数据对应的胜率期望值的情况下，可以对初始音色等级数据进行该调整值的下调处理，或者，在标定音频数据的当前音色等级数据大于第一标定音频数据对应的胜率期望值的情况下，可以对初始音色等级数据进行该调整值的上调处理。
[0144]
其中，上述调整值与上述差值之间正相关，也即标定音频数据的当前音色等级数据与标定音频数据对应的胜率期望值之间的差值越大，则对应的调整值越大，标定音频数据的当前音色等级数据与标定音频数据对应的胜率期望值之间的差值越小，则对应的调整值越小。
[0145]
例如，可以采用以下公式(三)，对第一标定音频数据的初始音色等级数据进行调整。
[0146]r′a＝ra+k(s
a-ea)
ꢀꢀ
公式(三)
[0147]
其中，ra为第一标定音频数据调整前的初始音色等级数据，r
′a为第一标定音频数据调整后的初始音色等级数据，sa为第一标定音频数据的当前音色等级数据，k为常数，为可配置项，默认可以设置为32。以此类推，可以实现针对各标定音频数据的初始音色等级数据的调整操作。需要说明的是，在目标音频数据组中，当标定音频数据的初始音色等级数据调整至上限值后，不再进行调整，例如：上限值为100分，如果初始音色等级数据为100分后，在该目标音频数据组中将不再做调整。当确定了音色等级数据的标定音频数据作为另一音频数据组中的标定音频数据时，可以将该标定音频数据在目标音频数据组中确定的音色等级数据作为在该音频数据组中的初始音色等级数据。
[0148]
在调整第一标定音频数据的初始音色等级数据和/或调整第二标定音频数据的初始音色等级数据后，可以跳转至根据第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据，确定第一标定音频数据对应的胜率期望值及第二标定音频数据对应的胜率期望值的步骤，也即基于第一标定音频数据调整后的初始音色等级数据和第
二标定音频数据调整后的初始音色等级数据，重新计算第一标定音频数据对应的胜率期望值及第二标定音频数据对应的胜率期望值，并基于重新计算的胜率期望值与当前音色等级数据进行匹配，若匹配失败，继续进行初始音色等级数据的调整，并基于调整后的初始音色等级数据计算胜率期望值，
……
，直至第一标定音频数据的当前音色等级数据与第一标定音频数据对应的胜率期望值匹配成功、且第二标定音频数据的当前音色等级数据与第二标定音频数据对应的胜率期望值匹配成功为止。
[0149]
在第一标定音频数据的当前音色等级数据与第一标定音频数据对应的胜率期望值匹配成功、且第二标定音频数据的当前音色等级数据与第二标定音频数据对应的胜率期望值匹配成功的情况下，可以将当前第一标定音频数据的初始音色等级数据作为第一标定音频数据的音色等级数据，及将当前第二标定音频数据的初始音色等级数据，作为第二标定音频数据的音色等级数据。
[0150]
本公开实施例提供的音频数据处理方法，可以基于针对标定音频数据的音色对比数据及标定音频数据对应的胜率期望值进行初始音色等级数据的调整，得到标定音频数据的音色等级数据，可以使得标定音频数据的音色等级数据更具客观性，缓解用户主观因素的干扰。
[0151]
在一示例性的实施例中，参照图5所示，在步骤104中，从基准音色特征中确定与音色特征相匹配的目标基准音色特征，可以通过以下步骤实现：
[0152]
在步骤502中，分别确定各基准音色特征与音色特征的特征相似度；
[0153]
在步骤504中，将对应特征相似度最高的基准音色特征，作为与音色特征相匹配的目标基准音色特征。
[0154]
举例来说，可以分别确定各基准音色特征与目标音频数据的音色特征的特征相似度，本公开实施例中不对计算特征相似度的方式做具体限定，任一可以进行相似度计算的方式均适用于本公开实施例中，例如：余弦相似度算法(cosine similarity)、皮尔逊相关系数(pearson correlation coefficient)、欧几里得距离(euclidean distance)等算法。
[0155]
在得到各基准音色特征与音色特征的特征相似度后，可以从特征相似度中确定最大值，并将该最大值对应的基准音色特征，作为与目标音频数据的音色特征相匹配的目标基准音色特征，进而将该目标基准音色特征对应的音色级别作为目标音频数据的音色等级，进而根据该音色等级确定目标音频数据的音色等级数据。
[0156]
本公开实施例提供的音频数据处理方法，可以预先构建多个音色等级，并计算各音色等级的基准音色特征与目标音频数据的音色特征的特征相似度，以基于特征相似度精准确定目标音频数据对应的音色等级，进而得到音频数据的音色等级数据，以使得基于用户的音频数据生成互动数据的过程中，可以考量用户的音色，提高基于用户音频数据生成互动数据的灵活性和精准度。
[0157]
在一示例性的实施例中，参照图6所示，在步骤102中，对目标音频数据进行音色特征提取，得到目标音频数据的音色特征，可以通过以下步骤实现：
[0158]
在步骤602中，对目标音频数据进行频谱特征提取，得到目标音频数据的频谱特征；
[0159]
在步骤604中，通过音色特征提取网络对频谱特征进行音色特征提取，得到目标音频数据的音色特征。
[0160]
举例来说，可以提取目标音频数据的频谱特征，本公开实施例中不对提取频谱特征的方式做具体限定，其可以为频域特征，梅尔倒谱特征等。示例性的，以频谱特征为梅尔倒谱特征为例，假设长度为t的目标音频数据s在时域上表示为s(t),其中t代表时间，0《t≤t，则经过短时傅里叶变换后，s(t)在时频域可表示为：s(n,f)＝stft(s(t))，其中n为帧序列，0《n≤n，(n为目标音频数据的总帧数)，f为中心频率序列0《f≤f，f为总频点数。从时频域的幅度值|s(n,f)|得到梅尔域的梅尔倒谱特征m(n,k)，也即m(n,k)＝mel(|s(n,f)|)，其中，k为特征维度。
[0161]
在得到频谱特征后，可以通过预先训练的音色特征提取网络对该频谱特征进行音色特征提取，得到目标音频数据的音色特征，并可以基于该音色特征与各音色等级对应的基准音色特征进行匹配，以确定目标音频数据对应的音色等级，并基于该音色等级确定目标音频数据的音色等级数据。
[0162]
在一示例性的实施例中，音色特征提取网络包括特征提取网络和池化层，参照图7所示，上述步骤602中，通过音色特征提取网络对频谱特征进行音色特征提取，得到目标音频数据的音色特征，可以通过以下步骤实现：
[0163]
在步骤702中，通过特征提取网络对频谱特征进行特征提取，得到目标特征，目标特征包括目标音频数据中各音频帧的特征表示；
[0164]
在步骤704中，通过池化层对目标特征进行音色特征提取，得到目标音频数据的音色特征。
[0165]
本公开实施例中，特征提取网络可以为深度神经网络，通过特征提取网络从目标音频数据的频谱特征中可以提取能够描述音色的特征表示，得到目标特征，通过深度神经网络的学习，可以得到帧级别的特征表示r(n,l),也即可以得到包括各音频帧的特征表示的目标特征，其中l为该层神经网络的节点数，示例性的，参照以下公式(四)所示。
[0166]
r(n,l)＝h(m(n,k))
ꢀꢀ
公式(四)
[0167]
在得到目标特征后，可以通过池化层对目标特征进行降维处理，得到句子级别的音色特征表征，也即得到目标音频数据的音色特征，该音色特征可以表示为一个向量。
[0168]
本公开实施例提供的音频数据处理方法，可以预先训练音色特征提取网络，并提取目标音频数据的音色特征，进而基于音色等级的基准音色特征与目标音频数据的音色特征，确定目标音频数据对应的音色等级，进而得到目标音频数据的音色等级数据，在音色等级划分标准变化后，无需重新训练音色特征提取网络，可以适应不同的音色等级划分标准。
[0169]
在一示例性的实施例中，参照图8所示，在步骤702中，通过池化层对目标特征进行音色特征提取，得到目标音频数据的音色特征，可以通过以下步骤实现：在池化层内，执行以下步骤：
[0170]
在步骤802中，针对任一音频帧，根据音频帧的特征表示，确定音频帧对应的注意力权重；
[0171]
在步骤804中，根据各音频帧对应的注意力权重及各音频帧的特征表示，确定目标音频数据对应的特征表示均值及特征表示方差；
[0172]
在步骤806中，对特征表示均值及特征表示方差进行拼接处理，得到目标音频数据的音色特征。
[0173]
本公开实施例中，目标特征中包括各音频帧的特征表示，针对任一音频帧对应的
特征表示，可以确定各音频帧的注意力权重，示例性的，可以采用以下公式(五)确定各音频帧的注意力权重。
[0174]en
＝q
t
f(wrn+b)+k
ꢀꢀꢀ
公式(五)
[0175]
其中，rn即为r(n,l)，n为帧序列标号，其中，f()为非线性函数(比如tanh)，q,w为神经网络的参数(weight)，b,k是偏移(bias)。en是归一化之前的注意力权重，对得到的en进行归一化，使得所有音频帧的权重加起来为1，即：
[0176][0177]
其中，αn为第n帧音频帧的注意力权重。
[0178]
在得到第n帧音频帧的注意力权重后，可以根据各音频帧对应的注意力权重及各音频帧的特征表示，确定目标音频数据对应的特征表示均值及特征表示方差，其中特征表示均值为对各音频帧对应的特征表示根据其对应的注意力权重进行加权求和后，计算得到的特征表示的均值(示例性的，参照下述公式(六))，特征表示方差为对各音频帧对应的特征表示根据其对应的注意力权重进行加权求和后，计算得到的特征表示的方差(示例性的，参照下述公式(七))。
[0179][0180][0181]
其中，u表示特征表示均值，σ表示特征表示方差。
[0182]
在得到特征表示均值及特征表示方差后，对特征表示均值及特征表示方差进行拼接处理，即得到目标音频数据的音色特征。或者，也可以将特征表示均值作为目标音频数据的音色特征，或者在进行特征表示均值和特征表示方差的过程中，不考虑注意力权重，将计算得到的特征表示均值和特征表示方差作为目标音频数据的音色特征，本公开实施例中对此不做具体限定。
[0183]
本公开实施例提供的音频数据处理方法，可以采用预先训练的音色特征提取网络，提取目标音频数据的音色特征，进而基于音色等级的基准音色特征与目标音频数据的音色特征，确定目标音频数据对应的音色等级，进而得到目标音频数据的音色等级数据，在音色等级划分标准变化后，无需重新训练音色特征提取网络，可以适应不同的音色等级划分标准。
[0184]
在一示例的实施例中，参照图9所示，上述方法在步骤602，在通过音色特征提取网络对频谱特征进行音色特征提取，得到目标音频数据的音色特征之前，还包括：
[0185]
在步骤902中，获取样本音频数据，样本音频数据具有标注信息，标注信息包括所述样本音频数据所属样本对象的标签信息；
[0186]
在步骤904中，将样本音频数据对应的频谱特征输入初始音色特征提取网络进行音色特征提取，得到样本音频数据对应的音色特征；
[0187]
在步骤906中，对样本音频数据对应的音色特征进行识别处理，得到样本音频数据的识别结果；
[0188]
在步骤908中，根据样本音频数据的识别结果及样本音频数据的标注信息，确定初
始音色特征提取网络的损失值，并根据损失值，训练初始音色特征提取网络，得到音色特征提取网络。
[0189]
本公开实施例中，可以预先获取多个样本对象的音频数据作为样本音频数据，其中属于同一个样本对象的数据的标注信息是相同的，均为对应该样本对象的标签信息。可以将各样本音频数据对应的频谱特征(提取频谱特征的过程参照前述实施例的相关描述即可，本公开实施例中对此不再赘述)输入初始音色特征提取网络中进行音色特征提取，得到各样本音频数据对应的音色特征(提取音色特征的具体过程参照前述实施例的相关描述即可，本公开实施例在此不再赘述)。
[0190]
在得到样本音频数据的音色特征后，可以使用几层前向后向网络对样本音频数据的音色特征进行识别，得到对应的识别结果，该识别结果中包括样本音色特征属于样本音频数据中所有样本对象的预测概率。
[0191]
在得到样本音频数据对应的识别结果后，可以根据每个样本音频数据对应的标注信息和识别结果中属于各样本对象的预测概率，可以确定初始音色特征提取网络的损失值，本公开实施例不对计算损失值的损失函数做具体限定，例如可以包括交叉熵损失函数，a-softmax loss等损失函数。以采用交叉熵损失函数为例，损失值的计算过程可以参照下述公式(八)所示。
[0192][0193]
其中，c是样本对象的总个数，s是样本音频数据，c是样本对象，当样本音频数据s是样本对象c时，pc等于1，否则等于0.p(c|s)是该样本音频数据预测为样本对象c的预测概率，j为损失值。
[0194]
在计算得到初始音色特征提取网络的损失值后，在损失值不满足训练要求(例如：损失值大于或者等于损失阈值)，可以调整初始音色特征提取网络的网络参数，并跳转至将样本音频数据输入初始音色特征提取网络进行音色特征提取，得到样本音频数据对应的音色特征的步骤，直至在损失值满足训练要求(例如：损失值小于损失阈值)为止，得到训练后的音色特征提取网络。
[0195]
本公开实施例提供的音频数据处理方法，可以采用预先训练音色特征提取网络，通过该音色特征提取网络提取目标音频数据的音色特征，进而基于音色等级的基准音色特征与目标音频数据的音色特征，确定目标音频数据对应的音色等级，进而得到目标音频数据的音色等级数据，在音色等级划分标准变化后，无需重新训练音色特征提取网络，可以适应不同的音色等级划分标准。
[0196]
为使本领域技术人员更好的理解本公开实施例，以下通过具体示例对本公开实施例加以说明。
[0197]
参照图10a和图10b所示，本公开实施例具体可以包括音色等级划分及等级中心特征构造、音色特征提取及确定音色等级数据等部分。
[0198]
在音色等级划分过程中，首先从标定音频数据中粗略地选取少量的不同音色等级的数据，通过用户对选取的标定音频数据进行音色比对等操作，进而根据获取的音色对比数据和预设的音色处理策略，得到各个标定音频数据的音色等级分数，具体过程参照前述实施例的相关描述即可，本公开实施例中在此对此不再赘述。接下来，可以音色等级对应的音色等级数据进行划分，例如：每5分间隔为一个音色等级，分在同一个音色等级中的标定
音频数据的音色悦耳度被认为是相同的。至此，可以得到属于不同音色等级的标定音频数据集合。
[0199]
在等级中心特征构造过程中，可以采用基于深度神经网络的音色特征提取网络来提取标定音频数据的音色特征，进而可以预先训练音色特征提取网络，在训练好音色特征提取网络后，使用该音色特征提取网络对不同音色等级的标定数据进行音色特征提取。最后，通过对属于同一音色等级的标定音频数据的音色特征取平均值，得到每个音色等级的等级中心特征。
[0200]
在进行音色特征提取网络的训练时，可以先获取大量的样本音频数据，每个样本音频数据可以具有对应的标注信息，该标注信息可以包括样本音频数据所属样本对象的标签信息，属于同一个样本对象的样本音频数据的标签信息是相同的。
[0201]
针对任一样本音频数据，可以进行频谱特征提取，得到样本音频数据对应的频谱特征(具体过程参照前述实施例的相关描述即可，本公开实施例中对此不再赘述)，并将频谱特征输入初始音色特征提取网络中，得到对应的音色特征，使用几层前向后向网络对音色特征进行判别，判断该音色特征属于训练数据中所有样本对象的概率，根据每个样本音频数据对应的标注信息和上述预测概率，计算了交叉熵损失值，基于该损失值可以训练初始音色特征提取网络，得到音色特征提取网络。
[0202]
在训练好音色特征提取网络之后，可以对目标音频数据进行音色特征提取，进而基于提取的音色特征与各音色等级的等级中心特征，进行相似度计算，通过找相似度最大值，得到该用户的音色特征所属的音色等级，并根据该预测的音色等级得到用户的音色等级数据。
[0203]
采用本公开实施例提供的音频数据处理方法，通过划分音色等级，每个音色等级只需要少量的标注样本，标注样本所花费的大量人力和物力，且如果音色等级数据的确定标准有变化，只需要重新标定各音色等级参考的标定音频数据即可，不需要重新训练音色特征提取网络，从而能够只花费很小的代价就能够实现系统的更新。
[0204]
应该理解的是，虽然图1-图9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图a-图y中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0205]
可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。
[0206]
图11是根据一示例性实施例示出的一种音频数据处理装置框图。参照图11，该装置包括提取单元1102，第一确定单元1104和第一确定单元1106。
[0207]
提取单元1102，被配置为执行对目标音频数据进行音色特征提取，得到所述目标音频数据的音色特征；
[0208]
第一确定单元1104，被配置为执行从基准音色特征中确定与所述音色特征相匹配
的目标基准音色特征，其中，不同的所述基准音色特征对应不同的音色等级；
[0209]
第二确定单元1106，被配置为执行根据所述目标基准音色特征对应的音色等级，确定所述目标音频数据的音色等级数据。
[0210]
本公开实施例提供的音频数据处理装置，对目标音频数据进行音色特征提取，得到目标音频数据的音色特征，从不同音色等级对应的基准音色特征中确定与音色特征相匹配的目标基准音色特征，并根据目标基准音色特征对应的音色等级，确定目标音频数据的音色等级数据。基于本公开实施例提供的音频数据处理装置，可以从音色这一维度进行音频数据的分析处理，得到相关的音色等级数据，丰富了针对音频数据的评价指标，进而使得基于用户的音频数据生成互动数据的过程中，可以充分考量用户的音色，提高基于用户音频数据生成互动数据的灵活性和精准性。
[0211]
在其中一个实施例中，所述装置还包括：
[0212]
第一获取单元，被配置为执行获取标定音频数据；
[0213]
第三确定单元，被配置为执行基于预设的音色处理策略，确定各所述标定音频数据的音色等级数据；
[0214]
第四确定单元，被配置为执行根据各所述标定音频数据的音色等级数据，确定各所述标定音频数据对应的音色等级；
[0215]
构建单元，被配置为执行针对任一所述音色等级，分别对所述音色等级对应的各所述标定音频数据进行音色特征提取，并根据各所述标定音频数据对应的音色特征，构建得到所述音色等级对应的基准音色特征。
[0216]
在其中一个实施例中，所述第三确定单元，还被配置为执行：
[0217]
对所述标定音频数据进行分组处理，得到多个音频数据组，所述音频数据组中包括两个所述标定音频数据；
[0218]
针对目标音频数据组，获取针对所述目标音频数据组中两个所述标定音频数据的音色对比数据，所述目标音频数据组为任一所述音频数据组；
[0219]
根据所述目标音频数据组中各所述标定音频数据的初始音色等级数据、两个所述标定音频数据的音色对比数据，确定所述目标音频数据组中各所述标定音频数据的音色等级数据。
[0220]
在其中一个实施例中，所述目标音频数据组中包括第一标定音频数据和第二标定音频数据，所述第三确定单元，还被配置为执行：
[0221]
根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据、及所述第一标定音频数据与所述第二标定音频数据的音色对比数据，确定所述第一标定音频数据的当前音色等级数据及所述第二标定音频数据的当前音色等级数据；
[0222]
根据所述第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据，确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值；
[0223]
在所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配失败的情况下，调整所述第一标定音频数据的所述初始音色等级数据，和/或，在所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期
望值匹配失败的情况下，调整所述第二标定音频数据的所述初始音色等级数据，并跳转至根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据，确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值的步骤，直至所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配成功、且所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配成功为止；
[0224]
将所述第一标定音频数据当前的初始音色等级数据，作为所述第一标定音频数据的音色等级数据，及将所述第二标定音频数据当前的初始音色等级数据，作为所述第二标定音频数据的音色等级数据。
[0225]
在其中一个实施例中，所述第一确定单元1104，还被配置为执行：
[0226]
分别确定各基准音色特征与所述音色特征的特征相似度；
[0227]
将对应特征相似度最高的所述基准音色特征，作为与所述音色特征相匹配的目标基准音色特征。
[0228]
在其中一个实施例中，所述提取单元1102，还被配置为执行：
[0229]
对所述目标音频数据进行频谱特征提取，得到所述目标音频数据的频谱特征；
[0230]
通过音色特征提取网络对所述频谱特征进行音色特征提取，得到所述目标音频数据的音色特征。
[0231]
在其中一个实施例中，所述音色特征提取网络包括特征提取网络和池化层，所述提取单元1102，还被配置为执行：
[0232]
通过特征提取网络对所述频谱特征进行特征提取，得到目标特征，所述目标特征包括所述目标音频数据中各音频帧的特征表示；
[0233]
通过所述池化层对所述目标特征进行音色特征提取，得到所述目标音频数据的音色特征。
[0234]
在其中一个实施例中，所述提取单元1102，还被配置为执行：
[0235]
在所述池化层内，执行以下步骤：
[0236]
针对任一所述音频帧，根据所述音频帧的特征表示，确定所述音频帧对应的注意力权重；
[0237]
根据各所述音频帧对应的注意力权重及各所述音频帧的特征表示，确定所述目标音频数据对应的特征表示均值及特征表示方差；
[0238]
对所述特征表示均值及所述特征表示方差进行拼接处理，得到所述目标音频数据的音色特征。
[0239]
在其中一个实施例中，所述装置还包括：
[0240]
第二获取单元，被配置为执行获取样本音频数据，所述样本音频数据具有标注信息，所述标注信息包括所述样本音频数据所属样本对象的标签信息；
[0241]
第一处理单元，被配置为执行将所述样本音频数据对应的频谱特征输入初始音色特征提取网络进行音色特征提取，得到所述样本音频数据对应的音色特征；
[0242]
识别单元，被配置为执行对所述样本音频数据对应的音色特征进行识别处理，得到所述样本音频数据的识别结果；
[0243]
第五确定单元，被配置为执行根据所述样本音频数据的识别结果及所述样本音频
数据的标注信息，确定所述初始音色特征提取网络的损失值，并根据所述损失值，训练所述初始音色特征提取网络，得到音色特征提取网络。
[0244]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0245]
图12是根据一示例性实施例示出的一种用于音频数据处理方法的电子设备1200的框图。例如，电子设备1200可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
[0246]
参照图12，电子设备1200可以包括以下一个或多个组件：处理组件1202、存储器1204、电源组件1206、多媒体组件1208、音频组件1210、输入/输出(i/o)的接口1212、传感器组件1214以及通信组件1216。
[0247]
处理组件1202通常控制电子设备1200的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。
[0248]
存储器1204被配置为存储各种类型的数据以支持在电子设备1200的操作。这些数据的示例包括用于在电子设备1200上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。
[0249]
电源组件1206为电子设备1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为电子设备1200生成、管理和分配电力相关联的组件。
[0250]
多媒体组件1208包括在所述电子设备1200和用户之间的提供输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括前置摄像头和/或后置摄像头。当电子设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。
[0251]
音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括麦克风(mic)，当电子设备1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括扬声器，用于输出音频信号。
[0252]
i/o接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
[0253]
传感器组件1214包括一个或多个传感器，用于为电子设备1200提供各个方面的状态评估。例如，传感器组件1214可以检测到电子设备1200的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1200的显示器和小键盘，传感器组件1214还可以检测电子设备1200或电子设备1200组件的位置改变，用户与电子设备1200接触的存在或不存在，设备1200方位或加速/减速和电子设备1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
[0254]
通信组件1216被配置为便于电子设备1200和其他设备之间有线或无线方式的通信。电子设备1200可以接入基于通信标准的无线网络，如wifi，运营商网络(如2g、3g、4g或5g)，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
[0255]
在示例性实施例中，电子设备1200可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
[0256]
在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1204，上述指令可由电子设备1200的处理器1220执行以完成上述方法。例如，计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0257]
在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备1200的处理器1220执行以完成上述方法。
[0258]
需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。
[0259]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。
[0260]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征：
1.一种音频数据处理方法，其特征在于，包括：对目标音频数据进行音色特征提取，得到所述目标音频数据的音色特征；从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征，其中，不同的所述基准音色特征对应不同的音色等级；根据所述目标基准音色特征对应的音色等级，确定所述目标音频数据的音色等级数据。2.根据权利要求1所述的方法，其特征在于，在从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征之前，所述方法还包括：获取标定音频数据；基于预设的音色处理策略，确定各所述标定音频数据的音色等级数据；根据各所述标定音频数据的音色等级数据，确定各所述标定音频数据对应的音色等级；针对任一所述音色等级，分别对所述音色等级对应的各所述标定音频数据进行音色特征提取，并根据各所述标定音频数据对应的音色特征，构建得到所述音色等级对应的基准音色特征。3.根据权利要求2所述的方法，其特征在于，所述基于预设的音色处理策略，确定各所述标定音频数据的音色等级数据，包括：对所述标定音频数据进行分组处理，得到多个音频数据组，所述音频数据组中包括两个所述标定音频数据；针对目标音频数据组，获取针对所述目标音频数据组中两个所述标定音频数据的音色对比数据，所述目标音频数据组为任一所述音频数据组；根据所述目标音频数据组中各所述标定音频数据的初始音色等级数据、两个所述标定音频数据的音色对比数据，确定所述目标音频数据组中各所述标定音频数据的音色等级数据。4.根据权利要求3所述的方法，其特征在于，所述目标音频数据组中包括第一标定音频数据和第二标定音频数据，所述根据所述目标音频数据组中各所述标定音频数据的初始音色等级数据、两个所述标定音频数据的音色对比数据，确定所述目标音频数据组中各所述标定音频数据的音色等级数据，包括：根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据、及所述第一标定音频数据与所述第二标定音频数据的音色对比数据，确定所述第一标定音频数据的当前音色等级数据及所述第二标定音频数据的当前音色等级数据；根据所述第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据，确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值；在所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配失败的情况下，调整所述第一标定音频数据的所述初始音色等级数据，和/或，在所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配失败的情况下，调整所述第二标定音频数据的所述初始音色等级数据，并跳转至根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级
数据，确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值的步骤，直至所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配成功、且所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配成功为止；将所述第一标定音频数据当前的初始音色等级数据，作为所述第一标定音频数据的音色等级数据，及将所述第二标定音频数据当前的初始音色等级数据，作为所述第二标定音频数据的音色等级数据。5.根据权利要求1所述的方法，其特征在于，所述从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征，包括：分别确定各基准音色特征与所述音色特征的特征相似度；将对应特征相似度最高的所述基准音色特征，作为与所述音色特征相匹配的目标基准音色特征。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述对目标音频数据进行音色特征提取，得到所述目标音频数据的音色特征，包括：对所述目标音频数据进行频谱特征提取，得到所述目标音频数据的频谱特征；通过音色特征提取网络对所述频谱特征进行音色特征提取，得到所述目标音频数据的音色特征。7.根据权利要求6所述的方法，其特征在于，所述音色特征提取网络包括特征提取网络和池化层，所述通过音色特征提取网络对所述频谱特征进行音色特征提取，得到所述目标音频数据的音色特征，包括：通过特征提取网络对所述频谱特征进行特征提取，得到目标特征，所述目标特征包括所述目标音频数据中各音频帧的特征表示；通过所述池化层对所述目标特征进行音色特征提取，得到所述目标音频数据的音色特征。8.根据权利要求7所述的方法，其特征在于，所述通过所述池化层对所述目标特征进行音色特征提取，得到所述目标音频数据的音色特征，包括：在所述池化层内，执行以下步骤：针对任一所述音频帧，根据所述音频帧的特征表示，确定所述音频帧对应的注意力权重；根据各所述音频帧对应的注意力权重及各所述音频帧的特征表示，确定所述目标音频数据对应的特征表示均值及特征表示方差；对所述特征表示均值及所述特征表示方差进行拼接处理，得到所述目标音频数据的音色特征。9.根据权利要求6所述的方法，其特征在于，在通过音色特征提取网络对所述频谱特征进行音色特征提取，得到所述目标音频数据的音色特征之前，所述方法还包括：获取样本音频数据，所述样本音频数据具有标注信息，所述标注信息包括所述样本音频数据所属样本对象的标签信息；将所述样本音频数据对应的频谱特征输入初始音色特征提取网络进行音色特征提取，得到所述样本音频数据对应的音色特征；
对所述样本音频数据对应的音色特征进行识别处理，得到所述样本音频数据的识别结果；根据所述样本音频数据的识别结果及所述样本音频数据的标注信息，确定所述初始音色特征提取网络的损失值，并根据所述损失值，训练所述初始音色特征提取网络，得到音色特征提取网络。10.一种音频数据处理装置，其特征在于，包括：提取单元，被配置为执行对目标音频数据进行音色特征提取，得到所述目标音频数据的音色特征；第一确定单元，被配置为执行从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征，其中，不同的所述基准音色特征对应不同的音色等级；第二确定单元，被配置为执行根据所述目标基准音色特征对应的音色等级，确定所述目标音频数据的音色等级数据。11.一种电子设备，其特征在于，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的音频数据处理方法。12.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9中任一项所述的音频数据处理方法。

技术总结
本公开关于一种音频数据处理方法、装置、电子设备及存储介质，方法包括：对目标音频数据进行音色特征提取，得到所述目标音频数据的音色特征；从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征，其中，不同的所述基准音色特征对应不同的音色等级；根据所述目标基准音色特征对应的音色等级，确定所述目标音频数据的音色等级数据。采用本公开实施例丰富了针对音频数据的评价指标，进而使得基于用户的音频数据生成互动数据的过程中，可以充分考量用户的音色，提高基于用户音频数据生成互动数据的灵活性和精准性。互动数据的灵活性和精准性。互动数据的灵活性和精准性。

技术研发人员：许成林魏耀都任新蕾郑羲光张晨
受保护的技术使用者：北京达佳互联信息技术有限公司
技术研发日：2023.07.06
技术公布日：2023/10/8

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种用于物流运输的智能扫描装置的制作方法 下一篇：一种汽车尾气净化稀土储氧材料制作装置及方法与流程

音频数据处理方法、装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

音频数据处理方法、装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表