音频处理方法、计算机设备和存储介质与流程

未命名 10-19 阅读：73 评论：0

1.本技术涉及音频处理技术领域，特别是涉及一种音频处理方法、计算机设备、存储介质和计算机程序产品。

背景技术：

2.随着计算机技术的发展，越来越多的人可以用自己的电子设备进行音乐创作；在进行音乐创作时，通常涉及到音频格式转换，比如将其它格式的音频转换成midi(musical instrument digital interface，乐器数字接口)音频。
3.传统技术中，在进行音频格式转换时，通常是通过从音乐的原始音频中提取音高信息，然后按照时序平滑方式输出音乐的音高信息，从而生成该音乐的目标音频。然而，音乐的基本要素较多，单单考虑音高信息，容易导致音频转换的准确率较低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提升音频转换的准确率的音频处理方法、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面，本技术提供了一种音频处理方法。所述方法包括：
6.获取待处理音频的音高信息与节拍信息，按照所述节拍信息对所述待处理音频的时长进行划分，得到所述待处理音频的音频网格；
7.获取所述音高信息在所述音频网格中的网格覆盖信息；
8.根据所述网格覆盖信息，对所述音高信息对应的时长进行更新，得到时长更新后的音高信息；
9.根据所述时长更新后的音高信息，生成所述待处理音频的目标音频。
10.在其中一个实施例中，所述根据所述网格覆盖信息，对所述音高信息对应的时长进行更新，包括：
11.识别出所述网格覆盖信息的特征区域；所述特征区域对应的时长小于所述音频网格的单位时长；
12.根据所述特征区域对应的时长，更新所述网格覆盖信息；
13.根据更新后的网格覆盖信息，更新所述音高信息对应的时长。
14.在其中一个实施例中，所述根据所述特征区域对应的时长，更新所述网格覆盖信息，包括：
15.从所述特征区域中，筛选出与相邻特征区域不存在重合区域的第一特征区域；
16.在所述第一特征区域对应的时长不满足预设时长阈值的情况下，减少所述第一特征区域对应的时长，得到更新后的网格覆盖信息；
17.在所述第一特征区域对应的时长满足所述预设时长阈值的情况下，增加所述第一特征区域对应的时长，得到更新后的网格覆盖信息。
18.在其中一个实施例中，所述根据所述特征区域对应的时长，更新所述网格覆盖信
息，还包括：
19.从所述特征区域中，筛选出与相邻特征区域存在重合区域的第二特征区域；
20.从所述第二特征区域与所述第二特征区域的相邻特征区域中，将对应的音阶强度信息较高的特征区域确认为第三特征区域，以及将对应的音阶强度信息较低的特征区域确认为第四特征区域；
21.增加所述第三特征区域对应的时长，以及减少所述第四特征区域对应的时长，得到更新后的网格覆盖信息。
22.在其中一个实施例中，所述根据所述时长更新后的音高信息，生成所述待处理音频的目标音频，包括：
23.对所述时长更新后的音高信息进行音阶更新处理；
24.根据音阶更新后的音高信息，将所述待处理音频的格式转换为目标格式，得到所述待处理音频的目标音频。
25.在其中一个实施例中，所述对所述时长更新后的音高信息进行音阶更新处理，包括：
26.针对所述时长更新后的音高信息中的任意两个相邻时长更新后的音高信息，确认所述两个相邻时长更新后的音高信息之间的音阶差异信息；
27.在所述两个相邻时长更新后的音高信息之间的音阶差异信息满足预设音阶差异信息条件的情况下，更新所述两个相邻时长更新后的音高信息中的第二个时长更新后的音高信息的音阶信息。
28.在其中一个实施例中，所述获取待处理音频的音高信息与节拍信息，包括：
29.获取所述待处理音频的时频特征信息；
30.对所述时频特征信息进行音高识别处理，得到所述待处理音频的音高信息，以及对所述时频特征信息进行节拍识别处理，得到所述待处理音频的节拍信息。
31.在其中一个实施例中，所述对所述时频特征信息进行音高识别处理，得到所述待处理音频的音高信息，包括：
32.从所述时频特征信息中，识别出所述待处理音频的旋律信息；
33.根据所述旋律信息，确认所述待处理音频的音阶显著性信息与音阶时序信息；
34.对所述音阶显著性信息与所述音阶时序信息进行融合处理，得到所述待处理音频的音高信息。
35.第二方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
36.获取待处理音频的音高信息与节拍信息，按照所述节拍信息对所述待处理音频的时长进行划分，得到所述待处理音频的音频网格；
37.获取所述音高信息在所述音频网格中的网格覆盖信息；
38.根据所述网格覆盖信息，对所述音高信息对应的时长进行更新，得到时长更新后的音高信息；
39.根据所述时长更新后的音高信息，生成所述待处理音频的目标音频。
40.第三方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
41.获取待处理音频的音高信息与节拍信息，按照所述节拍信息对所述待处理音频的时长进行划分，得到所述待处理音频的音频网格；
42.获取所述音高信息在所述音频网格中的网格覆盖信息；
43.根据所述网格覆盖信息，对所述音高信息对应的时长进行更新，得到时长更新后的音高信息；
44.根据所述时长更新后的音高信息，生成所述待处理音频的目标音频。
45.第四方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
46.获取待处理音频的音高信息与节拍信息，按照所述节拍信息对所述待处理音频的时长进行划分，得到所述待处理音频的音频网格；
47.获取所述音高信息在所述音频网格中的网格覆盖信息；
48.根据所述网格覆盖信息，对所述音高信息对应的时长进行更新，得到时长更新后的音高信息；
49.根据所述时长更新后的音高信息，生成所述待处理音频的目标音频。
50.上述音频处理方法、计算机设备、存储介质和计算机程序产品，首先获取待处理音频的音高信息与节拍信息，按照节拍信息对待处理音频的时长进行划分，得到待处理音频的音频网格；然后获取音高信息在音频网格中的网格覆盖信息；接着根据网格覆盖信息，对音高信息对应的时长进行更新，得到时长更新后的音高信息；最后根据时长更新后的音高信息，生成待处理音频的目标音频。基于以上过程的音频处理方法，通过音高信息在音频网格下的网格覆盖信息，能够在音频处理的过程中，充分考虑音高与节奏这两个密切相关的要素对待处理音频的影响，得到既能准确反映音高，又能准确反映节奏的目标音频，从而提升了音频转换的准确率。
附图说明
51.图1为一个实施例中音频处理方法的流程示意图；
52.图2为一个实施例中待处理音频的音高信息示意图；
53.图3为一个实施例中待处理音频的音频网格示意图；
54.图4为一个实施例中待处理音频的网格覆盖信息示意图；
55.图5为一个实施例中待处理音频的时长更新后的音高信息示意图；
56.图6为一个实施例中k歌应用程序的k歌界面示意图；
57.图7为一个实施例中歌曲应用程序的识曲界面示意图；
58.图8为一个实施例中根据特征区域对应的时长，更新网格覆盖信息的步骤的示意图；
59.图9为一个实施例中待处理音频的音阶更新后的音高信息示意图；
60.图10为另一个实施例中音频处理方法的流程示意图；
61.图11为一个实施例中midi生成准确率提升方法的示意图；
62.图12为一个实施例中计算机设备的内部结构图。
具体实施方式
63.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
64.在一示例性实施例中，如图1所示，提供了一种音频处理方法，本实施例以该方法应用于服务器进行举例说明；可以理解的是，该方法也可以应用于终端，还可以应用于包括服务器和终端的系统，并通过服务器和终端之间的交互实现。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现；终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑等。本实施例中，该方法包括以下步骤：
65.步骤s102，获取待处理音频的音高信息与节拍信息，按照节拍信息对待处理音频的时长进行划分，得到待处理音频的音频网格。
66.其中，待处理音频的音高信息至少包括待处理音频的音阶显著性信息和音阶时序信息；音阶显著性信息用于表征待处理音频的各个音阶，以及各个音阶之间的显著性关系；音阶时序信息用于表征待处理音频的各个音阶之间的时序关系。
67.其中，待处理音频的节拍信息是指待处理音频的节拍时值，即每拍占用的时间。
68.具体地，服务器首先通过机器学习训练得到的音高识别模型，获取待处理音频的音阶显著性信息，比如待处理音频的半音显著性矩阵，作为待处理音频的音高信息；同时，通过深度学习训练得到的节拍识别模型，确定待处理音频中每拍占用的时间，作为待处理音频的节拍信息；接着，服务器通过节拍信息，平均划分待处理音频的时长，得到待处理音频的音频网格。
69.举例说明，服务器通过音高识别模型，得到如图2所示的待处理音频的音高信息；参阅图2，每个矩形代表一个音高信息，矩形在竖直方向上的位置代表音阶高低，在水平方向上的位置代表时间先后，矩形的颜色代表音阶显著性，颜色越深，则音阶越显著，例如音高信息1的音阶为a5，音阶显著性由低变为高再变为低。然后，服务器通过节拍识别模型，计算待处理音频的bpm(beat per minute，每分钟节拍数)，再根据bpm计算节拍时值；例如，待处理音频的bpm为120，那么节拍时值＝60/bpm＝60/120＝1/2，即待处理音频的节拍信息为0.5s。最后，服务器以节拍时值0.5s，或节拍时值0.5s的1/n为间隔，平均划分待处理音频的时长，得到如图3所示的待处理音频的音频网格。
70.能够理解的是，音乐的基本要素除了音高，还包括节奏、速度等，且音高与节奏的关系非常密切；如果忽略节奏，直接基于如图2所示的音高信息输出midi音频，那么得到的midi音频的节奏会时快时慢，甚至还会节奏错乱。还能够理解的是，通常选取音乐的节拍来表征音乐的节奏。
71.步骤s104，获取音高信息在音频网格中的网格覆盖信息。
72.其中，网格覆盖信息用于表征音高信息在音频网格中的位置。
73.具体地，服务器通过在音频网格中表示音高信息，从而得到音高信息在音频网格中的网格覆盖信息。能够理解的是，服务器也可以基于待处理音频的节拍信息，对音高信息的时长进行划分，得到音高信息基于节拍信息的网格覆盖信息。
74.举例说明，服务器在如图3所示的音频网格中，表示如图2所示的音高信息，得到如图4所示的待处理音频的网格覆盖信息。
75.步骤s106，根据网格覆盖信息，对音高信息对应的时长进行更新，得到时长更新后的音高信息。
76.具体地，服务器根据网格覆盖信息的分布情况，对音高信息的时长进行更新，同时将各个音高信息的音阶显著性统一为相同强度，得到如图5所示的待处理音频的时长更新后的音高信息。
77.步骤s108，根据时长更新后的音高信息，生成待处理音频的目标音频。
78.其中，目标音频是指格式为目标格式的音频，例如当目标格式为midi时，目标音频即为midi音频。
79.具体地，服务器根据如图5所示的时长更新后的音高信息，生成待处理音频的目标音频，例如midi音频。
80.待处理音频的midi音频可以用于各种使用场景中；举例说明，如图6所示为k歌应用程序中的k歌界面，其中白色音准条为标准音标条，黑色音准条为用户音准条，服务器可以根据人声哼唱的待处理音频，生成对应的midi音频，再根据midi音频输出对应的用户音准条以引导用户完成k歌；再举例说明，如图7所示为歌曲应用程序中的识曲界面，服务器还可以根据待处理音频的midi音频，从曲库中识别出对应的歌曲。
81.上述音频处理方法中，服务器首先获取待处理音频的音高信息与节拍信息，按照节拍信息对待处理音频的时长进行划分，得到待处理音频的音频网格；然后获取音高信息在音频网格中的网格覆盖信息；接着根据网格覆盖信息，对音高信息对应的时长进行更新，得到时长更新后的音高信息；最后根据时长更新后的音高信息，生成待处理音频的目标音频。基于以上过程的音频处理方法，服务器通过音高信息在音频网格下的网格覆盖信息，能够在音频处理的过程中，充分考虑音高与节奏这两个密切相关的要素对待处理音频的影响，得到既能准确反映音高，又能准确反映节奏的目标音频，从而提升了音频转换的准确率。
82.在一示例性实施例中，如图8所示，上述步骤s106，根据网格覆盖信息，对音高信息对应的时长进行更新，得到时长更新后的音高信息，具体包括以下步骤：
83.步骤s802，识别出网格覆盖信息的特征区域。
84.步骤s804，根据特征区域对应的时长，更新网格覆盖信息。
85.步骤s806，根据更新后的网格覆盖信息，更新音高信息对应的时长。
86.其中，特征区域对应的时长小于音频网格的单位时长。
87.其中，更新后的网格覆盖信息中不存在特征区域。
88.具体地，服务器首先从网格覆盖信息中，识别出对应的时长小于音频网格的单位时长的特征区域，然后根据特征区域对应的时长类型，对网格覆盖信息的时长进行更新，最后将网格覆盖信息更新后的时长作为对应的音高信息的时长，得到时长更新后的音高信息。
89.举例说明，参考图4，服务器从各个网格覆盖信息中，识别出对应的时长小于音频网格的单位时长的特征区域，如网格覆盖信息1中的最左边网格与最右边网格，然后通过这两个特征区域的时长更新，实现对网格覆盖信息1的时长更新，最后再将网格覆盖信息1更新后的时长，作为音高信息1的时长，得到图5中的时长更新后的音高信息1。
90.本实施例中，服务器通过特征区域的识别，针对性地对音高信息的边缘网格进行
调整，这样的局部更新方式相对于音高信息的整体更新方式而言，减少了数据操作量；此外，服务器通过引入音频网格，实现了对待处理音频的节拍信息与音高信息的结合，避免了在音频转换过程中只考虑单一要素的缺陷，从而提高了音频转换的准确率。
91.在一示例性实施例中，上述步骤s204，根据特征区域对应的时长，更新网格覆盖信息，具体包括以下内容：从特征区域中，筛选出与相邻特征区域不存在重合区域的第一特征区域；在第一特征区域对应的时长不满足预设时长阈值的情况下，减少第一特征区域对应的时长，得到更新后的网格覆盖信息；在第一特征区域对应的时长满足预设时长阈值的情况下，增加第一特征区域对应的时长，得到更新后的网格覆盖信息。
92.其中，预设时长阈值为音频网格的单位时长的二分之一，例如单位时长(节拍时值)为0.5s，那么预设时长阈值即为0.25s。
93.其中，特征区域按照分布情况，可以分为与相邻特征区域不存在重合区域的第一特征区域，以及与相邻特征区域存在重合区域的第二特征区域；例如，参考图4，网格覆盖信息1的左边特征区域与右边特征区域均为第一特征区域；网格覆盖信息2的右边特征区域与网格覆盖信息3的左边特征区域均为第二特征区域。
94.具体地，服务器首先从各个特征区域中，识别出与相邻特征区域不存在重合区域的第一特征区域，接着对比第一区域对应的时长与预设时长阈值；在第一特征区域对应的时长不满足预设时长阈值的情况下，减少第一特征区域对应的时长，在第一特征区域对应的时长满足预设时长阈值的情况下，增加第一特征区域对应的时长，从而得到更新后的网格覆盖信息。
95.举例说明，参考图4，网格覆盖信息1的左边特征区域对应的时长小于音频网格的单位时长的二分之一，因此需要减少这部分的时长；同时，网格覆盖信息1的右边特征区域对应的时长大于音频网格的单位时长的二分之一，因此需要增加这部分的时长，使得时长更新后的网格覆盖信息1中不存在特征区域；然后，服务器再根据时长更新后的网格覆盖信息1，得到图5中的时长更新后的音高信息1。
96.再举例说明，图4中的网格覆盖信息9的右边特征区域对应的时长大于音频网格的单位时长的二分之一，因此需要增加这部分的时长，最后得到图5中的时长更新后的音高信息9。
97.本实施例中，服务器按照是否与相邻特征区域存在重合区域、特征区域对应的时长是否满足预设时长阈值，能够对特征区域进行具体分类，并基于分类结果，对不同的特征区域对应的时长进行不同的处理，从而能够基于待处理音频的节拍信息对待处理音频的音高信息进行更新，得到既能够准确反映音高，又能够准确反映节奏的音高信息，进而提升了音频转换的准确率。
98.在一示例性实施例中，上述步骤s204，根据特征区域对应的时长，更新网格覆盖信息，还具体包括以下内容：从特征区域中，筛选出与相邻特征区域存在重合区域的第二特征区域；从第二特征区域与第二特征区域的相邻特征区域中，将对应的音阶强度信息较高的特征区域确认为第三特征区域，以及将对应的音阶强度信息较低的特征区域确认为第四特征区域；增加第三特征区域对应的时长，以及减少第四特征区域对应的时长，得到更新后的网格覆盖信息。
99.其中，特征区域的音阶强度信息，可以用特征区域对应的时长和音阶显著性来表
征；在音阶强度信息的对比中，以时长(是否满足预设时长阈值)为第一对比要素，以音阶显著性为第二对比要素；即时长越长，音阶强度越高；音阶显著性越明显，音阶强度越高。
100.具体地，服务器首先从各个特征区域中，识别出与相邻特征区域存在重合区域的第二特征区域，接着对比第二特征区域与第二特征区域的相邻区域的音阶强度信息；然后，服务器将对应的音阶强度信息较高的特征区域确认为第三特征区域，并增加第三特征区域对应的时长，以及将对应的音阶强度信息较低的特征区域确认为第四特征区域，并减少第四特征区域对应的时长，从而得到更新后的网格覆盖信息。
101.举例说明，参考图4，网格覆盖信息2的右边特征区域与网格覆盖信息3的左边特征区域存在重合区域，因此这两个特征区域均为第二特征区域；且根据对应的时间长度和颜色深浅，可以得知，网格覆盖信息2的右边特征区域的颜色较深，但对应的时长小于预设时长阈值，因此网格覆盖信息2的右边特征区域的音阶强度信息较低，为第四特征区域；网格覆盖信息3的左边特征区域的颜色较浅，但对应的时长大于预设时长阈值，因此网格覆盖信息3的左边特征区域的音阶强度信息较高，为第三特征区域；基于以上分析，服务器增加网格覆盖信息3的左边特征区域对应的时长，减少网格覆盖信息2的右边特征区域对应的时长，得到时长更新后的网格覆盖信息2与时长更新后的网格覆盖信息3，最终得到如图5所示的时长更新后的音高信息2与时长更新后的音高信息3。
102.再举例说明，参考图4，网格覆盖信息7的右边特征区域与网格覆盖信息8的左边特征区域存在重合区域，因此这两个特征区域均为第二特征区域；且根据对应的时间长度和颜色深浅，可以得知，这两个第二特征区域对应的时长均满足预设时长阈值，但网格覆盖信息7的右边特征区域的颜色较浅，因此网格覆盖信息7的右边特征区域为第四特征区域，网格覆盖信息8的左边特征区域的颜色较深，因此网格覆盖信息8的左边特征区域为第三特征区域；基于以上分析，服务器增加网格覆盖信息8的左边特征区域应的时长，减少网格覆盖信息7的右边特征区域对应的时长，最后得到如图5所示的时长更新后的音高信息7与时长更新后的音高信息8。
103.能够理解的是，上述根据第一特征区域对应的时长，更新网格覆盖信息的步骤，与根据第二特征区域对应的时长，更新网格覆盖信息的步骤，不区分先后顺序。服务器在根据特征区域对应的时长，更新网格覆盖信息时，是根据特征区域是否存在重合区域，来选择对应的更新策略的。
104.本实施例中，服务器按照是否与相邻特征区域存在重合区域、特征区域对应的时长是否满足预设时长阈值，能够对特征区域进行具体分类，并基于分类结果，对不同的特征区域对应的时长进行不同的处理，从而能够基于待处理音频的节拍信息对待处理音频的音高信息进行更新，得到既能够准确反映音高，又能够准确反映节奏的音高信息，进而提升了音频转换的准确率。
105.在一示例性实施例中，上述步骤s108，根据时长更新后的音高信息，生成待处理音频的目标音频，具体包括以下内容：对时长更新后的音高信息进行音阶更新处理；根据音阶更新后的音高信息，将待处理音频的格式转换为目标格式，得到待处理音频的目标音频。
106.其中，目标格式为与待处理音频的原始格式不同的其它格式，例如原始格式为mp3(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)，目标格式为midi。
107.具体地，服务器首先对时长更新后的音高信息进行音阶更新处理，然后根据阶更新后的音高信息，生成待处理音频的目标音频。
108.能够理解的是，在对待处理音频的音高信息的提取过程以及对音高信息的时长更新过程中，有可能会出现音高八度跳变(相邻音高信息跳变超过七个半音)的现象。基于“相邻旋律音高跳变通常不会超过7个半音”的先验知识，可以确定，音高八度跳变会导致音频的畸变，因此在本实施例中，服务器通过对时长更新后的音高信息的音阶更新处理，能够避免生成的目标音频中出现音高八度跳变的情况，进一步提升了音频转换的准确率。
109.在一示例性实施例中，上述步骤，对时长更新后的音高信息进行音阶更新处理，具体包括以下内容：针对时长更新后的音高信息中的任意两个相邻时长更新后的音高信息，确认两个相邻时长更新后的音高信息之间的音阶差异信息；在两个相邻时长更新后的音高信息之间的音阶差异信息满足预设音阶差异信息条件的情况下，更新两个相邻时长更新后的音高信息中的第二个时长更新后的音高信息的音阶信息。
110.其中，音阶差异信息用于表征两个相邻时长更新后的音高信息之间的音高跳情况。
111.其中，预设音阶差异信息条件为七个半音，即当两个相邻时长更新后的音高信息之间的音高跳跃大于七个半音时，根据先验知识，需要对这两个相邻时长更新后的音高信息的音阶进行更新。
112.具体地，服务器首先确认两两相邻的时长更新后的音高信息之间的音阶差异信息；在音阶差异信息大于七个半音的情况下，服务器将第二个时长更新后的音高信息的音阶降低十二个半音(即降低八度)。
113.举例说明，参考图5，时长更新后的音高信息3的音阶为d5，时长更新后的音高信息4的音阶为b5，两者之间的音阶差值为十二个半音，显然满足大于七个半音的预设音阶差异信息条件，因此服务器需要将时长更新后的音高信息4的音阶降低到b4。如图9所示为待处理音频的音阶更新后的音高信息示意图，其中，音阶更新后的音高信息4的音阶为b4。
114.本实施例中，服务器通过先验知识，对时长更新后的音高信息的音高跳变情况进行验证，当两个音高信息的音高跳变超出七个半音时，通过对第二个音高信息的音阶的调整，使得音高信息的音高跳变处于正常范围内，从而提升了音频转换的准确率。
115.在一示例性实施例中，上述步骤s102中，获取待处理音频的音高信息与节拍信息，具体包括以下内容：获取待处理音频的时频特征信息；对时频特征信息进行音高识别处理，得到待处理音频的音高信息，以及对时频特征信息进行节拍识别处理，得到待处理音频的节拍信息。
116.具体地，服务器首先对待处理音频进行重采样，提取待处理音频的各个音频帧的cqt(constant q transform，中心频率按指数规律分布)特征，作为待处理音频的时频特征信息；然后服务器将时频特征信息分别输入至音高识别模型与节拍识别模型中，进行音高识别处理与节拍识别处理，得到待处理音频的音高信息与节拍信息。
117.本实施例中，服务器通过对待处理音频的时频特征信息进行音高识别与节拍识别，能够得到待处理音频的音高信息与节拍信息，有利于后续音高信息与节拍信息的结合，从而提高音频转换的准确率。
118.在一示例性实施例中，上述步骤中，对时频特征信息进行音高识别处理，得到待处
理音频的音高信息，具体包括以下内容：从时频特征信息中，识别出待处理音频的旋律信息；根据旋律信息，确认待处理音频的音阶显著性信息与音阶时序信息；对音阶显著性信息与音阶时序信息进行融合处理，得到待处理音频的音高信息。
119.具体地，服务器首先从时频特征信息中识别出待处理音频的旋律信息，然后根据旋律信息，进一步确认出待处理音频的各个音阶、各个音阶之间的显著性关系，以及各个音阶之间的时序关系，从而得到待处理音频的音阶显著性信息与音阶时序信息；接着再对音阶显著性信息与音阶时序信息进行融合处理，得到如图2所示的待处理音频的音高信息。
120.本实施例中，服务器通过时频特征信息中的旋律信息，能够准确得到待处理音频的音阶显著性信息与音阶时序信息，进而准确得到待处理音频的音高信息，为后续目标音频的生成提供了信息基础。
121.在一示例性实施例中，如图10所示，提供了另一种音频处理方法，以该方法应用于服务器为例进行说明，包括以下步骤：
122.步骤s1001，获取待处理音频的音高信息与节拍信息。
123.步骤s1002，按照节拍信息对待处理音频的时长进行划分，得到待处理音频的音频网格。
124.步骤s1003，获取音高信息在音频网格中的网格覆盖信息。
125.步骤s1004，识别出网格覆盖信息中，对应的时长不满足音频网格的单位时长的特征区域。
126.步骤s1005，根据特征区域对应的时长，更新网格覆盖信息。
127.具体地，根据特征区域对应的时长，更新网格覆盖信息的过程如下：
128.服务器从特征区域中，筛选出与相邻特征区域不存在重合区域的第一特征区域；在第一特征区域对应的时长不满足预设时长阈值的情况下，减少第一特征区域对应的时长，得到更新后的网格覆盖信息；在第一特征区域对应的时长满足预设时长阈值的情况下，增加第一特征区域对应的时长，得到更新后的网格覆盖信息。
129.服务器从特征区域中，筛选出与相邻特征区域存在重合区域的第二特征区域；从第二特征区域与第二特征区域的相邻特征区域中，将对应的音阶强度信息较高的特征区域确认为第三特征区域，以及将对应的音阶强度信息较低的特征区域确认为第四特征区域；增加第三特征区域对应的时长，以及减少第四特征区域对应的时长，得到更新后的网格覆盖信息。
130.步骤s1006，根据更新后的网格覆盖信息，更新音高信息对应的时长。
131.步骤s1007，针对时长更新后的音高信息中的任意两个相邻时长更新后的音高信息，确认两个相邻时长更新后的音高信息之间的音阶差异信息。
132.步骤s1008，在两个相邻时长更新后的音高信息之间的音阶差异信息满足预设音阶差异信息条件的情况下，更新两个相邻时长更新后的音高信息中的第二个时长更新后的音高信息的音阶信息。
133.步骤s1009，根据音阶更新后的音高信息，将待处理音频的格式转换为目标格式，得到待处理音频的目标音频。
134.本实施例中，一方面，服务器过音高信息在音频网格下的网格覆盖信息，能够在音频处理的过程中，充分考虑音高与节奏这两个密切相关的要素对待处理音频的影响；另一
方面，服务器通过对特征区域的识别，按照是否与相邻特征区域存在重合区域、特征区域对应的时长是否满足预设时长阈值，能够对特征区域进行具体分类，并基于分类结果，对不同的特征区域对应的时长进行不同的处理，从而实现根据待处理音频的节拍信息，对待处理音频的音高信息进行针对性地调整。此外，服务器通过对时长更新后的音高信息的音阶更新处理，能够避免生成的目标音频中出现音高八度跳变的情况，进一步提升了音频转换的准确率。基于以上过程的音频处理方法，融合了音高与节奏两种要素，能够生成准确率更高的目标音频。
135.为了更清晰阐明本技术实施例提供的音频处理方法，以下以一个具体的实施例对该音频处理方法进行具体说明。在一示例性实施例中，如图11所示，本技术还提供了一种midi生成准确率提升方法，具体包括以下步骤：
136.步骤1：时频特征提取。
137.服务器按照需求，对待处理音频进行重采样，得到待处理音频的时频特征信息。
138.步骤2：音高检测。
139.服务器将待处理音频的时频特征信息，通过机器学习训练得到的音高信息识别模块，区分时频特征信息中的主旋律与伴奏音，得到待处理音频的半音显著性矩阵。
140.步骤3：节拍检测。
141.服务器通过深度学习训练得到的节拍识别模型，计算出待处理音频的bpm，进而根据bpm计算出待处理音频的节拍时值。
142.步骤4：时长更新。
143.(1)服务器以节拍时值为最小单位，划分待处理音频的时长，得到音频网格，将半音显著性矩阵显示在音频网格中，得到网格化后的半音显著性矩阵。
144.(2)服务器对网格化后的半音显著性矩阵进行更新处理。
145.①
当一个网格中，仅有一个半音显著性矩阵，且该半音显著性矩阵覆盖不足50％时，删除该半音显著性矩阵；
146.②
当一个网格中，仅有一个半音显著性矩阵，且高半音显著性矩阵覆盖超过50％时，将该半音显著性矩阵拉满整个网格；
147.③
当一个网格中，有不同两个半音显著性矩阵，且其中一个覆盖超过50％，另一个覆盖不足50％时，删除覆盖不足50％的半音显著性矩阵，将覆盖超过50％的半音显著性矩阵拉满整个网格；
148.④
当一个网格中，有不同两个半音显著性矩阵，且两个均覆盖超过50％，删除对应的显著性较低的半音显著性矩阵，将对应的显著性较高的半音显著性矩阵拉满整个网格。
149.步骤5：音阶更新。
150.服务器根据先验知识“相邻旋律音高跳变通常不会超过七个半音”，对时长更新后的半音显著性矩阵中，音阶跳跃超出七个半音的半音显著性矩阵进行八度调整(降低十二个半音)。
151.步骤6：生成midi音频。
152.服务器根据音阶更新后的半音显著性矩阵，输出格式为midi的目标音频。
153.本实施例中，服务器通过对音高与节拍的结合，突破了常见的midi生成技术仅仅依赖音高的单一性；此外还基于先验知识，缓解了音高八度跳变的畸变，提升了midi音频的
时值准确性和音高准确性。
154.应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
155.在一示例性实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output，简称i/o)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频处理方法。
156.本领域技术人员可以理解，图12中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
157.在一示例性实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
158.在一示例性实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
159.在一示例性实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
160.需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
161.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，
pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
162.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
163.以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

技术特征：
1.一种音频处理方法，其特征在于，所述方法包括：获取待处理音频的音高信息与节拍信息，按照所述节拍信息对所述待处理音频的时长进行划分，得到所述待处理音频的音频网格；获取所述音高信息在所述音频网格中的网格覆盖信息；根据所述网格覆盖信息，对所述音高信息对应的时长进行更新，得到时长更新后的音高信息；根据所述时长更新后的音高信息，生成所述待处理音频的目标音频。2.根据权利要求1所述的方法，其特征在于，所述根据所述网格覆盖信息，对所述音高信息对应的时长进行更新，包括：识别出所述网格覆盖信息的特征区域；所述特征区域对应的时长小于所述音频网格的单位时长；根据所述特征区域对应的时长，更新所述网格覆盖信息；根据更新后的网格覆盖信息，更新所述音高信息对应的时长。3.根据权利要求2所述的方法，其特征在于，所述根据所述特征区域对应的时长，更新所述网格覆盖信息，包括：从所述特征区域中，筛选出与相邻特征区域不存在重合区域的第一特征区域；在所述第一特征区域对应的时长不满足预设时长阈值的情况下，减少所述第一特征区域对应的时长，得到更新后的网格覆盖信息；在所述第一特征区域对应的时长满足所述预设时长阈值的情况下，增加所述第一特征区域对应的时长，得到更新后的网格覆盖信息。4.根据权利要求2所述的方法，其特征在于，所述根据所述特征区域对应的时长，更新所述网格覆盖信息，还包括：从所述特征区域中，筛选出与相邻特征区域存在重合区域的第二特征区域；从所述第二特征区域与所述第二特征区域的相邻特征区域中，将对应的音阶强度信息较高的特征区域确认为第三特征区域，以及将对应的音阶强度信息较低的特征区域确认为第四特征区域；增加所述第三特征区域对应的时长，以及减少所述第四特征区域对应的时长，得到更新后的网格覆盖信息。5.根据权利要求1所述的方法，其特征在于，所述根据所述时长更新后的音高信息，生成所述待处理音频的目标音频，包括：对所述时长更新后的音高信息进行音阶更新处理；根据音阶更新后的音高信息，将所述待处理音频的格式转换为目标格式，得到所述待处理音频的目标音频。6.根据权利要求5所述的方法，其特征在于，所述对所述时长更新后的音高信息进行音阶更新处理，包括：针对所述时长更新后的音高信息中的任意两个相邻时长更新后的音高信息，确认所述两个相邻时长更新后的音高信息之间的音阶差异信息；在所述两个相邻时长更新后的音高信息之间的音阶差异信息满足预设音阶差异信息条件的情况下，更新所述两个相邻时长更新后的音高信息中的第二个时长更新后的音高信
息的音阶信息。7.根据权利要求1至6任意一项所述的方法，其特征在于，所述获取待处理音频的音高信息与节拍信息，包括：获取所述待处理音频的时频特征信息；对所述时频特征信息进行音高识别处理，得到所述待处理音频的音高信息，以及对所述时频特征信息进行节拍识别处理，得到所述待处理音频的节拍信息。8.根据权利要求7所述的方法，其特征在于，所述对所述时频特征信息进行音高识别处理，得到所述待处理音频的音高信息，包括：从所述时频特征信息中，识别出所述待处理音频的旋律信息；根据所述旋律信息，确认所述待处理音频的音阶显著性信息与音阶时序信息；对所述音阶显著性信息与所述音阶时序信息进行融合处理，得到所述待处理音频的音高信息。9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

技术总结
本申请涉及一种音频处理方法、计算机设备和存储介质。所述方法包括：获取待处理音频的音高信息与节拍信息，按照节拍信息对待处理音频的时长进行划分，得到待处理音频的音频网格；获取音高信息在音频网格中的网格覆盖信息；根据网格覆盖信息，对音高信息对应的时长进行更新，得到时长更新后的音高信息；根据时长更新后的音高信息，生成待处理音频的目标音频。采用本方法，能够提升音频转换的准确率。能够提升音频转换的准确率。能够提升音频转换的准确率。

技术研发人员：江益靓姜涛赵伟峰孔令城胡鹏赵准宋泽文
受保护的技术使用者：腾讯音乐娱乐科技（深圳）有限公司
技术研发日：2023.05.23
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种基于碟刹制动的紧凑型电动车辆驱动装置的制作方法 下一篇：一种用于茶叶嫩叶采摘的多级采茶装置及方法与流程

音频处理方法、计算机设备和存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

音频处理方法、计算机设备和存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表