音乐处理方法、视频生成方法、装置、计算机设备和介质与流程

未命名 09-23 阅读：102 评论：0

1.本技术涉及视频处理技术领域，特别是涉及一种音乐处理方法、视频生成方法、装置、计算机设备和介质。

背景技术：

2.随着音乐处理技术的发展，可以通过计算机设备去获取音乐的高潮片段。
3.相关技术中，一般是通过用户手动调整音乐进度条的方式，对音乐的高潮片段进行截取。然而，此方式存在一定的操作难度，且需要花费一定的时间成本。
4.相关技术中，还可以通过神经网络模型结合音乐的歌词，对音乐的高潮片段进行自动截取。然而，当音乐无歌词时，会极大程度地降低截取的音乐的高潮片段的精度。

技术实现要素：

5.基于此，有必要针对上述技术问题，提供一种能够提高截取的音乐的高潮片段的精度及通用性的音乐处理方法、视频生成方法、装置、计算机设备和介质。
6.第一方面，本技术提供了一种音乐处理方法。所述方法包括：
7.获取各音频帧的音频特征值；
8.根据各所述音频帧的音频特征值获取目标音频片段。
9.在其中一个实施例中，所述根据各所述音频帧的音频特征值获取目标音频片段，包括：
10.根据第一音频特征值，获取候选音频帧；
11.根据所述候选音频帧的第二音频特征值，确定多个音频区间；
12.根据多个所述音频区间的第三音频特征值，确定所述目标音频片段；其中，所述第三音频特征值为基于所述第一音频特征值获得的。
13.在其中一个实施例中，所述根据所述候选音频帧的第二音频特征值，确定多个音频区间，包括：
14.将时间间隔小于预设时间间隔阈值的相邻音频帧划入同一音频区间，以生成多个所述音频区间。
15.在其中一个实施例中，所述预设时间间隔阈值与所述目标音频片段的目标时长成正比例关系。
16.在其中一个实施例中，所述根据多个所述音频区间的第三音频特征值，确定所述目标音频片段，包括：
17.根据多个所述音频区间的第三音频特征值，从多个所述音频区间中确定目标音频区间；
18.获取所述目标音频区间的参考音频帧；
19.根据所述目标音频片段的目标时长，获取所述参考音频帧前后预设时长的音频帧作为第二目标音频帧，基于所述第二目标音频帧形成所述目标音频片段。
20.第二方面，本技术提供了一种视频生成方法。所述方法包括：
21.获取目标音频片段及多个待处理视频；其中，目标音频片段为如第一方面所述的目标音频片段；
22.根据所述目标音频片段、所述目标音频片段的音频参数以及所述待处理视频，生成目标视频。
23.在其中一个实施例中，所述方法还包括：获取音符起始点；所述根据所述目标音频片段、所述目标音频片段的音频参数以及所述待处理视频，生成目标视频，包括：
24.根据所述待处理视频的数量，确定所述目标音频片段中的视频剪辑点的目标数量；
25.根据所述目标音频片段的音频参数以及视频剪辑点的目标数量，从所述音频参数中确定所述目标音频片段中的视频剪辑点；其中，所述目标音频片段的音频参数包括强拍、预设节拍及所述音符起始点的数量；所述预设节拍为除了所述强拍之外的其他节拍；
26.根据所述目标音频片段、所述视频剪辑点以及所述待处理视频，生成所述目标视频。
27.在其中一个实施例中，所述根据所述目标音频片段的音频参数以及视频剪辑点的目标数量，从所述音频参数中确定所述目标音频片段中的视频剪辑点，包括：
28.若所述目标数量小于或者等于所述强拍的数量，则从所述强拍中选取所述目标数量个目标强拍作为所述视频剪辑点；
29.若所述目标数量大于所述强拍的数量，且所述目标数量小于或者等于预设数量总和，则从所述音符起始点中选取所述目标音符起始点，并将所述多个强拍及所述目标音符起始点作为所述视频剪辑点；所述预设数量总和为所述强拍的数量与所述音符起始点的数量之和；所述目标音符起始点的数量等于所述目标数量减去所述强拍的数量；
30.若所述目标数量大于所述预设数量总和，则从所述预设节拍中选取所述目标预设节拍，并将所述多个强拍、所述多个目标音符起始点及所述目标预设节拍作为所述视频剪辑点；所述目标预设节拍的数量等于所述目标数量减去所述预设数量总和。
31.在其中一个实施例中，所述方法还包括：
32.选取的所述目标音符起始点和所述强拍的时间间隔大于或者等于第一预设时间间隔；
33.或，选取的所述目标预设节拍和所述音符起始点的时间间隔大于或者等于第二预设时间间隔；且，选取的所述目标预设节拍和所述强拍的时间间隔大于或者等于第三预设时间间隔。
34.在其中一个实施例中，所述目标音频片段的音频参数包括强拍和预设节拍；所述方法还包括：
35.基于第一音频特征，将目标音频帧划分为第一强拍和待定节拍；
36.基于第二音频特征，将所述待定节拍划分为第二强拍和所述预设节拍；其中，第二音频特征是所述待定节拍和所述第一强拍的特征关系，所述第一强拍和所述第二强拍均为所述目标音频片段的强拍。
37.在其中一个实施例中，所述第一音频特征包括所述目标音频片段中各音频帧的音频振幅。
38.在其中一个实施例中，所述第二音频特征包括所述待定节拍与各所述第一强拍的时间间隔；
39.所述第二强拍与所述第一强拍的时间间隔小于或者等于预设时间间隔。
40.在其中一个实施例中，所述根据所述目标音频片段、所述视频剪辑点以及所述待处理视频，生成所述目标视频，包括：
41.根据所述视频剪辑点，将所述目标音频片段划分为多个音频数据片段；
42.针对所述多个音频数据片段，基于所述音频数据片段的时长，对所述音频数据片段对应的待处理视频进行数据处理，生成中间视频数据；
43.将各所述中间视频数据插入各所述中间视频数据对应的所述音频数据片段中，生成所述目标视频。
44.第三方面，本技术还提供了一种音乐处理装置。所述装置包括：
45.音频特征值获取模块，用于获取各音频帧的音频特征值；
46.目标音频片段获取模块，用于根据各所述音频帧的音频特征值获取目标音频片段。
47.第四方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面和第二方面中任一项实施例中的方法的步骤。
48.第五方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面和第二方面中任一项实施例中的方法的步骤。
49.第六方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面和第二方面中任一项实施例中的方法的步骤。
50.上述音乐处理方法、视频生成方法、装置、计算机设备和介质，能够获取各音频帧的音频特征值，并根据各音频帧的音频特征值，获取目标音频片段。本技术实施例能够基于各音频帧的音频特征值，对音乐的高潮片段进行自动截取，即本技术无需用户手动截取音乐的高潮部分，也能够在音乐无歌词时，实现音乐高潮部分的自动选择。
附图说明
51.图1为一个实施例中音乐处理方法的应用环境图；
52.图2为一个实施例中音乐处理方法的流程示意图；
53.图3为一个实施例中目标音频片段的结果示意图；
54.图4为一个实施例中音频特征值获取步骤的流程示意图；
55.图5为一个实施例中目标音频片段确定步骤的流程示意图；
56.图6为一个实施例中目标音频片段生成步骤的流程示意图；
57.图7为一个实施例中视频生成方法的流程示意图；
58.图8为一个实施例中音频参数获取步骤的流程示意图；
59.图9为一个实施例中强拍、预设节拍及音符起始点的结果示意图；
60.图10为一个实施例中目标视频生成步骤的流程示意图；
61.图11为一个实施例中卡点视频生成步骤的流程示意图；
62.图12为一个可选的实施例中视频生成方法的流程示意图；
63.图13为一个实施例中视频生成方法的整体流程示意图；
64.图14为一个实施例中音乐处理装置的结构框图；
65.图15为一个实施例中计算机设备的内部结构图。
具体实施方式
66.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
67.随着音乐处理技术的发展，可以通过计算机设备去获取音乐的高潮片段。
68.相关技术中，一般是通过用户手动调整音乐进度条的方式，对音乐的高潮片段进行截取。然而，此方式存在一定的操作难度，且需要花费一定的时间成本。
69.相关技术中，还可以通过神经网络模型结合音乐的歌词，对音乐的高潮片段进行自动截取。然而，当音乐无歌词时，会极大程度地降低截取的音乐的高潮片段的精度。
70.随着视频处理技术的发展，视频处理软件可以广泛应用于各种场景中。人们可以通过视频处理软件制作视频。例如，人们经常使用视频处理软件制作卡点视频。卡点视频一般指的是将用户拍摄的视频与音乐的节奏进行搭配，使得视频的节奏卡上音乐的节奏所生成的视频。
71.相关技术在制作卡点视频时，可以根据输入视频及剪辑模板生成卡点视频。但是，由于剪辑模板的模板格式较为固定，一般的，剪辑模板的音乐只能选用整首音乐的音频数据，而无法仅使用整首音频数据中的高潮部分去制作卡点视频。且在制作卡点视频时要求输入视频与剪辑模板相匹配(即要求输入视频的数量与剪辑模板中剪辑点的数量相匹配)，才能够生成卡点视频。因此，目前的传统视频生成方法，存在适用性及通用性较差的问题。
72.本技术实施例提供的音乐处理方法和视频生成方法，均可以应用于如图1所示的应用环境中。其中，计算机设备102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。数据存储系统可以存储计算机设备102需要处理的数据。数据存储系统可以集成在计算机设备102上，也可以放在云上或其他网络服务器上。计算机设备102获取各音频帧的音频特征值；计算机设备102根据各音频帧的音频特征值获取目标音频片段。
73.在一个实施例中，如图2所示，提供了一种音乐处理方法，以该方法应用于图1中的计算机设备102为例进行说明，包括以下步骤：
74.s220，获取各音频帧的音频特征值。
75.可选地，计算机设备102可以直接从公开网站中获取一段音乐或者音频素材；或者，计算机设备102也可以接收用户输入的一段音乐或者音频素材。从而，计算机设备102可以从上述音乐或者音频素材中获取各音频帧的音频特征值。其中，各音频帧的音频特征值可以包括但不局限于各音频帧的幅值、各音频帧的频率、及各音频帧的统计特征等。示例性的，各音频帧的统计特征可以包括但不局限于各音频帧的均方根、各音频帧的方差等特征值。
76.s240，根据各音频帧的音频特征值获取目标音频片段。
77.可选地，计算机设备102可以根据各音频帧的音频特征值获取目标音频片段。示例性的，若各音频帧的音频特征值包括各音频帧的均方根能量，则计算机设备102可以根据各音频帧的均方根能量，从音频素材中确定目标音频帧，并将目标音频帧的音频数据作为目标音频片段。在本实施例中，目标音频片段是指音频素材中的高潮部分。如图3所示，图3为一个实施例中目标音频片段的结果示意图。其中，各点表示各音频帧的均方根能量，两条竖线内的范围表示目标音频片段的选取结果。
78.上述音乐处理方法中，能够获取各音频帧的音频特征值，并根据各音频帧的音频特征值，获取目标音频片段。本技术实施例能够基于各音频帧的音频特征值，对音乐的高潮片段进行自动截取，即本技术无需用户手动截取音乐的高潮部分，也能够在音乐无歌词时，实现音乐高潮部分的自动选择。因此，本技术能够提高截取的音乐的高潮片段的精度及通用性，从而能够使用音乐的高潮部分进行卡点视频的生成，进而，能够使提高卡点视频生成过程的灵活性和通用性。
79.在上面的实施例中，涉及到了获取各音频帧的音频特征值，下面就对其具体方法进行介绍。在一个实施例中，如图4所示，若各音频帧的音频特征值为各音频帧的均方根能量，则s220包括：
80.s420，根据预设采样频率对音频素材进行采样，获取各采样点的振幅。
81.可选地，计算机设备102可以直接从公开网站中获取音频素材；或者，计算机设备102也可以接收用户输入的音频素材。从而，计算机设备102可以根据预设采样频率对音频素材进行采样，获取音频素材中各采样点的振幅(amplitude)。其中，音频素材可以是整首音乐的音频数据，或者，音频素材也可以是包括高潮部分的一段音乐的音频数据。预设采样频率可以是预先设置的、固定的采样频率(例如，可以取22050hz)，或者，预设采样频率也可以是音频素材的采样频率。
82.s440，根据各采样点的振幅、预设帧长度及预设跳跃长度，计算音频素材中各音频帧的均方根能量；音频帧包括多个采样点。
83.可选地，计算机设备102可以预先获取预设帧长度及预设跳跃长度。从而，计算机设备102可以根据各采样点的振幅、预设帧长度及预设跳跃长度，计算音频素材中各音频帧的均方根能量。其中，帧长度是指音频帧的长度。跳跃长度是指相邻的两个音频帧之间的采样点数的间隔长度，音频帧包括多个采样点。均方根能量用于表征各音频帧的响度信息。示例性的，假设预设帧长度(frame length)为2048，预设跳跃长度(hop length)为512。那么，计算机设备102可以根据各采样点的振幅、预设帧长度及预设跳跃长度，采用公式(1)计算音频素材中各音频帧的均方根能量(root-mean-square energy，rms)。音频素材中各音频帧的均方根能量的计算公式如公式(1)所示：
[0084][0085]
其中，rms
t
表示第t帧的均方根能量，k表示预设帧长度，l表示预设跳跃长度，xk为第t帧内第k(k∈[0,k-1])个采样点的振幅。
[0086]
本实施例中，根据预设采样频率对音频素材进行采样，能够较准确地获取各采样点的振幅。从而，根据各采样点的振幅、预设帧长度及预设跳跃长度，能够较准确地计算音频素材中各音频帧的均方根能量，即能够较准确地获取各音频帧的音频特征值。
[0087]
在上面的实施例中，涉及到了根据各音频帧的音频特征值获取目标音频片段，下面就对其具体方法进行介绍。在一个实施例中，如图5所示，s240包括：
[0088]
s520，根据第一音频特征值，获取候选音频帧。
[0089]
本实施例中，可以将第一音频特征满足要求的音频帧作为候选音频帧，第一音频特征可以是音频的统计特征，例如音频帧的均方能量、各音频帧的方差等特征值。以第一音频特征值是各音频帧的均方根能量为例，候选音频帧可以是各音频帧中均方根能量大于预设均方根能量阈值的音频帧。可选地，计算机设备102可以基于各音频帧的均方根能量确定预设均方根能量阈值。示例性的，首先，计算机设备102可以对音频素材中各音频帧的均方根能量进行排序，得到排序结果，并根据排序结果确定出最大的均方根能量。之后，计算机设备102可以将最大的均方根能量的90％确定为预设均方根能量阈值rms
quantile90
。从而，计算机设备102可以从各音频帧中选取均方根能量大于预设均方根能量阈值的音频帧作为候选音频帧。其中，候选音频帧是指均方根能量大于预设均方根能量阈值的音频帧。
[0090]
s540，根据候选音频帧的第二音频特征值，确定多个音频区间。
[0091]
本实施例中，第二音频特征可以是相邻音频帧之间的关系，例如时间间隔、相似度等，以候选音频帧的第二音频特征值可以是预设时间间隔阈值及候选音频帧中相邻音频帧之间的时间间隔之间的大小关系为例。在其中一个实施例中，根据候选音频帧的第二音频特征值，确定多个音频区间，包括：将时间间隔小于预设时间间隔阈值的相邻音频帧划入同一音频区间，以生成多个音频区间。
[0092]
可选地，计算机设备102可以预先设置预设时间间隔阈值。其中，预设时间间隔阈值t
rms
是指相邻帧之间时间间隔的阈值。在其中一个实施例中，预设时间间隔阈值与目标音频片段的目标时长成正比例关系。示例性的，预设时间间隔阈值可以取5～10秒；或者，若已知音频素材中高潮部分的时长为duration，则预设时间间隔阈值可以取duration/2。当然，本技术实施例对于预设时间间隔阈值不做限定。之后，计算机设备102可以根据预设时间间隔阈值及候选音频帧中相邻音频帧之间的时间间隔之间的大小关系，将时间间隔小于预设时间间隔阈值的相邻音频帧划入同一音频区间，以对候选音频帧进行划分，生成多个音频区间。
[0093]
示例性的，若候选音频帧中相邻音频帧之间的时间间隔小于或者等于预设时间间隔阈值t
rms
，则计算机设备102可以将该相邻的两个候选音频帧连接为一个音频区间；若候选音频帧中相邻音频帧之间的时间间隔大于预设时间间隔阈值t
rms
，则计算机设备102可以将该相邻的两个候选音频帧确定为两个音频区间。基于此，计算机设备102可以将多个候选音频帧划分为多个音频区间[r1,r2,...,r
l
]。其中，在各音频区间内，各相邻两个音频帧的间隔均小于或者等于预设时间间隔阈值t
rms
。
[0094]
s560，根据多个音频区间的第三音频特征值，确定目标音频片段；其中，第三音频特征值为基于第一音频特征值获得的。
[0095]
本实施例中，第三音频特征可以是音频区间内各候选音频帧的第一音频特征的综合特征，例如音频区间内各候选音频帧的均方根能量的方差、均方差、均方根等，以音频区间的第三音频特征值可以是音频区间内各候选音频帧的均方根能量的方差为例。第三音频特征值为基于第一音频特征值获得的。可选地，针对各音频区间，计算机设备102可以根据各候选音频帧的均方根能量，采用公式(2)计算音频区间内各候选音频帧的均方根能量的
方差。音频区间内各候选音频帧的均方根能量的方差的计算公式如公式(2)所示：
[0096][0097]
其中，s为音频区间内各候选音频帧的均方根能量的方差，n为音频区间内候选音频帧的数量，rmsi为音频区间内第i帧的均方根能量，rms
mean
为音频区间内各候选音频帧的均方根能量的均值。
[0098]
在其中一个可选的实施例中，如图6所示，s560包括：
[0099]
s620，根据多个音频区间的第三音频特征值，从多个音频区间中确定目标音频区间。
[0100]
可选地，计算机设备102可以设置预设方差阈值。从而，针对各音频区间，计算机设备102可以根据音频区间内各候选音频帧的均方根能量的方差与预设方差阈值之间的大小关系，从音频区间中选取各候选音频帧的均方根能量的方差大于预设方差阈值的音频区间，并将该音频区间中作为目标音频区间。其中，一般的，均方根能量的方差大于预设方差阈值的音频区间为均方根能量的方差最大的音频区间。
[0101]
s640，获取目标音频区间的参考音频帧。
[0102]
s660，根据目标音频片段的目标时长，获取参考音频帧前后预设时长的音频帧作为第二目标音频帧，基于第二目标音频帧形成目标音频片段。
[0103]
可选地，若预先设置了音频素材中高潮部分的时长(即目标音频片段的目标时长)，则计算机设备102可以获取均方根能量的方差最大的音频区间的中间音频帧，并将该中间音频帧确定为目标音频区间的参考音频帧，将该中间音频帧对应的时刻作为目标音频片段的中点。之后，计算机设备102可以根据目标音频片段的目标时长，获取参考音频帧前后预设时长的音频帧作为第二目标音频帧，基于第二目标音频帧形成目标音频片段。即可以理解为，计算机设备102可以以目标音频片段的中点向两侧同时扩展预设时长，直至扩展后的时长等于目标音频片段的目标时长，则可以将扩展后的时长中的各音频帧作为目标音频帧。
[0104]
本实施例中，根据第一音频特征值，获取候选音频帧，能够较准确地确定出各音频帧中均方根能量大于预设均方根能量阈值的音频帧。之后，根据候选音频帧的第二音频特征值，能够较准确地对候选音频帧进行划分，从而能够较准确地确定多个音频区间。进而，根据多个音频区间的第三音频特征值，能够较准确地从多个音频区间中选取各候选音频帧的均方根能量的方差大于预设方差阈值的音频区间，从而能够较准确地确定出目标音频片段，即能够实现对音乐的高潮片段进行自动截取，还可以满足高潮片段长度需求。
[0105]
在一个实施例中，如图7所示，提供了一种视频生成方法，以该方法应用于图1中的计算机设备102为例进行说明，包括以下步骤：
[0106]
s720，获取目标音频片段及多个待处理视频；
[0107]
本实施例中，目标音频片段可以为如上述任一个实施例中的目标音频片段，在其他实施例中，目标音频片段也可以通过其他方式获得，例如基于歌词和深度信息模型的高潮片段截取方法。其中，卡点视频一般指的是将用户拍摄的视频与音乐的节奏进行搭配，使得视频的节奏卡上音乐的节奏所生成的视频。需要说明的是，目标音频片段是指用于制作卡点视频的音频数据。目标音频片段可以是音频素材中的高潮部分；或者，目标音频片段也
可以是通过公开网站或者预设数据库等其他方式获取的音频片段。即目标音频片段可以是整首音乐的音频数据，也可以是整首音乐的音频数据中的高潮部分。当然，本技术实施例可以根据卡点视频的制作需求去确定目标音频片段。待处理视频是指用户输入的、用于制作卡点视频的视频数据。
[0108]
可选地，计算机设备102可以直接从公开网站中获取目标音频片段；或者，计算机设备102也可以先从公开网站中获取整首音乐的音频数据，再从整首音乐的音频数据中确定目标音频片段。计算机设备102可以直接从公开网站中获取多个待处理视频；或者，计算机设备102也可以接收用户输入的多个待处理视频。当然，本技术实施例对于目标音频片段及多个待处理视频的获取方式不做限定。
[0109]
s740，根据目标音频片段、目标音频片段的音频参数以及待处理视频，生成目标视频。
[0110]
其中，卡点视频的音频参数是指制作卡点视频的过程中需要使用的参数，卡点视频的音频参数可以包括但不局限于剪辑点对应的时间参数、各段待输入视频的时长参数等。当然，本技术实施例对于卡点视频的音频参数不做限定。目标视频可以是卡点视频。
[0111]
可选地，计算机设备102可以根据目标音频片段及目标视频的音频参数，生成多段待插入视频数据的目标音频片段；从而，计算机设备102可以直接将多个待处理视频插入多段待插入视频数据的目标音频片段中，生成目标视频。或者，计算机设备102也可以根据目标音频片段及目标视频的音频参数，生成多段待插入视频数据的目标音频片段，且计算机设备102可以根据多个待处理视频及卡点视频的音频参数对多个待处理视频进行数据处理，生成数据处理后的多个待处理视频；从而，计算机设备102可以根据多段待插入视频数据的目标音频片段及数据处理后的多个待处理视频进行视频制作，生成目标视频。当然，本技术实施例对于制作目标视频的过程不做限定。
[0112]
上述视频生成方法中，可以获取目标音频片段及多个待处理视频，并确定目标音频片段的音频参数。从而，能够直接根据目标音频片段、目标音频片段的音频参数以及待处理视频进行视频制作，生成目标视频或卡点视频。因此，本技术在生成目标视频的过程中，不需要使用格式固定的剪辑模板，从而也不需要使用与剪辑模板相匹配的输入视频，而是能够根据多个待处理视频去灵活地选取卡点视频的音频参数，进而，基于多个待处理视频、目标音频片段及灵活选取的卡点视频的音频参数进行视频制作，能够灵活地生成卡点视频。
[0113]
在上面的实施例中，涉及到了根据目标音频片段、目标音频片段的音频参数以及待处理视频，生成目标视频，下面就对获取目标音频片段的音频参数的具体方法进行介绍。在一个实施例中，如图8所示，目标音频片段的音频参数包括强拍和预设节拍，上述视频生成方法还包括：
[0114]
s820，基于第一音频特征，将目标音频帧划分为第一强拍和待定节拍。
[0115]
其中，目标音频片段的音频参数包括强拍和预设节拍。节拍(beat)是指乐曲或音频中每一小节的音符总长度。节拍包括强拍和预设节拍。强拍(downbeat)是指每一小节的第一个节拍。预设节拍(upbeat)是指每一小节中除了强拍之外的其他节拍(即预设节拍可以包括弱拍和次强拍)。在其中一个实施例中，第一音频特征包括目标音频片段中各音频帧的音频振幅。
[0116]
可选地，计算机设备102可以基于卷积神经网络和残差网络的网络结构，预先生成预设节拍检测模型。此外，计算机设备102还可以根据目标音频片段(即音乐的高潮部分或者通过其他方式获取的音频片段)，确定目标音频片段的音频振幅(即第一音频特征)。从而，计算机设备102可以将第一音频特征输入至预设节拍检测模型中进行音频节拍检测，从而将目标音频帧划分为第一强拍和待定节拍，就可以得到目标音频片段中的各待定节拍以及各节拍中的各第一强拍。如图9所示，图9为一个实施例中强拍、预设节拍及音符起始点的结果示意图。其中，图9中的强拍为半径较大的点所在的时间点。预设节拍检测模型的网络结构还可以包括但不局限于循环神经网络的网络结构、transformer模型的网络结构等，当然，本技术实施例对于预设节拍检测模型的网络结构不做限定。预设节拍检测模型是训练好的、用于进行音频节拍检测的深度学习模型。
[0117]
s840，基于第二音频特征，将待定节拍划分为第二强拍和预设节拍；其中，第二音频特征是待定节拍和第一强拍的特征关系，第一强拍和第二强拍均为目标音频片段的强拍。
[0118]
其中，第二音频特征是待定节拍和第一强拍的特征关系。在其中一个实施例中，第二音频特征包括目标音频片段的待定节拍与各第一强拍的时间间隔，且第二强拍与第一强拍的时间间隔小于或者等于预设时间间隔。第一强拍和第二强拍均为目标音频片段的强拍，有利于更好的将强拍筛选出来。可选地，计算机设备102可以根据目标音频片段的待定节拍及第一强拍之间的时间间隔，将待定节拍划分为第二强拍和预设节拍，从而确定出待定节拍中的预设节拍。结合图9所示，图9中的预设节拍为半径较小的点所在的时间点。示例性的，可以预先设置预设时间间隔t
beat
，之后，针对计算目标音频片段的各节拍，计算机设备102可以计算目标音频片段的节拍与目标音频片段的各第一强拍之间的时间间隔。若目标音频片段的节拍与目标音频片段的各第一强拍之间的时间间隔均大于预设时间间隔，则将该节拍确定为节拍中的预设节拍。若目标音频片段的节拍与目标音频片段的各第一强拍之间的时间间隔均小于或者等于预设时间间隔，则将该节拍确定为节拍中的第二强拍。
[0119]
在另一个实施例中，上述视频生成方法还包括：获取音符起始点。
[0120]
其中，音符起始点表示音符开始的时刻。可选地，计算机设备102可以对目标音频片段的振幅数据进行频域转换及频域计算，确定目标音频片段中的音符起始点(onset peak)。结合图9所示，图9中的音符强度包络线为包含多个峰值的曲线，图9中的音符起始点为音符强度包络线中各峰值所在的时间点。示例性的，首先，计算机设备102可以对目标音频片段的振幅数据进行傅里叶变换(fast fourier transform，fft)，生成傅里叶变换后的目标音频片段的振幅数据，并根据傅里叶变换后的目标音频片段的振幅数据计算对数梅尔频谱。其次，计算机设备102可以计算对数梅尔频谱的一阶时间差分，并针对各帧对数梅尔频谱，计算对数梅尔频谱的一阶时间差分的均值。再次，对各帧对数梅尔频谱的一阶时间差分的均值进行归一化及平滑处理，得到目标音频片段对应的音符强度包络线(onset)。之后，将目标音频片段对应的音符强度包络线中的各峰值确定为目标音频片段中的音符起始点。
[0121]
本实施例中，基于第一音频特征，将目标音频帧划分为第一强拍和待定节拍；基于第二音频特征，将待定节拍划分为第二强拍和预设节拍。能够根据目标音频片段的音频振幅及预设节拍检测模型，较准确地确定出目标音频片段中的强拍及预设节拍。此外，还可以
对目标音频片段的振幅数据进行频域转换及频域计算，能够较准确地确定目标音频片段中的音符起始点。因此，本技术能够较准确地获取目标音频片段的音频参数。
[0122]
在上面的实施例中，涉及到了根据目标音频片段、目标音频片段的音频参数以及待处理视频，生成目标视频，下面就对其具体方法进行介绍。在一个实施例中，如图10所示，s740包括：
[0123]
s1020，根据待处理视频的数量，确定目标音频片段中的视频剪辑点的目标数量。
[0124]
可选地，计算机设备102可以根据多个待处理视频，预先获取多个待处理视频的数量。从而，计算机设备102可以根据多个待处理视频的数量，确定目标音频片段中的视频剪辑点的目标数量。示例性的，假设多个待处理视频的数量是m+1个，那么，视频剪辑点的目标数量为m个。其中，视频剪辑点的目标数量是指制作卡点视频时所需要的视频剪辑点的数量。
[0125]
s1040，根据目标音频片段的音频参数以及视频剪辑点的目标数量，从音频参数中确定目标音频片段中的视频剪辑点；其中，目标音频片段的音频参数包括强拍、预设节拍及音符起始点的数量；预设节拍为除了强拍之外的其他节拍。
[0126]
其中，目标音频片段的音频参数包括强拍、预设节拍及音符起始点的数量；预设节拍为除了强拍之外的其他节拍。视频剪辑点是两个视频之间的转换点，在制作卡点视频时可以在视频剪辑点的两边分别插入两段不同的视频。
[0127]
可选地，计算机设备102可以根据目标音频片段中的强拍、预设节拍及音符起始点，预先确定强拍的数量、预设节拍的数量及音符起始点的数量。从而，计算机设备102可以根据视频剪辑点的目标数量与强拍、预设节拍及音符起始点的数量之间的大小关系，从目标音频片段的音频参数中确定目标数量个视频剪辑点。
[0128]
在其中一个可选的实施例中，s1040包括：
[0129]
若目标数量小于或者等于强拍的数量，则从强拍中选取目标数量个目标强拍，并将目标强拍作为视频剪辑点。
[0130]
若目标数量大于强拍的数量，且目标数量小于或者等于预设数量总和，则从音符起始点中选取目标音符起始点，并将多个强拍及目标音符起始点作为视频剪辑点；预设数量总和为强拍的数量与音符起始点的数量之和；目标音符起始点的数量等于目标数量减去强拍的数量。
[0131]
若目标数量大于预设数量总和，则从预设节拍中选取目标预设节拍，并将多个强拍、多个目标音符起始点及目标预设节拍作为视频剪辑点；目标预设节拍的数量等于目标数量减去预设数量总和。
[0132]
可选地，假设视频剪辑点的目标数量为m，且强拍的数量为c
downbeats
，预设节拍的数量为c
upbeats
，音符起始点的数量为c
onset beats
。那么，计算机设备102可以确定视频剪辑点的目标数量m与强拍的数量c
downbeats
、预设节拍的数量c
upbeats
及音符起始点的数量c
onset beats
之间的大小关系。若目标数量小于或者等于强拍的数量，即m≤c
downbeats
，则计算机设备102可以从多个强拍中随机选取目标数量个强拍作为m个目标强拍，并将m个目标强拍作为视频剪辑点。
[0133]
若目标数量大于强拍的数量，且目标数量小于或者等于预设数量总和，即c
downbeats
＜m≤c
downbeats
+c
onset beats
，则计算机设备102可以先选择c
downbeats
个强拍，再从多个音符起
始点中随机选取m-c
downbeats
个目标音符起始点，并将c
downbeats
个强拍及m-c
downbeats
个目标音符起始点作为视频剪辑点。其中，预设数量总和为强拍的数量与音符起始点的数量之和，即预设数量总和等于c
downbeats
+c
onset beats
，目标音符起始点的数量等于目标数量减去强拍的数量，即目标音符起始点的数量等于m-c
downbeats
。在其中一个实施例中，选取的目标音符起始点和强拍的时间间隔大于或者等于第一预设时间间隔。第一预设时间间隔可以是根据实际进行设置的，示例性的，若第一预设时间间隔为0.3秒，则各目标音符起始点与各强拍之间的时间距离不能小于0.3秒。
[0134]
若目标数量大于预设数量总和，即c
downbeats
+c
onset beats
＜m，则计算机设备102可以先选择c
downbeats
个强拍和c
onset beats
个音符起始点，再从预设节拍中选取m-(c
downbeats
+c
onset beats
)个目标预设节拍，并将c
downbeats
个强拍、c
onset beats
个目标音符起始点及m-(c
downbeats
+c
onset beats
)个目标预设节拍作为视频剪辑点。其中，目标预设节拍的数量等于目标数量减去预设数量总和，即目标预设节拍的数量等于m-(c
downbeats
+c
onset beats
)。在其中一个实施例中，选取的目标预设节拍和音符起始点的时间间隔大于或者等于第二预设时间间隔；且，选取的目标预设节拍和强拍的时间间隔大于或者等于第三预设时间间隔。第二预设时间间隔和第三预设时间间隔均可以根据实际进行设置，示例性的，若第二预设时间间隔和第三预设时间间隔均为0.3秒，则各目标预设节拍与各强拍之间的时间距离不能小于0.3秒，且各目标预设节拍与各音符起始点之间的时间距离不能小于0.3秒。需要说明的是，第一预设时间间隔、第二预设时间间隔和第三预设时间间隔可以可以相同，也可以不同，本技术实施例对此不做限定。
[0135]
s1060，根据目标音频片段、视频剪辑点以及待处理视频，生成目标视频。
[0136]
可选地，计算机设备102可以根据确定出的目标音频片段中的视频剪辑点，确定视频剪辑点对应的时间参数。此外，计算机设备102还可以获取目标音频片段的时长参数。从而，计算机设备102可以根据视频剪辑点对应的时间参数及目标音频片段的时长参数，确定出各段待输入视频的时长参数。之后，基于视频剪辑点对应的时间参数及各段待输入视频的时长参数，结合目标音频片段以及待处理视频进行视频制作，生成目标视频。其中，视频剪辑点的时间参数是指视频剪辑点在目标音频片段中所处的时刻。目标音频片段的时长参数是指目标音频片段所占的时长。各段待输入视频的时长参数是指各段待输入视频所占的时长。
[0137]
在其中一个可选的实施例中，如图11所示，s1060包括：
[0138]
s1120，根据视频剪辑点，将目标音频片段划分为多个音频数据片段。
[0139]
可选地，根据目标音频片段及目标视频的视频剪辑点，计算机设备102可以将目标音频片段划分为多个音频数据片段。示例性的，假设目标音频片段的时长为30秒，卡点视频的各视频剪辑点的时间信息分别为10秒、18秒、25秒，则可以将目标音频片段划分为4个音频数据片段，且各音频数据片段在目标音频片段中所处的时间分别为0-10秒、10秒-18秒、18秒-25秒、25秒-30秒。
[0140]
s1140，针对多个音频数据片段，基于音频数据片段的时长，对音频数据片段对应的待处理视频进行数据处理，生成中间视频数据。
[0141]
可选地，针对多个音频数据片段，计算机设备102可以基于音频数据片段的时长，对音频数据片段对应的待处理视频进行数据处理，生成中间视频数据。其中，数据处理的过
程可以包括但不局限于视频裁剪、视频变速播放等过程。中间视频数据是指数据处理后的待处理视频。示例性的，假设各音频数据片段的时长分别为10秒、8秒、7秒、5秒，且各待处理视频的时长分别为10秒、9秒、6秒、5秒。那么，计算机设备102可以对8秒的音频数据片段对应的9秒待处理视频进行数据处理，生成8秒的音频数据片段对应的中间视频数据。计算机设备102还可以对7秒的音频数据片段对应的6秒待处理视频进行数据处理，生成7秒的音频数据片段对应的中间视频数据。从而，基于8秒的音频数据片段对应的中间视频数据、7秒的音频数据片段对应的中间视频数据及10秒的音频数据片段对应的待处理视频、5秒的音频数据片段对应的待处理视频，生成中间视频数据。
[0142]
s1160，将各中间视频数据插入各中间视频数据对应的音频数据片段中，生成目标视频。
[0143]
可选地，计算机设备102可以将目标音频片段作为卡点视频的音乐范围，将视频剪辑点的时间参数作为视频切换的时间节点，并将各中间视频数据插入各中间视频数据对应的音频数据片段中，自动地生成卡点视频。
[0144]
本实施例中，根据多个待处理视频的数量，确定目标音频片段中的视频剪辑点的目标数量。在制作卡点视频时，能够根据多个待处理视频的数量与视频剪辑点之间的关系，自适应地计算所需要的剪辑点的目标数量。从而，根据视频剪辑点的目标数量与强拍、预设节拍及音符起始点的数量之间的大小关系，能够从强拍、预设节拍及音符起始点中自适应地灵活地、确定目标数量个视频剪辑点。从而，能够直接基于多个待处理视频、目标音频片段及卡点视频的视频剪辑点进行视频制作，生成卡点视频。因此，本技术在生成卡点视频的过程中，不需要使用格式固定的剪辑模板，从而也不需要使用与剪辑模板相匹配的输入视频，而是能够根据多个待处理视频去灵活地选取卡点视频的音频参数及视频剪辑点，进而，基于多个待处理视频、目标音频片段及灵活选取的视频剪辑点进行视频制作，能够灵活地生成卡点视频，且能够提高生成卡点视频的成功率。
[0145]
此外，根据视频剪辑点，将目标音频片段划分为多个音频数据片段，能够根据多个待处理视频的数量与时长，自动地对音乐的高潮片段进行划分，从而自动地生成音乐踩点模板。针对多个音频数据片段，基于音频数据片段的时长，能够对音频数据片段对应的待处理视频进行数据处理，生成中间视频数据；将各中间视频数据插入各中间视频数据对应的音频数据片段中，即能够在自动生成的音乐踩点模板中自动地填入各中间视频数据，就能够自动地且灵活地生成卡点视频。
[0146]
在一个可选的实施例中，如图12所示，提供了一种视频生成方法，应用于计算机设备102，包括：
[0147]
s1202，获取多个待处理视频；
[0148]
s1204，根据预设采样频率对音频素材进行采样，获取各采样点的振幅；
[0149]
s1206，根据各采样点的振幅、预设帧长度及预设跳跃长度，计算音频素材中各音频帧的均方根能量；音频帧包括多个采样点；
[0150]
s1208，从各音频帧中选取均方根能量大于预设均方根能量阈值的音频帧作为候选音频帧；预设均方根能量阈值为基于各音频帧的均方根能量确定的；
[0151]
s1210，根据预设时间间隔阈值及候选音频帧中相邻音频帧之间的时间间隔之间的大小关系，对候选音频帧进行划分，生成多个音频区间；
[0152]
s1212，针对各音频区间，根据音频区间内各候选音频帧的均方根能量的方差与预设方差阈值之间的大小关系，从音频区间中确定目标音频帧，将目标音频帧的音频数据作为目标音频片段；
[0153]
s1214，将目标音频片段的音频振幅输入至预设节拍检测模型中进行音频节拍检测，确定目标音频片段中的待定节拍以及节拍中的第一强拍；
[0154]
s1216，根据目标音频片段的待定节拍及目标音频片段的第一强拍之间的时间间隔，确定节拍中的第二强拍和预设节拍；强拍包括第一强拍和第二强拍；预设节拍为除了强拍之外的其他节拍；
[0155]
s1218，对目标音频片段的振幅数据进行频域转换，确定目标音频片段中的音符起始点；
[0156]
s1220，根据多个待处理视频的数量，确定目标音频片段中的视频剪辑点的目标数量；
[0157]
s1222，若目标数量小于或者等于强拍的数量，则从强拍中选取目标数量个目标强拍，并将目标强拍作为视频剪辑点；
[0158]
s1224，若目标数量大于强拍的数量，且目标数量小于或者等于预设数量总和，则从音符起始点中选取目标音符起始点，并将多个强拍及目标音符起始点作为视频剪辑点；预设数量总和为强拍的数量与音符起始点的数量之和；目标音符起始点的数量等于目标数量减去强拍的数量；
[0159]
s1226，若目标数量大于预设数量总和，则从预设节拍中选取目标预设节拍，并将多个强拍、多个目标音符起始点及目标预设节拍作为视频剪辑点；目标预设节拍的数量等于目标数量减去预设数量总和；
[0160]
s1228，根据视频剪辑点，将目标音频片段划分为多个音频数据片段；
[0161]
s1230，针对多个音频数据片段，基于音频数据片段的时长，对音频数据片段对应的待处理视频进行数据处理，生成中间视频数据；
[0162]
s1232，将各中间视频数据插入各中间视频数据对应的音频数据片段中，生成目标视频。
[0163]
可选地，如图13所示，图13为一个实施例中视频生成方法的整体流程示意图。s1302，计算机设备102可以获取音频素材和多个待处理视频。s1304，计算机设备102可以从音频素材中确定出音频素材中的目标音频片段。s1306，计算机设备102可以根据目标音频片段进行音频节拍检测，从而确定目标音频片段中的强拍及预设节拍。s1308，计算机设备102可以计算机设备102可以根据目标音频片段进行音符起始点计算，从而确定目标音频片段中的音符起始点。s1310，计算机设备102可以根据多个待处理视频的数量与强拍、预设节拍及音符起始点的数量之间的关系，确定目标音频片段中的视频剪辑点。s1312，计算机设备102可以基于多个待处理视频、目标音频片段及卡点视频的音频参数进行视频制作，生成卡点视频。
[0164]
上述视频生成方法中，可以根据预先获取的多个待处理视频及目标音频片段，确定卡点视频的音频参数，即本技术能够根据多个待处理视频去选取卡点视频的音频参数。从而，能够直接基于多个待处理视频、目标音频片段及卡点视频的音频参数进行视频制作，生成卡点视频。因此，本技术在生成卡点视频的过程中，不需要使用格式固定的剪辑模板，
从而也不需要使用与剪辑模板相匹配的输入视频，而是能够根据多个待处理视频去灵活地选取卡点视频的音频参数，进而，基于多个待处理视频、目标音频片段及灵活选取的卡点视频的音频参数进行视频作，能够灵活地生成卡点视频。因此，本技术可以全自动且灵活地生成卡点视频。
[0165]
应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0166]
基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的视频生成方法的视频生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频生成装置实施例中的具体限定可以参见上文中对于视频生成方法的限定，在此不再赘述。
[0167]
在一个实施例中，如图14所示，提供了一种音乐处理装置1400，包括：音频特征值获取模块1420和目标音频片段获取模块1440，其中：
[0168]
音频特征值获取模块1420，用于获取各音频帧的音频特征值。
[0169]
目标音频片段获取模块1440，用于根据各音频帧的音频特征值获取目标音频片段。
[0170]
在一个实施例中，目标音频片段获取模块1440包括：
[0171]
候选音频帧获取单元，用于根据第一音频特征值，获取候选音频帧；
[0172]
音频区间确定单元，用于根据候选音频帧的第二音频特征值，确定多个音频区间；
[0173]
目标音频片段确定单元，用于根据多个音频区间的第三音频特征值，确定目标音频片段；其中，第三音频特征值为基于第一音频特征值获得的。
[0174]
在一个实施例中，音频区间确定单元包括：
[0175]
音频区间确定子单元，用于将时间间隔小于预设时间间隔阈值的相邻音频帧划入同一音频区间，以生成多个音频区间。
[0176]
在一个实施例中，预设时间间隔阈值与目标音频片段的目标时长成正比例关系。
[0177]
在一个实施例中，目标音频片段确定单元包括：
[0178]
目标音频区间确定子单元，用于根据多个音频区间的第三音频特征值，从多个音频区间中确定目标音频区间；
[0179]
参考音频帧获取子单元，用于获取目标音频区间的参考音频帧；
[0180]
目标音频片段确定子单元，用于根据目标音频片段的目标时长，获取参考音频帧前后预设时长的音频帧作为第二目标音频帧，基于第二目标音频帧形成目标音频片段。
[0181]
在一个实施例中，提供了一种视频生成装置，包括：
[0182]
获取模块，用于获取目标音频片段及多个待处理视频；其中，目标音频片段为如音乐处理装置1400的目标音频片段；
[0183]
目标视频生成模块，用于根据目标音频片段、目标音频片段的音频参数以及待处
理视频，生成目标视频。
[0184]
在一个实施例中，视频生成装置还包括：音符起始点获取模块，用于获取音符起始点；目标视频生成模块包括：
[0185]
目标数量确定单元，用于根据待处理视频的数量，确定目标音频片段中的视频剪辑点的目标数量；
[0186]
视频剪辑点确定单元，用于根据目标音频片段的音频参数以及视频剪辑点的目标数量，从音频参数中确定目标音频片段中的视频剪辑点；其中，目标音频片段的音频参数包括强拍、预设节拍及音符起始点的数量；预设节拍为除了强拍之外的其他节拍；
[0187]
目标视频生成单元，用于根据目标音频片段、视频剪辑点以及待处理视频，生成目标视频。
[0188]
在一个实施例中，视频剪辑点确定单元包括：
[0189]
第一视频剪辑点确定子单元，用于在目标数量小于或者等于强拍的数量的情况下，从强拍中选取目标数量个目标强拍作为视频剪辑点；
[0190]
第二视频剪辑点确定子单元，用于在目标数量大于强拍的数量，且目标数量小于或者等于预设数量总和的情况下，从音符起始点中选取目标音符起始点，并将多个强拍及目标音符起始点作为视频剪辑点；预设数量总和为强拍的数量与音符起始点的数量之和；目标音符起始点的数量等于目标数量减去强拍的数量；
[0191]
第三视频剪辑点确定子单元，用于在目标数量大于预设数量总和的情况下，从预设节拍中选取目标预设节拍，并将多个强拍、多个目标音符起始点及目标预设节拍作为视频剪辑点；目标预设节拍的数量等于目标数量减去预设数量总和。
[0192]
在一个实施例中，视频生成装置还包括：
[0193]
选取的目标音符起始点和强拍的时间间隔大于或者等于第一预设时间间隔；
[0194]
或，选取的目标预设节拍和音符起始点的时间间隔大于或者等于第二预设时间间隔；且，选取的目标预设节拍和强拍的时间间隔大于或者等于第三预设时间间隔。
[0195]
在一个实施例中，目标音频片段的音频参数包括强拍和预设节拍；视频生成装置还包括：
[0196]
目标音频帧划分模块，用于基于第一音频特征，将目标音频帧划分为第一强拍和待定节拍；
[0197]
待定节拍划分模块，用于基于第二音频特征，将待定节拍划分为第二强拍和预设节拍；其中，第二音频特征是待定节拍和第一强拍的特征关系，第一强拍和第二强拍均为目标音频片段的强拍。
[0198]
在一个实施例中，第一音频特征包括目标音频片段中各音频帧的音频振幅。
[0199]
在一个实施例中，第二音频特征包括待定节拍与各第一强拍的时间间隔；
[0200]
第二强拍与第一强拍的时间间隔小于或者等于预设时间间隔。
[0201]
在一个实施例中，目标视频生成单元包括：
[0202]
音频数据片段划分子单元，用于根据视频剪辑点，将目标音频片段划分为多个音频数据片段；
[0203]
中间视频数据生成子单元，用于针对多个音频数据片段，基于音频数据片段的时长，对音频数据片段对应的待处理视频进行数据处理，生成中间视频数据；
[0204]
目标视频生成子单元，用于将各中间视频数据插入各中间视频数据对应的音频数据片段中，生成目标视频。
[0205]
上述视频生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0206]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output，简称i/o)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频生成数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频生成方法。
[0207]
本领域技术人员可以理解，图15中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0208]
在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0209]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0210]
在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0211]
需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0212]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据
库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
[0213]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0214]
以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

技术特征：
1.一种音乐处理方法，其特征在于，所述方法包括：获取各音频帧的音频特征值；根据各所述音频帧的音频特征值获取目标音频片段。2.如权利要求1所述的方法，其特征在于，所述根据各所述音频帧的音频特征值获取目标音频片段，包括：根据第一音频特征值，获取候选音频帧；根据所述候选音频帧的第二音频特征值，确定多个音频区间；根据多个所述音频区间的第三音频特征值，确定所述目标音频片段；其中，所述第三音频特征值为基于所述第一音频特征值获得的。3.如权利要求2所述的方法，其特征在于，所述根据所述候选音频帧的第二音频特征值，确定多个音频区间，包括：将时间间隔小于预设时间间隔阈值的相邻音频帧划入同一音频区间，以生成多个所述音频区间。4.如权利要求3所述的方法，其特征在于，所述预设时间间隔阈值与所述目标音频片段的目标时长成正比例关系。5.如权利要求2所述的方法，其特征在于，所述根据多个所述音频区间的第三音频特征值，确定所述目标音频片段，包括：根据多个所述音频区间的第三音频特征值，从多个所述音频区间中确定目标音频区间；获取所述目标音频区间的参考音频帧；根据所述目标音频片段的目标时长，获取所述参考音频帧前后预设时长的音频帧作为第二目标音频帧，基于所述第二目标音频帧形成所述目标音频片段。6.一种视频生成方法，其特征在于，所述方法包括：获取目标音频片段及多个待处理视频；其中，目标音频片段为如权利要求1-5任一项所述的目标音频片段；根据所述目标音频片段、所述目标音频片段的音频参数以及所述待处理视频，生成目标视频。7.如权利要求6所述的方法，其特征在于，所述方法还包括：获取音符起始点；所述根据所述目标音频片段、所述目标音频片段的音频参数以及所述待处理视频，生成目标视频，包括：根据所述待处理视频的数量，确定所述目标音频片段中的视频剪辑点的目标数量；根据所述目标音频片段的音频参数以及视频剪辑点的目标数量，从所述音频参数中确定所述目标音频片段中的视频剪辑点；其中，所述目标音频片段的音频参数包括强拍、预设节拍及所述音符起始点的数量；所述预设节拍为除了所述强拍之外的其他节拍；根据所述目标音频片段、所述视频剪辑点以及所述待处理视频，生成所述目标视频。8.如权利要求7所述的方法，其特征在于，所述根据所述目标音频片段的音频参数以及视频剪辑点的目标数量，从所述音频参数中确定所述目标音频片段中的视频剪辑点，包括：若所述目标数量小于或者等于所述强拍的数量，则从所述强拍中选取所述目标数量个目标强拍作为所述视频剪辑点；
若所述目标数量大于所述强拍的数量，且所述目标数量小于或者等于预设数量总和，则从所述音符起始点中选取所述目标音符起始点，并将所述多个强拍及所述目标音符起始点作为所述视频剪辑点；所述预设数量总和为所述强拍的数量与所述音符起始点的数量之和；所述目标音符起始点的数量等于所述目标数量减去所述强拍的数量；若所述目标数量大于所述预设数量总和，则从所述预设节拍中选取所述目标预设节拍，并将所述多个强拍、所述多个目标音符起始点及所述目标预设节拍作为所述视频剪辑点；所述目标预设节拍的数量等于所述目标数量减去所述预设数量总和。9.如权利要求8所述的方法，其特征在于，所述方法还包括：选取的所述目标音符起始点和所述强拍的时间间隔大于或者等于第一预设时间间隔；或，选取的所述目标预设节拍和所述音符起始点的时间间隔大于或者等于第二预设时间间隔；且，选取的所述目标预设节拍和所述强拍的时间间隔大于或者等于第三预设时间间隔。10.如权利要求6所述的方法，其特征在于，所述目标音频片段的音频参数包括强拍和预设节拍；所述方法还包括：基于第一音频特征，将目标音频帧划分为第一强拍和待定节拍；基于第二音频特征，将所述待定节拍划分为第二强拍和所述预设节拍；其中，第二音频特征是所述待定节拍和所述第一强拍的特征关系，所述第一强拍和所述第二强拍均为所述目标音频片段的强拍。11.如权利要求10所述的方法，其特征在于，所述第一音频特征包括所述目标音频片段中各音频帧的音频振幅。12.如权利要求10所述的方法，其特征在于，所述第二音频特征包括所述待定节拍与各所述第一强拍的时间间隔；所述第二强拍与所述第一强拍的时间间隔小于或者等于预设时间间隔。13.如权利要求6-12中任一项所述的方法，其特征在于，所述根据所述目标音频片段、所述视频剪辑点以及所述待处理视频，生成所述目标视频，包括：根据所述视频剪辑点，将所述目标音频片段划分为多个音频数据片段；针对所述多个音频数据片段，基于所述音频数据片段的时长，对所述音频数据片段对应的待处理视频进行数据处理，生成中间视频数据；将各所述中间视频数据插入各所述中间视频数据对应的所述音频数据片段中，生成所述目标视频。14.一种音乐处理装置，其特征在于，所述装置包括：音频特征值获取模块，用于获取各音频帧的音频特征值；目标音频片段获取模块，用于根据各所述音频帧的音频特征值获取目标音频片段。15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。

技术总结
本申请涉及一种音乐处理方法、视频生成方法、装置、计算机设备和介质。上述方法包括：获取各音频帧的音频特征值；根据各音频帧的音频特征值获取目标音频片段。采用本方法提高截取的音乐的高潮片段的精度及通用性，且能够提高视频生成方法的适用性及通用性。视频生成方法的适用性及通用性。视频生成方法的适用性及通用性。

技术研发人员：符峥
受保护的技术使用者：影石创新科技股份有限公司
技术研发日：2023.06.27
技术公布日：2023/9/22

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种金属管材曲面弯曲度的确定方法及装置与流程 下一篇：一种超声数据读取方法、读取装置、计算机设备及存储介质与流程

音乐处理方法、视频生成方法、装置、计算机设备和介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

音乐处理方法、视频生成方法、装置、计算机设备和介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表