歌曲检测方法、装置、设备及可读存储介质与流程
未命名
09-22
阅读:71
评论:0
1.本技术涉及信息识别技术领域,更具体地说,涉及一种歌曲检测方法、装置、设备及可读存储介质。
背景技术:
2.随着直播领域的扩展,直播受众人群愈加增长,为进一步规范网络环境,避免不良内容的传播,保障直播受众人群的身心健康发展,对主播在直播间中播放的内容进行审核是必不可少的。其中,主播在直播间中演唱歌曲为直播的常见内容,但主播演唱的歌曲可能属于违禁歌曲。因而,对主播演唱的歌曲进行审核属于直播审核的重要内容之一。基于此,亟需提供一种歌曲检测方法,用于对主播演唱的歌曲进行审核。
技术实现要素:
3.有鉴于此,本技术提供了一种歌曲检测方法、装置、设备及可读存储介质,用于对主播演唱的歌曲进行审核。
4.为了实现上述目的,现提出的方案如下:
5.一种歌曲检测方法,包括:
6.获取主播端上传的包含音频流数据的音频文件;
7.判断所述音频文件中是否还包含歌曲信息;
8.若是,则从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识,所述歌曲标识用于确定所述音频文件是否包含违禁歌曲;
9.若否,则将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识。
10.可选的,所述特征提取模型的训练过程,包括:
11.获取初始特征提取模型以及训练集,所述训练集由两种类型的训练音频组成,一种类型的训练音频来源于不同主播在直播间中表演歌曲的音频片段,另一种类型的训练音频来源于不同主播在直播间中播放歌曲的音频片段,每个所述训练音频标注有对应的训练频谱图;
12.依次将每个所述训练音频输入至所述初始特征提取模型中,得到所述初始特征提取模型输出的预测频谱图;
13.根据所述预测频谱图以及输入的训练音频的训练频谱图,对所述初始特征提取模型的参数进行调整,直至所述初始特征提取模型符合预置的条件为止,将最终训练得到的初始特征提取模型作为所述特征提取模型。
14.可选的,获取训练集,包括:
15.从各个主播的直播间中获取直播视频;
16.从各个所述直播视频中截取主播在直播间中表演歌曲的音频片段,以及,主播在
直播间中播放歌曲的音频片段;
17.依次生成每个所述音频片段中乐曲音频对应的训练频谱图,并将生成的训练频谱图作为所述音频片段的标注标签,形成训练音频,各个所述训练音频组成所述训练集。
18.可选的,所述判断所述音频文件中是否还包含歌曲信息,包括:
19.判断所述音频文件中是否包含歌曲标识、原唱标识、专辑标识和/或制作者标识。
20.可选的,从所述频谱图中提取音频指纹,包括:
21.从所述频谱图中选取所有的极大值点,并确定每个所述极大值点对应的时刻以及振幅值;
22.根据各个所述极大值点对应的时刻以及振幅值,形成音频指纹。
23.可选的,所述根据各个所述极大值点对应的时刻以及振幅值,形成音频指纹,包括:
24.生成每个所述振幅值对应的哈希值;
25.按照各个所述振幅值对应的时刻,对各个所述哈希值进行先后排序,形成音频指纹。
26.可选的,所述根据所述音频指纹确定与所述音频文件匹配的歌曲标识,包括:
27.将所述音频指纹与预置曲库中每个歌曲进行匹配,计算每个所述歌曲的指纹信息与所述音频指纹间的相似度;
28.从各个所述相似度中选取最大的相似度作为目标相似度,并将所述目标相似度与预设相似阈值进行比较;
29.在所述目标相似度超过预设相似阈值时,确定所述目标相似度对应的歌曲的名称,并将所述名称作为所述音频文件匹配的歌曲标识。
30.一种歌曲检测装置,包括:
31.获取模块,用于获取主播端上传的包含音频流数据的音频文件;
32.判断模块,用于判断所述音频文件中是否还包含歌曲信息;
33.提取模块,用于若判断模块确定音频文件中还包含歌曲信息,则从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识,所述歌曲标识用于确定所述音频文件是否包含违禁歌曲;
34.确定模块,用于若判断模块确定音频文件中不包含歌曲信息,则将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识。
35.一种歌曲检测设备,包括存储器和处理器;
36.所述存储器,用于存储程序;
37.所述处理器,用于执行所述程序,实现上述的歌曲检测方法的各个步骤。
38.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述的歌曲检测方法的各个步骤。
39.从上述的技术方案可以看出,本技术提供的歌曲检测方法,获取主播端上传的包含音频流数据的音频文件;判断所述音频文件中是否还包含歌曲信息;若是,则从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识,所述
歌曲标识用于确定所述音频文件是否包含违禁歌曲;如此,本技术可以在音频文件包含歌曲信息时,依据歌曲信息确定歌曲标识,通过确定歌曲标识完成直播审核,进一步加快了直播审核的流程以及效率;若否,则将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识;如此,本技术可以利用特征提取模型提取歌曲音频的频谱图,即使音频流数据中包含环境音以及沟通交互声响等干扰音,也可以仅提取音频流数据中歌曲音频对应的频谱图,避免直播场景下的干扰音的影响,进一步提高了音频审核的准确度。可见,本技术提出了一种歌曲检测的流程,可以针对性地根据音频文件中所包含的内容,对直播间中播放的歌曲进行审核,确定直播间中是否播放或者演唱违禁歌曲,在保证审核的准确度的同时,提高音频审核的效率。
附图说明
40.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
41.图1为本技术实施例公开的一种歌曲检测方法流程图;
42.图2为本技术实施例公开的一种歌曲检测装置结构框图;
43.图3为本技术实施例公开的一种歌曲检测设备的硬件结构框图。
具体实施方式
44.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
45.本技术提供的歌曲检测方法,可以应用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
46.接下来结合图1对本技术的歌曲检测方法进行详细介绍,包括如下步骤:
47.步骤s1、获取主播端上传的包含音频流数据的音频文件。
48.具体地,可以接收各个主播通过终端上传的音频文件,其中,音频文件中包含音频流数据。音频流数据可以为主播在直播间中表演歌曲所形成的音频流,也可以为主播在直播间中播放歌曲所形成的音频流。音频流数据中可能包含有歌曲标识、歌手标识、专辑标识及原唱标识等歌曲信息。
49.步骤s2、判断所述音频文件中是否还包含歌曲信息,若是,则执行步骤s3,若否,则执行步骤s4。
50.具体地,可以利用音频文件处理程序,判断音频文件中是否可以提取歌曲信息,若可以提取,则确定歌词文件中包含歌曲信息,执行步骤s3;若不可以提取,则确定歌词文件中不包含歌曲信息,执行步骤s4。
51.歌曲信息可以用于确定歌曲标识,歌曲标识可以用于确定音频文件中的音频流数据是否包含违禁歌曲。
52.违禁歌曲可以为影响直播受众人群身心健康发展的歌曲,也可以为包含敏感词的歌曲。
53.步骤s3、从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识。
54.具体地,在确定音频文件中包含有歌曲信息时,可以直接从音频文件中提取歌曲信息,并基于歌曲信息确定音频文件对应的所有歌曲标识。
55.歌曲标识可以用于确定所述音频文件是否包含违禁歌曲,其中,可以通过确定每个歌曲标识的所属类别,以确定音频文件是否包含违禁歌曲。
56.步骤s4、将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识。
57.具体地,可以将音频流数据输入至经过训练的特征提取模型,可以利用特征提取模型基于音频流数据中的歌曲音频提取频谱图。
58.音频流数据中可以仅包含歌曲音频,也可以包含直播间的环境音、主播与观众的交流互动音频、歌曲音频等数据,特征提取模型可以仅提取音频流数据中的歌曲音频所对应的频谱图。
59.可以基于频谱图,提取音频文件对应的音频指纹。
60.确定与音频指纹对应的所有歌曲标识,并将各个歌曲标识皆作为音频文件对应的歌曲标识。
61.可以利用该歌曲标识,确定该主播端所上传的音频文件是否涉及违禁歌曲。
62.从上述的技术方案可以看出,本技术实施例提供的歌曲检测方法,获取主播端上传的包含音频流数据的音频文件;判断所述音频文件中是否还包含歌曲信息;若是,则从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识,所述歌曲标识用于确定所述音频文件是否包含违禁歌曲;如此,本技术可以在音频文件包含歌曲信息时,依据歌曲信息确定歌曲标识,通过确定歌曲标识完成直播审核,进一步加快了直播审核的流程以及效率;若否,则将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识;如此,本技术可以利用特征提取模型提取歌曲音频的频谱图,即使音频流数据中包含环境音以及沟通交互声响等干扰音,也可以仅提取音频流数据中歌曲音频对应的频谱图,避免直播场景下的干扰音的影响,进一步提高了音频审核的准确度。可见,本技术提出了一种歌曲检测的流程,可以针对性地根据音频文件中所包含的内容,对直播间中播放的歌曲进行审核,确定直播间中是否播放或者演唱违禁歌曲,在保证审核的准确度的同时,提高音频审核的效率。
63.在本技术的一些实施例中,考虑到可以预先完成特征提取模型的训练,并将经过训练的特征提取模型进行存储,在需要进行歌曲检测时,调用特征提取模型完成训练,以进一步提高本技术直播审核的效率,基于此,可以增加特征提取模型的训练过程。接下来,将对该训练过程进行详细说明,步骤如下:
64.s5、获取初始特征提取模型以及训练集。
65.具体地,可以预先采用无监督训练方式,得到初始特征提取模型,初始特征提取模型可以为语音预训练模型。
66.可以获取由两种类型的训练音频组成的训练集,训练集中可以包含多个训练音频。
67.其中,一种类型的训练音频可以来源于不同主播在直播间中表演歌曲所形成的音频片段,另一种类型的训练音频来源于不同主播在直播间中播放歌曲所形成的音频片段,每个所述训练音频的标注标签为该训练音频对应的训练频谱图。
68.训练频谱图可为对应的训练音频中的乐曲音频的频谱图。
69.s6、依次将每个所述训练音频输入至所述初始特征提取模型中,得到所述初始特征提取模型输出的预测频谱图。
70.具体地,可以依次从训练集中随机选取训练音频输入至初始特征提取模型中,利用初始特征提取模型基于训练音频中乐曲音频,输出预测频谱图。
71.s7、根据所述预测频谱图以及输入的训练音频的训练频谱图,对所述初始特征提取模型的参数进行调整,直至所述初始特征提取模型符合预置的条件为止,将最终训练得到的初始特征提取模型作为所述特征提取模型。
72.具体地,可以确定当前迭代次数。
73.可以计算当前迭代次数下的预测频谱图与训练频谱图间的损失值,根据损失值对初始特征提取模型的参数进行调整,直至当前迭代次数超过预置迭代阈值和/或损失值小于预置损失阈值为止。
74.最终得到的初始特征提取模型为用于提取音频流数据中频谱图的特征提取模型。
75.从上述技术方案可以看出,本技术增加了一种训练得到特征提取模型的可选的方式,通过上述的方式可以提高直播审核效率,加快审核进程。
76.在本技术的一些实施例中,对步骤s5中获取训练集的过程进行详细说明,步骤如下:
77.s50、从各个主播的直播间中获取直播视频。
78.具体地,可以从各个不同的直播间中获取直播视频。
79.s51、从各个所述直播视频中截取主播在直播间中表演歌曲的音频片段,以及,主播在直播间中播放歌曲的音频片段。
80.具体地,可以依次确定每个直播视频中是否存在表演歌曲的音频片段和/或播放歌曲的音频片段。
81.若存在,则从该直播视频中截取主播在直播间中表演歌曲的音频片段,和/或,主播在直播间中播放歌曲的音频片段。
82.若不存在,则不对该直播视频进行截取。
83.其中,不同音频片段的时长可以不同。
84.可以预先设置音频片段的时长阈值,在截取音频片段的过程中,根据时长阈值,截取主播在直播间中表演歌曲的音频片段,和/或,主播在直播间中播放歌曲的音频片段。
85.s52、依次生成每个所述音频片段中乐曲音频对应的训练频谱图,并将生成的训练频谱图作为所述音频片段的标注标签,形成训练音频,各个所述训练音频组成所述训练集。
86.具体地,可以依次提取每个音频片段中的与歌曲相关的乐曲音频,并提取该乐曲音频的频谱图作为训练频谱图。
87.将该训练频谱图作为该音频片段的标注标签,标注于该音频片段中,形成训练音频。
88.各个训练音频组成训练集。
89.从上述技术方案可以看出,本实施例提供了一种可选的获取训练集的方式,通过上述的方式可以进一步更好地获取与歌曲音频相关的音频片段以及训练频谱图,从而,提高利用训练集得到的特征提取模型的准确度。
90.在本技术的一些实施例中,对步骤s2、判断所述音频文件中是否还包含歌曲信息的过程进行详细说明,步骤如下:
91.s20、判断所述音频文件中是否包含歌曲标识、原唱标识、专辑标识和/或制作者标识。
92.具体地,歌曲信息可以包括歌曲标识、原唱标识、专辑标识、制作者标识及演唱者标识等与歌曲相关的基础信息。
93.可以识别音频文件中是否存在与歌曲相关的基础信息。
94.可以通过与歌曲相关的基础信息,确定歌曲标识。
95.从上述技术方案可以看出,本实施例提供了一种判断所述音频文件中是否还包含歌曲信息的可选的方式,通过上述的方式可以进一步提高歌曲检测效率,从而,提高直播审核的效率。
96.在本技术的一些实施例中,对步骤s4中从所述频谱图中提取音频指纹的过程进行详细说明,步骤如下:
97.s40、从所述频谱图中选取所有的极大值点,并确定每个所述极大值点对应的时刻以及振幅值。
98.具体地,可以从特征提取模型输出的频谱图中查找极大值点。
99.极大值点可以为在时间维度及频率维度上对应的振幅值都比相邻的坐标点的振幅值大的坐标点。
100.可以确定每个极大值点对应的时刻以及振幅值。
101.s41、根据各个所述极大值点对应的时刻以及振幅值,形成音频指纹。
102.具体地,可以按照时刻的先后顺序,对各个振幅值进行组合,形成音频指纹。
103.从上述技术方案可以看出,本实施例提供了一种提取音频指纹的可选的方式,通过上述的方式可以更好地从频谱图中提取音频指纹,简化后续音频指纹识别的计算量,进一步提高本技术直播审核的速度。
104.在本技术的一些实施例中,对步骤s41、根据各个所述极大值点对应的时刻以及振幅值,形成音频指纹的过程进行详细说明,步骤如下:
105.s410、生成每个所述振幅值对应的哈希值。
106.具体地,可以采用哈希算法,生成每个振幅值对应的哈希值。
107.s411、按照各个所述振幅值对应的时刻,对各个所述哈希值进行先后排序,形成音频指纹。
108.具体地,可以基于各个时刻的先后顺序,对各个哈希值进行组合,形成音频指纹。
109.从上述技术方案可以看出,本实施例提供了一种利用各个振幅值形成音频指纹的可选的方式,通过上述的方式可以进一步将频率信息哈希化,从而,将音频流数据转换为哈希值,形成音频指纹,便于后续进行指纹匹配。
110.在本技术的一些实施例中,对步骤s4中根据所述音频指纹确定与所述音频文件匹配的歌曲标识的过程进行详细说明,步骤如下:
111.s43、将所述音频指纹与预置曲库中每个歌曲进行匹配,计算每个所述歌曲的指纹信息与所述音频指纹间的相似度。
112.具体地,可以预先建立曲库,曲库中存储有各个歌曲所对应的哈希值。
113.其中,可以生成每个歌曲的歌曲频谱图,利用该歌曲频谱图中的极大值点,形成该歌曲对应的指纹信息。
114.可以计算音频指纹与曲库中每个歌曲的指纹信息间的欧式距离,并将该欧式距离作为该歌曲的指纹信息与音频指纹间的相似度。
115.s44、从各个所述相似度中选取最大的相似度作为目标相似度,并将所述目标相似度与预设相似阈值进行比较。
116.具体地,可以按照数值大小,对各个相似度进行排序,得到排序结果,从排序结果中选取数值最大的相似度作为目标相似度。
117.可以判断目标相似度是否小于预设相似阈值,若是,则发出表明音频文件并未存在匹配歌曲的提醒,若否,则执行步骤s45。
118.可以根据实际需求设置相似阈值,例如,可以将相似阈值设置为80%。
119.s45、确定所述目标相似度对应的歌曲的名称,并将所述名称作为所述音频文件匹配的歌曲标识。
120.具体地,可以确定目标相似度所对应的歌曲的名称,并将该名称与音频文件对应,作为音频文件所对应的歌曲标识。
121.从上述技术方案可以看出,本实施例提供了一种根据音频指纹确定音频文件的歌曲标识的可选的方式,通过上述的方式可以进一步完成音频指纹与曲库中每个歌曲的匹配,从而完成歌曲标识的确定。
122.接下来,将对本技术提供的歌曲检测装置进行详细介绍,下文阐述的歌曲检测装置可以与上文提供的歌曲检测方法相互对照。
123.参照图2可以发现,歌曲检测装置可以包括:
124.获取模块1,用于获取主播端上传的包含音频流数据的音频文件;
125.判断模块2,用于判断所述音频文件中是否还包含歌曲信息;
126.提取模块3,用于若判断模块确定音频文件中还包含歌曲信息,则从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识,所述歌曲标识用于确定所述音频文件是否包含违禁歌曲;
127.确定模块4,用于若判断模块确定音频文件中不包含歌曲信息,则将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识。
128.进一步,歌曲检测装置还可以包括:
129.训练集获取模块,用于获取初始特征提取模型以及训练集,所述训练集由两种类型的训练音频组成,一种类型的训练音频来源于不同主播在直播间中表演歌曲的音频片段,另一种类型的训练音频来源于不同主播在直播间中播放歌曲的音频片段,每个所述训练音频标注有对应的训练频谱图;
130.预测频谱图生成模块,用于依次将每个所述训练音频输入至所述初始特征提取模型中,得到所述初始特征提取模型输出的预测频谱图;
131.参数调整模块,用于根据所述预测频谱图以及输入的训练音频的训练频谱图,对所述初始特征提取模型的参数进行调整,直至所述初始特征提取模型符合预置的条件为止,将最终训练得到的初始特征提取模型作为所述特征提取模型。
132.进一步,训练集获取模块可以包括:
133.直播视频获取单元,用于从各个主播的直播间中获取直播视频;
134.音频片段截取单元,用于从各个所述直播视频中截取主播在直播间中表演歌曲的音频片段,以及,主播在直播间中播放歌曲的音频片段;
135.训练音频生成单元,用于依次生成每个所述音频片段中乐曲音频对应的训练频谱图,并将生成的训练频谱图作为所述音频片段的标注标签,形成训练音频,各个所述训练音频组成所述训练集。
136.进一步,判断模块可以包括:
137.标识识别单元,用于判断所述音频文件中是否包含歌曲标识、原唱标识、专辑标识和/或制作者标识。
138.进一步,确定模块可以包括:
139.极大值点选取单元,用于从所述频谱图中选取所有的极大值点,并确定每个所述极大值点对应的时刻以及振幅值;
140.振幅值利用单元,用于根据各个所述极大值点对应的时刻以及振幅值,形成音频指纹。
141.进一步,振幅值利用单元可以包括:
142.哈希值生成组件,用于生成每个所述振幅值对应的哈希值;
143.哈希值排序组件,用于按照各个所述振幅值对应的时刻,对各个所述哈希值进行先后排序,形成音频指纹。
144.进一步,确定模块还可以包括:
145.音频指纹匹配单元,用于将所述音频指纹与预置曲库中每个歌曲进行匹配,计算每个所述歌曲的指纹信息与所述音频指纹间的相似度;
146.目标相似度确定单元,用于从各个所述相似度中选取最大的相似度作为目标相似度,并将所述目标相似度与预设相似阈值进行比较;
147.歌曲标识确定单元,用于在目标相似度确定单元确定所述目标相似度超过预设相似阈值时,确定所述目标相似度对应的歌曲的名称,并将所述名称作为所述音频文件匹配的歌曲标识。
148.本技术实施例提供的歌曲检测装置可应用于歌曲检测设备,如pc终端、云平台、服务器及服务器集群等。可选的,图3示出了歌曲检测设备的硬件结构框图,参照图3,歌曲检测设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和
至少一个通信总线4;
149.在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
150.处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
151.存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
152.其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
153.获取主播端上传的包含音频流数据的音频文件;
154.判断所述音频文件中是否还包含歌曲信息;
155.若是,则从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识,所述歌曲标识用于确定所述音频文件是否包含违禁歌曲;
156.若否,则将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识。
157.可选地,所述程序的细化功能和扩展功能可参照上文描述。
158.本技术实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
159.获取主播端上传的包含音频流数据的音频文件;
160.判断所述音频文件中是否还包含歌曲信息;
161.若是,则从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识,所述歌曲标识用于确定所述音频文件是否包含违禁歌曲;
162.若否,则将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识。
163.可选地,所述程序的细化功能和扩展功能可参照上文描述。
164.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
165.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
166.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。本技术的各
个实施例之间可以相互结合。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种歌曲检测方法,其特征在于,包括:获取主播端上传的包含音频流数据的音频文件;判断所述音频文件中是否还包含歌曲信息;若是,则从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识,所述歌曲标识用于确定所述音频文件是否包含违禁歌曲;若否,则将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识。2.根据权利要求1所述的歌曲检测方法,其特征在于,所述特征提取模型的训练过程,包括:获取初始特征提取模型以及训练集,所述训练集由两种类型的训练音频组成,一种类型的训练音频来源于不同主播在直播间中表演歌曲的音频片段,另一种类型的训练音频来源于不同主播在直播间中播放歌曲的音频片段,每个所述训练音频标注有对应的训练频谱图;依次将每个所述训练音频输入至所述初始特征提取模型中,得到所述初始特征提取模型输出的预测频谱图;根据所述预测频谱图以及输入的训练音频的训练频谱图,对所述初始特征提取模型的参数进行调整,直至所述初始特征提取模型符合预置的条件为止,将最终训练得到的初始特征提取模型作为所述特征提取模型。3.根据权利要求2所述的歌曲检测方法,其特征在于,获取训练集,包括:从各个主播的直播间中获取直播视频;从各个所述直播视频中截取主播在直播间中表演歌曲的音频片段,以及,主播在直播间中播放歌曲的音频片段;依次生成每个所述音频片段中乐曲音频对应的训练频谱图,并将生成的训练频谱图作为所述音频片段的标注标签,形成训练音频,各个所述训练音频组成所述训练集。4.根据权利要求1所述的歌曲检测方法,其特征在于,所述判断所述音频文件中是否还包含歌曲信息,包括:判断所述音频文件中是否包含歌曲标识、原唱标识、专辑标识和/或制作者标识。5.根据权利要求1所述的歌曲检测方法,其特征在于,从所述频谱图中提取音频指纹,包括:从所述频谱图中选取所有的极大值点,并确定每个所述极大值点对应的时刻以及振幅值;根据各个所述极大值点对应的时刻以及振幅值,形成音频指纹。6.根据权利要求5所述的歌曲检测方法,其特征在于,所述根据各个所述极大值点对应的时刻以及振幅值,形成音频指纹,包括:生成每个所述振幅值对应的哈希值;按照各个所述振幅值对应的时刻,对各个所述哈希值进行先后排序,形成音频指纹。7.根据权利要求1所述的歌曲检测方法,其特征在于,所述根据所述音频指纹确定与所述音频文件匹配的歌曲标识,包括:
将所述音频指纹与预置曲库中每个歌曲进行匹配,计算每个所述歌曲的指纹信息与所述音频指纹间的相似度;从各个所述相似度中选取最大的相似度作为目标相似度,并将所述目标相似度与预设相似阈值进行比较;在所述目标相似度超过预设相似阈值时,确定所述目标相似度对应的歌曲的名称,并将所述名称作为所述音频文件匹配的歌曲标识。8.一种歌曲检测装置,其特征在于,包括:获取模块,用于获取主播端上传的包含音频流数据的音频文件;判断模块,用于判断所述音频文件中是否还包含歌曲信息;提取模块,用于若判断模块确定音频文件中还包含歌曲信息,则从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识,所述歌曲标识用于确定所述音频文件是否包含违禁歌曲;确定模块,用于若判断模块确定音频文件中不包含歌曲信息,则将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识。9.一种歌曲检测设备,其特征在于,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1-7中任一项所述的歌曲检测方法的各个步骤。10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的歌曲检测方法的各个步骤。
技术总结
本申请公开了一种歌曲检测方法、装置、设备及可读存储介质,该方法可以获取主播端上传的包含音频流数据的音频文件;判断所述音频文件中是否还包含歌曲信息;若是,则从所述音频文件中提取所述歌曲信息,并根据所述歌曲信息确定所述音频文件对应的歌曲标识,所述歌曲标识用于确定所述音频文件是否包含违禁歌曲;若否,则将所述音频文件中的音频流数据输入至预置的特征提取模型,利用所述特征提取模型提取所述音频流数据中歌曲音频的频谱图,并从所述频谱图中提取音频指纹,根据所述音频指纹确定与所述音频文件匹配的歌曲标识。可见,本申请提出了一种歌曲检测的流程,可以在保证审核的准确度的同时,提高音频审核的效率。提高音频审核的效率。提高音频审核的效率。
技术研发人员:兰翔 曾锐鸿 马金龙 熊佳 焦南凯 盘子圣 王伟喆 黎子骏 黄祥康 吴文亮 邓其春 张政统 谢睿 徐志坚 陈光尧
受保护的技术使用者:广州趣研网络科技有限公司
技术研发日:2023.07.26
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/