配乐推荐方法、模型的训练方法、设备及存储介质与流程
未命名
08-02
阅读:81
评论:0

1.本发明涉及音频处理技术领域,尤其涉及一种配乐推荐方法、匹配度预测模型的训练方法、电子设备及计算机可读存储介质。
背景技术:
2.现阶段,在朗读场景下,朗读对象可以在录制朗读音频后,为朗读音频添加合适的配乐,以提升朗读音频的美感。这些配乐可以是朗读对象自行查找的,或者是朗读对象从推荐系统所推荐的配乐中选择的。
3.目前,推荐系统常通过查找与朗读音频的文本内容相匹配的配乐,来进行配乐推荐;或者,推荐系统通过统计大多数朗读对象在朗读同一文本内容时所选择的配乐,来进行配乐推荐。通过这种方式,推荐系统可能会为不同朗读对象针对同一文本内容的朗读音频推荐相同的配乐,推荐系统所推荐的配乐较为单一,不能满足朗读对象的个性化需求。
技术实现要素:
4.本技术实施例提供一种配乐推荐方法、模型的训练方法、设备及存储介质,不仅可以使推荐的配乐更具个性化,还可以使推荐的配乐在与朗读音频叠加时,叠加效果更为和谐。
5.第一方面,本技术实施例提供了一种配乐推荐方法,该方法包括:获取朗读音频的第一属性特征,所述朗读音频基于目标对象的语音录制而成,所述第一属性特征包括音长特征、音高特征和音强特征中的一项或者多项;所述音长特征、所述音高特征和所述音强特征分别用于指示所述目标对象的音长、音高、音强;
6.由预先训练完成的匹配度预测模型处理所述第一属性特征与各个配乐的第二属性特征,得到所述朗读音频与所述各个配乐的匹配度;其中,所述第二属性特征包括所述配乐的节奏特征、情绪特征、音域特征和音调特征中的一项或者多项;
7.根据所述朗读音频与所述各个配乐的匹配度,进行配乐推荐。
8.在第一方面所描述的方法中,第一属性特征所包含的各个特征可以反映在录制朗读音频时目标对象的音长、音高、音强等声音属性,这些声音属性通常与目标对象的情绪、节奏等相关,第二属性特征所包含的各个特征可以反映配乐的情绪、节奏、音域、音调等属性。因此,根据第一属性特征与第二属性特征来确定朗读音频和配乐的匹配度以及进行配乐推荐,推荐的配乐将更加契合目标对象所录制的朗读音频,从而使得推荐的配乐更具个性化,且推荐的配乐在与朗读音频叠加时,叠加效果更为和谐。
9.在一种可能的实现方式中,所述获取朗读音频的第一属性特征,包括:
10.根据所述朗读音频对应的朗读文本,确定所述朗读音频包括的多个音频片段,其中,所述朗读文本是用于录制所述朗读音频的发音参考文本,一个音频片段与所述朗读文本中的一个分词对应;
11.根据所述多个音频片段,得到所述朗读音频的音长特征、音高特征和音强特征中
的一项或者多项。
12.通过该方式,可以以分词为最小单位,通过每个分词对应的音频片段,得到朗读音频的第一属性特征。该方式可以尽可能地捕捉到朗读音频更多的属性特征,从而在后续根据第一属性特征与第二属性特征得到更为准确的匹配度。
13.在一种可能的实现方式中,所述根据所述朗读音频对应的朗读文本,确定所述朗读音频包括的多个音频片段,包括:
14.对所述朗读音频进行语音识别,得到识别文本;
15.以分词为单位,将所述识别文本中的各个分词与所述朗读音频的朗读文本中相对应的分词进行对齐;
16.根据所述识别文本和所述朗读文本的对齐结果,确定所述朗读音频包括的多个音频片段。
17.通过该方式,可以通过将识别文本和朗读文本对齐,从而得到朗读音频包括的音频片段。
18.在一种可能的实现方式中,所述根据所述多个音频片段,得到所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项,包括:
19.获取各个所述音频片段的音长特征、音高特征和音强特征中的一项或者多项;
20.根据各个所述音频片段的音长特征、音高特征和音强特征中的一项或者多项,确定所述朗读文本中各个句子对应的音长特征、音高特征和音强特征中的一项或者多项;
21.将所述各个句子对应的音长特征的平均值、音高特征的平均值和音强特征的平均值中的一项或者多项,确定为所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项。
22.通过该方式,可以先以句子为单位,通过每个句子所包含的一个或多个分词对应的音频片段,得到每个句子对应的特征,再结合各个句子对应的特征,得到第一属性特征。该方式可以将所有句子对应的特征进行压缩,以减少输入匹配度预测模型的数据量,提高匹配度预测模型的处理效率以及配乐推荐的效率。
23.在一种可能的实现方式中,根据各个所述音频片段的音长特征,确定所述朗读文本中各个句子对应的音长特征,包括:
24.将各个所述音频片段的音长特征确定为所述朗读文本中各个分词的音长特征;
25.根据所述各个分词的音长特征,确定所述各个句子的句长、分词平均时长和分词时长方差;
26.根据所述各个句子的句长、分词平均时长和分词时长方差,得到所述各个句子对应的音长特征。
27.通过该方式,可以得到各个句子的句长、分词平均时长和分词时长方差,并进一步得到各个句子对应的音长特征。
28.在一种可能的实现方式中,根据各个所述音频片段的音高特征,确定所述朗读文本中各个句子对应的音高特征,包括:
29.将各个所述音频片段的音高特征确定为所述朗读文本中各个分词的音高特征;
30.根据所述各个分词的音高特征,确定所述各个句子的分词平均音高和分词间音高变化;
31.根据所述各个句子的分词平均音高和分词间音高变化,得到所述各个句子对应的音高特征。
32.通过该方式,可以得到各个句子的分词平均音高和分词间音高变化,并进一步得到各个句子对应的音高特征。
33.在一种可能的实现方式中,根据各个所述音频片段的音强特征,确定所述朗读文本中各个句子对应的音强特征,包括:
34.将各个所述音频片段的音强特征与所述朗读音频中噪声音强特征的差异,确定为所述朗读文本中各个分词的音强特征;
35.根据所述各个分词的音强特征,确定所述各个句子的分词间音强变化;
36.根据所述各个句子的分词间音强变化,得到所述各个句子对应的音强特征。
37.通过该方式,可以得到各个句子的分词间音强变化,并进一步得到各个句子对应的音强特征。
38.在一种可能的实现方式中,所述第一属性特征还包括所述朗读音频对应的朗读文本的文本特征;
39.所述由预先训练完成的匹配度预测模型处理所述第一属性特征与各个配乐的第二属性特征,得到所述朗读音频与所述各个配乐的匹配度,包括:
40.由所述预先训练完成的匹配度预测模型基于所述音长特征、所述音高特征和所述音强特征中的一项或者多项与所述第二属性特征,得到第一匹配度;
41.由所述匹配度预测模型基于所述文本特征和所述第二属性特征,得到第二匹配度;
42.根据所述第一匹配度和所述第二匹配度,得到所述朗读音频与所述各个配乐的匹配度。
43.通过该方式,一方面可根据音长特征、音高特征、音强特征与第二属性特征,得到第一匹配度,该第一匹配度可指示目标对象的声音属性与配乐属性的匹配程度;另一方面,根据朗读文本的文本特征与第二属性特征,得到第二匹配度,该第二匹配度可指示朗读文本的属性与配乐属性的匹配程度;结合第一匹配度和第二匹配度,可以得到更加准确的朗读音频与配乐的匹配度。
44.第二方面,本技术实施例提供了一种匹配度预测模型的训练方法,该方法包括:获取朗读音频样本、配乐样本以及所述朗读音频样本和所述配乐样本的标注匹配度;
45.获取所述朗读音频样本的属性特征以及所述配乐样本的属性特征;
46.将所述朗读音频样本的属性特征以及所述配乐样本的属性特征输入初始匹配度预测模型,得到所述朗读音频样本和所述配乐样本的预测匹配度;
47.以缩小所述标注匹配度和所述预测匹配度的差异为训练目标,对所述初始匹配度预测模型进行训练,得到训练完成的匹配度预测模型;其中,所述匹配度预测模型用于预测输入的朗读音频与输入的各个配乐之间的匹配度。
48.实施第二方面所描述的方法,可以根据朗读音频样本、配乐样本以及朗读音频样本和配乐样本的标注匹配度,训练得到匹配度预测模型。
49.在一种可能的实现方式中,该方法还包括:
50.获取针对训练作品的历史反馈行为数据,所述训练作品由所述朗读音频样本和所
述配乐样本叠加得到,所述历史反馈行为数据包括针对所述训练作品中所述配乐样本的满意度、发布所述训练作品的概率、针对已发布的所述训练作品的互动次数中的一项或者多项;
51.对所述历史反馈行为数据进行标准化处理,得到所述标注匹配度。
52.通过该方式,可以根据训练作品的历史反馈行为数据,得到标注匹配度。相较于根据经验值得到标注匹配度的方式,根据历史反馈行为数据可以使得到的标注匹配度更为准确,进而可以训练得到更为准确的匹配度预测模型。
53.在一种可能的实现方式中,所述方法还包括:
54.获取针对目标作品的目标反馈行为数据,所述目标作品由朗读音频和目标配乐叠加得到,所述目标配乐是从配乐推荐中选择的配乐,所述配乐推荐基于各个配乐与所述朗读音频的匹配度生成;
55.基于所述目标反馈行为数据,得到所述朗读音频和所述目标配乐的标注匹配度;
56.基于所述朗读音频和所述目标配乐的标注匹配度,对所述匹配度预测模型进行优化
57.通过该方式,可以根据配乐推荐后收集到的目标反馈行为数据,对已完成训练的匹配度预测模型进行优化。
58.第三方面,本技术实施例提供了一种配乐推荐装置,该装置包括获取模块和处理模块;
59.所述获取模块用于:获取朗读音频的第一属性特征,所述朗读音频基于目标对象的语音录制而成,所述第一属性特征包括音长特征、音高特征和音强特征中的一项或者多项;所述音长特征、所述音高特征和所述音强特征分别用于指示所述目标对象的音长、音高、音强;
60.所述处理模块用于:由预先训练完成的匹配度预测模型处理所述第一属性特征与各个配乐的第二属性特征,得到所述朗读音频与所述各个配乐的匹配度;其中,所述第二属性特征包括所述配乐的节奏特征、情绪特征、音域特征和音调特征中的一项或者多项;
61.根据所述朗读音频与所述各个配乐的匹配度,进行配乐推荐。
62.第四方面,本技术实施例提供了一种匹配度预测模型的训练,该装置包括获取模块和处理模块;
63.所述获取模块用于:获取朗读音频样本、配乐样本以及所述朗读音频样本和所述配乐样本的标注匹配度;获取所述朗读音频样本的属性特征以及所述配乐样本的属性特征;
64.所述处理模块用于:将所述朗读音频样本的属性特征以及所述配乐样本的属性特征输入初始匹配度预测模型,得到所述朗读音频样本和所述配乐样本的预测匹配度;以缩小所述标注匹配度和所述预测匹配度的差异为训练目标,对所述初始匹配度预测模型进行训练,得到训练完成的匹配度预测模型;其中,所述匹配度预测模型用于预测输入的朗读音频与输入的各个配乐之间的匹配度。
65.第五方面,本技术实施例提供了一种电子设备,所述电子设备包括存储器,处理器;所述存储器用于存储计算机程序,所述计算机程序包括程序指令;所述处理器用于从所述存储器调用所述程序指令,使得所述电子设备执行上述第一方面或第二方面中任一项所
述的方法。
66.第六方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,当所述程序指令被处理器执行时,使得所述处理器执行上述第一方面或第二方面中的任一项方法。
67.第三方面至第六方面中各可能实施方式的有益效果可参见第一方面或第二方面中的相应描述,在此不赘述。
附图说明
68.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
69.图1是本技术实施例提供的一种配乐推荐系统的架构示意图;
70.图2是本技术实施例提供的一种配乐推荐方法的流程示意图;
71.图3是本技术实施例提供的一种客户端中显示界面的示意图;
72.图4是本技术实施例提供的另一种客户端中显示界面的示意图;
73.图5是本技术实施例提供的一种匹配度预测模型的训练流程示意图;
74.图6是本技术实施例提供的一种通信装置的结构示意图;
75.图7是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
76.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
77.在本技术的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
78.本技术实施例提供了一种配乐推荐方法,该配乐推荐方法可以适用于图1所示的配乐推荐系统。如图1所示,该配乐推荐系统包括至少一个服务器,如服务器10,以及至少一个客户端,如客户端11。服务器和客户端之间可以通过网络建立通信连接,该网络可以为有线网络或无线网络等等。
79.其中,服务器10中可以存储预先训练完成的匹配度预测模型,并执行本技术实施例提出的配乐推荐方法,该匹配度预测模型用于输出朗读音频与各个配乐之间的匹配度。例如:当朗读音频包含有目标对象的声音(或语音)音频时,服务器10可以获取到朗读音频的第一属性特征,该第一属性特征可以指示目标对象的各种声音属性,如第一属性特征可以包括朗读音频的音长特征、音高特征和音强特征等,音长特征息、音高特征和音强特征等可以分别指示目标对象在音长、音高和音强相关的属性等。然后,服务器10还可以得到各个配乐的第二属性特征,第二属性特征可以指示各个配乐的属性类别,例如配乐的第二属性
特征可以包括配乐的节奏特征、情绪特征、音域特征和音调特征,节奏特征、情绪特征、音域特征和音调特征可以分别指示配乐所属的节奏类别、情绪类别、音域类别和音调类别。接着,服务器10将第一属性特征和第二属性特征一并输入到匹配度预测模型进行处理,匹配度预测模型根据第一属性特征和第二属性特征的关联程度,输出朗读音频和各个配乐的匹配度。最后,服务器10根据朗读音频和各个配乐的匹配度,进行配乐推荐。
80.可选的,服务器10可以预先存储有各个配乐的第二属性特征,或者服务器10可以先确定出各个配乐所属的节奏类别、情绪类别、音域类别和音调类别等,再根据各个配乐所属的节奏类别、情绪类别、音域类别和音调类别等得到各个配乐的第二属性特征。
81.可选的,服务器10还可以根据朗读音频对应的朗读文本,得到朗读文本对应的文本特征,然后将文本特征、音长特征、音高特征、音强特征、以及配乐的第二属性特征一并输入到匹配度预测模型进行处理。通过该方式可以使匹配度预测模型得到更为准确的匹配度。
82.可选的,客户端11可以存储有预先训练完成的匹配度预测模型,并执行上述配乐推荐方法。或者,上述配乐推荐方法可以由客户端11和服务器10共同执行,即客户端11执行上述配乐推荐方法中的一部分步骤,服务器10执行上述配乐推荐方法中的另一部分步骤。例如,客户端11提取朗读音频的第一属性特征并将提取到的第一属性特征发送至服务器10;服务器10将存储的各个配乐的第二属性特征与接收到的第一属性特征输入匹配度预测模型,得到朗读音频和各个配乐的匹配度;服务器10根据朗读音频和各个配乐的匹配度得到用于配乐推荐的推荐配乐列表并发送至客户端11;客户端11显示推荐配乐列表,以实现对目标对象的配乐推荐。
83.需要说明的是,上述服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述客户端11可以是终端设备,该终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端等终,但并不局限于此。
84.以上对本技术实施例提供的配乐推荐系统进行了简要介绍,下面将结合图2至图7对本技术实施例提供的配乐推荐方法、匹配度预测模型的训练方法、配乐推荐装置、电子设备及计算机可读存储介质等分别进行详细说明。
85.请参见图2,图2是本技术实施例提供的一种配乐推荐方法的流程示意图,该方法包括步骤s201~s203,其执行主体可以为服务器、或客户端、或服务器和客户端。下面以服务器为方法的执行主体为例进行说明,该服务器可以为上述图1中介绍的服务器10。其中:
86.s201、服务器获取朗读音频的第一属性特征,朗读音频基于目标对象的语音录制而成,第一属性特征包括音长特征、音高特征和音强特征中的一项或者多项。
87.在本技术实施例中,朗读音频基于目标对象的语音录制而成。示例地,目标对象可开启客户端中的录制功能,在开启录制功能之后,客户端中的采集设备对目标对应的语音进行采集从而得到朗读音频。
88.可选的,朗读音频可以是客户端采集到的原始音频,或是对客户端对采集到的原始音频进行预处理后得到的音频。示例地,原始音频可以由目标对象的语音、环境噪声以及
朗读提示音(用于提示目标对象开始朗读)等组合而成。则朗读音频可以包含这些种类的音频,或者可以先对这些组合而成的音频进行过滤处理,得到只包括目标对象的语音的音频,再将只包括目标对象的语音的音频作为朗读音频。
89.朗读音频的第一属性特征可以指示目标对象的声音属性,示例地,第一属性特征中的音长特征可用于指示目标对象的音长、第一属性特征中的音高特征可用于指示目标对象的音高,第一属性特征中的音强特征可用于指示目标对象的音强。这些声音属性通常与录制朗读音频时,目标对象的情绪和节奏等相关。
90.需要说明的是,本技术的实施例运用到具体产品或技术中时,所涉及使用到的朗读音频需要获得目标对象许可或者授权,且朗读音频的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
91.可选的,服务器可以在获取到客户端发送的朗读音频之后,对朗读音频进行处理,从而提取到第一属性特征;或者,服务器可以获取到由客户端提取并发送的第一属性特征。
92.下面以服务器提取第一属性特征为例,对提取第一属性特征的方式进行说明:
93.在一种可能的实现方式中,服务器获取朗读音频的第一属性特征,包括:根据朗读音频对应的朗读文本,确定朗读音频包括的多个音频片段,一个音频片段与朗读文本中的一个分词对应;根据多个音频片段,得到朗读音频的音长特征、音高特征和音强特征中的一项或者多项。
94.其中,朗读文本朗读文本是用于录制朗读音频的发音参考文本。示例地,请参见图3,图3是本技术实施例提供的一种客户端显示界面的示意图,其中,显示界面中文本301是诗歌甲的内容(示例为“xxx...”),该文本301也即是录制时目标对象的朗读文本。
95.需要说明的是,客户端在向服务器发送朗读音频时,还可以向服务器发送朗读音频对应的朗读文本,或者该朗读文本对应的标识等,本技术对此不做限定。例如,若服务器中未存储有朗读文本,则客户端可以向服务器发送该朗读文本。或者,若服务器中预先存储有朗读文本以及标识之间的对应关系,则客户端可以向服务器发送朗读文本对应的标识,服务器根据接收到的标识确定朗读文本。
96.在一种可能的实现方式中,服务器根据朗读音频对应的朗读文本,确定朗读音频包括的多个音频片段,包括:对朗读音频进行语音识别,得到朗读音频的识别文本;以分词为单位,将识别文本中的各个分词,与朗读音频的朗读文本中相对应的分词进行对齐;根据识别文本和朗读文本的对齐结果,确定朗读音频包括的多个音频片段。
97.可选的,识别文本可以是采用语音识别(automatic speech recognition,asr)技术对朗读音频进行识别后得到的文本。示例地,识别文本可以是由服务器在获取到朗读音频之后,对朗读音频识别得到的,或者识别文本可以是由客户端对朗读音频识别得到并发送至服务器的。例如,目标对象可以点击图3中的控件302来开启朗读音频的录制,以使客户端采集到朗读音频;然后客户端将朗读音频发送至服务器,服务器采用asr技术对朗读音频进行语音识别之后,得到识别文本。
98.在本技术实施例中,服务器首先根据识别文本中各个分词和朗读文本中各个分词的对齐结果,从朗读音频中确定与朗读文本中各个分词对应的音频片段。可选的,一个分词可以是一个字、一个词语、一个短语等。
99.示例地,假设一个分词为一个字,针对图3的朗读文本中的第一个字“所”,服务器
先将“所”与识别文本中的第一个字“所”进行对齐,然后将识别文本中第一个字“所”在朗读音频中对应的片段,确定为朗读文本中的第一个字“所”对应的音频片段。例如,服务器在对朗读音频进行语音识别时,将朗读音频中第5000ms~第5500ms的片段识别为第一个字“所”,则朗读文本中的第一个字“所”对应的音频片段为朗读音频中的第5000ms~第5500ms的片段。按照相似的方式,服务器可以得到朗读音频中各个音频片段与朗读文本中各个分词的对应关系;然后,服务器可以根据多个音频片段,得到朗读音频的属性特征,如朗读音频的音长特征、音高特征和音强特征等。为了与下文其他属性特征区分,可以将此处的朗读音频的属性特征称为第一属性特征。
100.由于音频片段与朗读文本中的分词一一对应,因此可以以分词为最小单位尽可能地捕捉到朗读音频更多的属性特征,从而在后续根据第一属性特征与第二属性特征预测匹配度时,得到更为准确的匹配度。
101.接下来对服务器如何根据音频片段得到朗读音频的第一属性特征进行说明:
102.在一种可能的实现方式中,朗读文本包括至少一个句子;服务器根据多个音频片段,得到朗读音频的音长特征、音高特征和音强特征中的一项或者多项,包括:获取各个音频片段的音长特征、音高特征和音强特征中的一项或者多项;根据各个音频片段的音长特征、音高特征和音强特征中的一项或者多项,确定朗读文本中各个句子对应的音长特征、音高特征和音强特征中的一项或者多项;将各个句子对应的音长特征的平均值、音高特征的平均值和音强特征的平均值中的一项或者多项,确定为朗读音频的音长特征、音高特征和音强特征中的一项或者多项。
103.由于在大多数的发声场景下,同一句子对应的语音节奏、情绪等的变化较小,不同句子对应的语音的节奏、情绪等的变化较大。因此在本技术实施例中,服务器可以先以句为单位,得到各个句子对应的特征(如包括音长特征、音高特征和音强特征),再将所有句子对应的特征进行融合(如取各个句子对应的特征的平均值),得到朗读音频的第一属性特征,由第一属性特征来表征目标对象朗读句子时的情绪和/或节奏等。
104.示例地,若朗读文本包括n个句子,n为正整数,且服务器针对每个句子,提取到的音长特征、音高特征和音强特征共构成一个m维的向量,则服务器共可以得到n个m维向量。通过将所有句子的音长特征、音高特征和音强特征进行平均,如将所有句子的音长特征对应的向量元素相加后取平均值,则服务器最终得到的第一属性特征为一个m维的向量。基于该方式,服务器可以对所有句子的特征进行压缩,以减少输入匹配度预测模型的数据量,提高匹配度模型的处理效率以及配乐推荐的效率。
105.可选的,服务器在得到各个句子对应的特征之后,还可以采用其余处理方式,得到第一属性特征,本技术对此不作限定。例如,服务器可以将n个句子的特征进行首尾拼接,得到一个n*m维的向量,或者服务器将n个句子的特征组成一个n*m维的向量矩阵,等等。
106.在一种可能的实现方式中,上述各个句子对应的音长特征包括各个句子的句长、分词平均时长、分词时长方差所对应的向量;服务器根据各个音频片段的音长特征,确定朗读文本中各个句子对应的音长特征,包括:将各个音频片段的音长特征确定为朗读文本中各个分词的音长特征;根据各个分词的音长特征,确定各个句子的句长、分词平均时长和分词时长方差;根据各个句子的句长、分词平均时长和分词时长方差,得到各个句子对应的音长特征。
107.其中,各个音频片段的音长特征可指示各个音频片段的持续时长,各个分词的音长特征可指示目标对象在对各个分词进行发声时的持续时长;各个句子的句长是目标对象在对各个句子进行发声时的持续时长。
108.在本技术实施例中,服务器可以先根据朗读文本确定各个句子包括的一个或者多个分词,然后服务器将各个句子包括的所有分词的音长特征指示的持续时长之和,确定为各个句子的句长;将各个句子的句长与各个句子所包括的分词的数量的比值,确定为各个句子的分词平均时长;基于各个句子的分词平均时长和各个句子所包括的各个分词的音长特征,确定各个句子的字平均方差。
109.具体地,各个句子的句长、分词平均时长和分词时长方差与目标对象在朗读各个句子时的情绪和/或节奏等相关。示例地,若目标对象以深情饱满的情绪对某一句子进行朗读,则目标对象的语速较慢,该句子对应的分词平均时长的数值较大,句长的数值也较大;若目标对象以紧张急迫的情绪对某一句子进行朗读,则目标对象的语速较快,该句子对应的分词平均时长的数值较小,句长的数值也较小;若目标对象在朗读某一句子时节奏较为明显,或情绪变化很多,则该句子对应的分词时长方差的数值较大。
110.在一种可能的实现方式中,各个句子对应的音高特征包括各个句子的分词平均音高和分词间音高变化对应的向量;服务器根据各个音频片段的音高特征,确定朗读文本中各个句子对应的音高特征,包括:将各个音频片段的音高特征确定为朗读文本中各个分词的音高特征;根据各个分词的音高特征,确定各个句子的分词平均音高和分词间音高变化;根据各个句子的分词平均音高和分词间音高变化,得到各个句子对应的音高特征。
111.在本技术实施例中,服务器可以以帧为提取级别,采用音高提取算法得到各个音频片段的音高特征。由于音频片段与分词一一对应,则确定出的各个音频片段的音高特征也即是朗读文本中各个分词的音高特征。
112.例如,一个音频片段可以包括一个或者多个音频帧,服务器首先采用yin算法或pyin算法等提取到各个音频帧对应的音高特征,然后服务器将各个音频片段所包括的所有音频帧的音高特征的平均值,确定为各个音频片段的音高特征。
113.可选的,服务器可以先对各个音频帧中的无效基频进行过滤,再采用音高提取算法对过滤后的音频帧对应的音高特征进行提取。例如,该无效基频为0,或者该无效基频为超过预设范围的频率值。基于该方式,可以使得到的音高特征更为准确。
114.然后,服务器根据朗读文本中各个分词的音高特征,以及各个句子中所包括的分词,确定各个句子的分词平均音高,并根据各个句子的相邻分词之间的音高特征的变化确定各个句子的分词间音高变化。
115.具体地,各个句子的分词平均音高和分词间音高变化与目标对象在朗读各个句子时的情绪和/或节奏等相关。示例地,若目标对象以激情澎湃的情绪对某一句子进行朗读,则目标对象的音调高昂且抑扬明显,该句子的分词平均音高的数值较大,分词间音高变化的数值也较大;若目标对象以阴郁低沉的情绪对某一句子进行朗读,则目标对象的音调低沉且抑扬不明显,该句子的分词平均音高的数值较小,分词间音高变化的数值也较小。
116.在一种可能的实现方式中,各个句子对应的音强特征包括各个句子的分词间音强变化对应的向量;服务器根据各个音频片段的音强特征,确定朗读文本中各个句子对应的音强特征,包括:将各个音频片段的音强特征与朗读音频中噪声音强特征的差异,确定为朗
读文本中各个分词的音强特征;根据各个分词的音强特征,确定各个句子的分词间音强变化;根据各个句子的分词间音强变化,得到各个句子对应的音强特征。
117.其中,噪声音强特征可指示是稳态背景噪声的音强或非稳态背景噪声的音强等。例如,当噪声是稳态背景噪声时,服务器可以根据朗读文本中无基频文本对应的一个或多个音频片段(示例地,采用总持续时长为5s的多个音频片段)确定噪声音强特征。
118.在本技术实施例中,服务器可以先采用音强提取算法确定各个音频片段的音强特征以及噪声音强特征,例如该音强提取算法可以为均方根误差(root mean square error,rmse)算法、欧洲广播联盟建议书(european broadcasting union recommendation 128,ebu r 128)算法等等。然后,服务器将各个音频片段的音强特征与噪声音强特征的差异作为朗读文本中各个分词的音强特征,将朗读文本中各个句子中相邻分词之间的音强特征的变化确定为各个句子的分词间音强变化。
119.具体地,各个句子的分词间音强变化与目标对象在朗读各个句子时的情绪和/或节奏等相关。示例地,若目标对象以激情澎湃的情绪对某一句子进行朗读且节奏变化明显,则该句子的分词间音强变化的数值较大。
120.需要说明的是,上述音长特征、音高特征和音强特征的表现形式以及所包含的内容仅为举例,在具体实现时还可以有其余表现形式,例如可以表现为表、集合等;并且,还可以考虑多种发音单位得到上述特征,例如,在提取音长特征时,可以分别考虑字、词、句等多种单位对应的持续时长的特征。
121.并且,上述第一属性特征可以包括朗读音频的音长特征、音高特征和音强特征中的一项或者多项,或第一属性特征还可以包括朗读音频的其余声音属性特征,例如用于表征音色的特征(例如,表达音色的梅尔谱系数(mel-scale frequency cepstral coefficients,mfcc)、频谱滚降点等等。若各个特征均以向量方式表示,则可以采用不同的向量处理方式,将各个特征进行处理得到第一属性特征,例如将各个特征进行首尾拼接、组成向量矩阵、向量元素对应叠加等等。
122.s202、服务器由预先训练完成的匹配度预测模型处理第一属性特征和各个配乐的第二属性特征,得到朗读音频和各个配乐的匹配度;其中,第二属性特征包括配乐的节奏特征、情绪特征、音域特征和音调特征中的一项或者多项。
123.其中,配乐的节奏特征、情绪特征、音域特征和音调特征分别用于指示配乐所属的节奏类别、情绪类别、音域类别和音调类别。该节奏特征、情绪特征、音域特征和音调特征的表现形式可以为向量、表或集合等,本技术对此不作限定。
124.示例地,节奏特征、情绪特征、音域特征和音调特征可以是节奏类别、情绪类别、音域类别和音调类别对应的独热(one-hot)向量。若节奏类别、情绪类别、音域类别或音调类别包括i个子类别,则节奏特征、情绪特征、音域特征或音调特征可以表示为一个i维向量。当配乐所属的节奏类别、情绪类别、音域类别或音调类别为i个子类别中的目标子类别时,i维向量中目标子类别对应的向量元素可以取值为1,i维向量中其余子类别对应的向量元素取值为0。
125.例如,配乐所属的情绪类别分为“高昂”、“低沉”、“喜悦”、“悲伤”四个子类别,所属的节奏类别分为“中速”、“快速”两个子类别,所属的音域类别分为“高音”、“低音”、“中音”三个子类别,所属的音调类别分为“c大调”、“g大调”两子类别。当某一配乐所属的情绪类别
为“喜悦”、节奏类别为“快速”、音域类别为“中音”、音调类别为“c大调”时,该配乐的节奏特征、情绪特征、音域特征和音调特征分别为“0010”、“01”、“001”、“10”。
126.可选的,服务器可以先确定配乐所属的节奏类别、情绪类别、音域类别和音调类别,再根据配乐所属的节奏类别、情绪类别、音域类别和音调类别确定配乐的属性特征,为了与上述第一属性特征区分,可以将此处配乐的属性特征称为第二属性特征(如one-hot向量)。或者,服务器中预先存储有配乐的第二属性特征与配乐的标识的对应关系,服务器可以直接根据某一配乐的标识确定某一配乐的第二属性特征。
127.在本技术实施例中,由于第一属性特征与录制朗读音频时目标对象的情绪、节奏等相关,各个配乐的第二属性特征能反映各个配乐的情绪、节奏、音域、音调等属性,因此,当第一属性特征和第二属性特征输入预先训练完成的匹配度预测模型之后,匹配度预测模型可以根据第一属性特征与各个配乐的第二属性特征在情绪、节奏等方面的关联程度,得到朗读音频和各个配乐的匹配度。示例地,若目标对象的情绪、节奏等与配乐的情绪、节奏、音域、音调等越相似,则第一属性特征与第二属性特征的关联程度越强,朗读音频和配乐的匹配度越高;反之,若目标对象的情绪、节奏等与配乐的情绪、节奏、音域、音调等越不同,则第一属性特征与第二属性特征的关联程度越弱,朗读音频和配乐的匹配度越低。
128.示例地,上述匹配度预测模型可以是有监督的回归模型等,例如匹配度预测模型可以是支持向量回归模型(support vector regression,svr)、决策树、深度神经网络模型(deep neural network,dnn)等,本技术对此不做限定。并且,上述第一属性特征和第二属性特征可以以任意表示方式输入匹配度预测模型,例如,当第一属性特征和第二属性特征均为向量表示时,可以将两者进行拼接后输入匹配度预测模型,本技术对此不做限定。
129.可选的,上述第一属性特征还可以包括朗读音频对应的朗读文本的文本特征。该文本特征可以是预先存储在服务器中的,或是服务器对朗读文本实时处理得到的。
130.在一种可能的实现方式中,服务器基于匹配度预测模型处理第一属性特征与各个配乐的第二属性特征,得到朗读音频与各个配乐的匹配度,具体包括:基于朗读音频的音长特征、音高特征和音强特征中的一项或者多项与第二属性特征,得到第一匹配度;基于文本特征和第二属性特征,得到第二匹配度;根据第一匹配度和第二匹配度,得到朗读音频与各个配乐的匹配度。
131.其中,朗读文本的文本特征可指示朗读文本的属性信息,例如朗读文本的属性信息可以包括朗读文本的作者、分类、内容思想等属性,朗读文本的属性信息与朗读文本的情绪、场景等相关。
132.在该实现方式中,第一匹配度可指示朗读音频的属性信息(体现目标对象的声音表现等属性)与第二属性特征所指示的属性信息之间的匹配度;第二匹配度可指示朗读文本的属性信息与第二属性特征所指示的属性信息之间的匹配度。因此,结合第一匹配度和第二匹配度得到朗读音频与各个配乐的匹配度,该匹配度是从声音、文本两个方面共同反映朗读音频与各个配乐是否匹配,该匹配度的准确率更高。
133.需要说明的是,朗读音频与各个配乐的匹配度可以是第一匹配度和第二匹配度的平均值、加权平均值等等,本技术对此不作限定。
134.s203、服务器根据朗读音频和各个配乐的匹配度,进行配乐推荐。
135.在一种可能的实现方式中,服务器可以按照从匹配度由高至低的顺序,依次从各
个配乐中选择满足预设数量的配乐,得到推荐配乐列表;服务器将推荐配乐列表发送至客户端,以使客户端按照从匹配度由高至低的顺序,显示推荐配乐列表中的各个配乐。
136.示例地,该预设数量可以为单屏显示最大数量或超过预设阈值的数量等。例如,若单屏显示最大数量为7,且在所有配乐中匹配度最高的前七位配乐依次为歌曲a~歌曲g,则客户端可以显示如图4所示的界面,即按照匹配度由高至低排列显示歌曲a~歌曲g对应的名称以及下载控件。当目标对象点击歌曲a对应的下载控件401时,客户端可以下载歌曲a,并生成歌曲a与朗读音频叠加的作品以供目标对象进行试听。
137.可选的,服务器还可以将朗读音频和各个配乐的匹配度发送至客户端,以使客户端根据朗读音频和各个配乐的匹配度自行生成推荐配乐列表并进行显示。
138.基于图2所描述的实施例,由于第一属性特征所包含的各个特征可以反映在录制朗读音频时目标对象的音长、音高、音强等声音属性,这些声音属性通常与目标对象的情绪、节奏等相关,第二属性特征所包含的各个特征可以反映配乐的情绪、节奏、音域、音调等属性。因此,根据第一属性特征与第二属性特征来确定朗读音频和配乐的匹配度以及进行配乐推荐,推荐的配乐将更加契合目标对象所录制的朗读音频,从而使得推荐的配乐更具个性化,且推荐的配乐在与朗读音频叠加时,叠加效果更为和谐,有效提升叠加后配乐与朗读音频的听感。
139.上述实施例对本技术中的配乐推荐方法进行了介绍,下面对配乐推荐方法中匹配度预测模型的训练方法以及优化方法进行说明:
140.在一种可能的实现方式中,服务器获取朗读音频样本、配乐样本以及朗读音频样本和配乐样本的标注匹配度;获取朗读音频样本的属性特征以及配乐样本的属性特征;将朗读音频样本的属性特征以及配乐样本的属性特征输入初始匹配度预测模型,得到朗读音频样本和配乐样本的预测匹配度;以缩小标注匹配度和预测匹配度的差异为训练目标,对初始匹配度预测模型进行训练,得到训练完成的匹配度预测模型;匹配度预测模型用于预测输入的朗读音频与输入的各个配乐之间的匹配度。
141.其中,朗读音频样本可以是历史时间内由不同对象朗读得到的音频,配乐样本为这些对象在发布朗读音频样本之前选择的配乐。配乐样本可以是这些对象手动搜索配乐库后选择的,或者是这些对象根据客户端显示的推荐配乐集选择的。
142.标注匹配度用于指示朗读音频样本和配乐样本的匹配程度,例如标注匹配度可以为区间[0,1]中的任一数值,且标注匹配度的数值越大表明朗读音频样本和配乐样本越匹配。
[0143]
可选的,标注匹配度可以是根据经验值得到的,或是根据相关的行为数据转化得到的、或是根据朗读音频样本的发音参考文本与配乐样本的匹配度得到的。例如,针对由朗读音频样本和配乐样本叠加构成的训练作品,服务器可以获取针对训练作品的历史反馈行为数据,对历史反馈行为数据进行标准化处理,得到标注匹配度。该历史反馈行为数据包括针对训练作品中配乐样本的满意度(示例性的,通过弹窗的形式,接收对象对配乐样本的满意度的评级)、发布训练作品的概率、针对已发布的训练作品的互动次数(示例性的,互动次数可以包括点赞次数、收听次数、分享次数等)中的一项或者多项。可选的,当针对训练作品中配乐样本的满意度越高、或发布训练作品的概率越高、或针对已发布的训练作品的互动次数越多时,标注匹配度的数值越大。
[0144]
又如,针对朗读音频样本,服务器可以获得朗读音频样本对应的发音参考文本,然后对该发音参考文本进行分析,得到该发音参考文本与配乐样本的匹配度,将该发音参考文本与配乐样本的匹配度作为朗读音频样本与配乐样本的标注匹配度。
[0145]
可选的,本技术中的朗读音频样本和配乐样本的数量可为多个,且多个朗读音频样本可以覆盖到不同声音属性、不同朗读方式等,多个配乐样本可以覆盖到不同配乐属性。通过这种方式,可以使得样本更具多样性,有利于避免匹配度预测模型训练过程中的过拟合现象,使匹配度预测模型的训练效果更好,训练得到的匹配度预测模型能够输出更为准确的匹配度。
[0146]
以图5为例,对根据朗读音频样本和配乐样本,得到匹配度预测模型的过程进行说明:如图5所示,服务器首先获取朗读音频样本的属性特征,例如服务器获取到朗读音频样本的音长特征、音高特征和音强特征;且服务器获取配乐样本的属性特征,例如,服务器获取到配乐样本的节奏特征、情绪特征、音域特征和音调特征;若朗读音频样本的属性特征和配乐样本的属性特征均为向量表示,则服务器可以将其进行向量拼接,得到音频配乐表征向量;接着服务器将音频配乐表征向量输入初始匹配度预测模型,得到预测匹配度;然后服务器通过使预测匹配度拟合标注匹配度,可以得到训练完成的初始匹配度预测模型,也即是匹配度预测模型,该匹配度预测模型可用于得到朗读音频和各个配乐的匹配度;例如服务器通过均方误差(mean square error,mse)来构建用于表征预测匹配度和标注匹配度之间差异的损失函数,通过损失函数以及反向传播算法更新初始匹配度预测模型中的参数,当损失函数的数值小于预设阈值时,初始匹配度预测模型收敛(相当于初始匹配度预测模型训练完成,初始匹配度预测模型中的参数已确定),收敛的初始匹配度预测模型也即是得本技术在配乐推荐方法中使用到的匹配度预测模型。
[0147]
在一种可能的实现方式中,服务器还可以在使用匹配度预测模型的过程中,对匹配度预测模型进行优化:获取针对目标作品的目标反馈行为数据,目标作品由朗读音频和目标配乐叠加得到,基于目标反馈行为数据,得到朗读音频和目标配乐的标注匹配度;基于朗读音频和目标配乐的标注匹配度,对匹配度预测模型进行优化。
[0148]
在本技术实施例中,目标配乐是目标对象根据配乐推荐选择的配乐,例如目标配乐可以是目标对象在推荐配乐列表中选择的匹配度最高的配乐。由于目标对象在选择了目标配乐之后,有可能发布由目标配乐和朗读音频叠加得到的目标作品,或若目标对象发布了目标作品,则其余对象可以对目标作品进行点赞、分享、评论等操作,因此本技术可以收集这些数据等,得到目标配乐和朗读音频的标注匹配度,目标配乐和朗读音频的标注匹配度可以用于对匹配度预测模型进行进一步优化,且优化后的匹配度预测模型可用于后续的配乐推荐场景中,提高配乐推荐的准确率。
[0149]
请参见图6,图6是本技术实施例提供的一种通信装置的结构示意图,该通信装置包括获取模块601、处理模块602。其中:
[0150]
在一个实施例中,该通信装置可用于执行配乐推荐方法,用于执行配乐推荐方法的通信状态可称为配乐推荐装置,其中:
[0151]
所述获取模块601,用于获取朗读音频的第一属性特征,所述朗读音频基于目标对象的语音录制而成,所述第一属性特征包括音长特征、音高特征和音强特征中的一项或者多项;所述音长特征、所述音高特征和所述音强特征分别用于指示所述目标对象的音长、音
高、音强;
[0152]
所述处理模块602,用于由预先训练完成的匹配度预测模型处理所述第一属性特征与各个配乐的第二属性特征,得到所述朗读音频与所述各个配乐的匹配度;其中,所述第二属性特征包括所述配乐的节奏特征、情绪特征、音域特征和音调特征中的一项或者多项;
[0153]
所述处理模块602,用于根据所述朗读音频与所述各个配乐的匹配度,进行配乐推荐;。
[0154]
在一种可能的实现方式中,所述获取模块601在获取朗读音频的第一属性特征时,具体用于:
[0155]
通过所述处理模块602根据所述朗读音频对应的朗读文本,确定所述朗读音频包括的多个音频片段,其中,所述朗读文本是用于录制所述朗读音频的发音参考文本,一个音频片段与所述朗读文本中的一个分词对应;
[0156]
通过所述处理模块602根据所述多个音频片段,得到所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项。
[0157]
在一种可能的实现方式中,所述获取模块601在根据所述朗读音频对应的朗读文本,确定所述朗读音频包括的多个音频片段时,具体用于:
[0158]
通过所述处理模块602对所述朗读音频进行语音识别,得到识别文本;
[0159]
通过所述处理模块602以分词为单位,将所述识别文本中的各个分词与所述朗读音频的朗读文本中相对应的分词进行对齐;
[0160]
通过所述处理模块602根据所述识别文本和所述朗读文本的对齐结果,确定所述朗读音频包括的多个音频片段。
[0161]
在一种可能的实现方式中,所述处理模块602,在根据所述多个音频片段,得到所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项时,具体用于:
[0162]
获取各个所述音频片段的音长特征、音高特征和音强特征中的一项或者多项;
[0163]
根据各个所述音频片段的音长特征、音高特征和音强特征中的一项或者多项,确定所述朗读文本中各个句子对应的音长特征、音高特征和音强特征中的一项或者多项;
[0164]
将所述各个句子对应的音长特征的平均值、音高特征的平均值和音强特征的平均值中的一项或者多项,确定为所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项。
[0165]
在一种可能的实现方式中,所述处理模块602,在根据各个所述音频片段的音长特征,确定所述朗读文本中各个句子对应的音长特征时,具体用于:
[0166]
将各个所述音频片段的音长特征确定为所述朗读文本中各个分词的音长特征;
[0167]
根据所述各个分词的音长特征,确定所述各个句子的句长、分词平均时长和分词时长方差;
[0168]
根据所述各个句子的句长、分词平均时长和分词时长方差,得到所述各个句子对应的音长特征。
[0169]
在一种可能的实现方式中,所述处理模块602,在根据各个所述音频片段的音高特征,确定所述朗读文本中各个句子对应的音高特征时,具体用于:
[0170]
将各个所述音频片段的音高特征确定为所述朗读文本中各个分词的音高特征;
[0171]
根据所述各个分词的音高特征,确定所述各个句子的分词平均音高和分词间音高
变化;
[0172]
根据所述各个句子的分词平均音高和分词间音高变化,得到所述各个句子对应的音高特征。
[0173]
在一种可能的实现方式中,所述处理模块602,在根据各个所述音频片段的音强特征,确定所述朗读文本中各个句子对应的音强特征时,具体用于:
[0174]
将各个所述音频片段的音强特征与所述朗读音频中噪声音强特征的差异,确定为所述朗读文本中各个分词的音强特征;
[0175]
根据所述各个分词的音强特征,确定所述各个句子的分词间音强变化;
[0176]
根据所述各个句子的分词间音强变化,得到所述各个句子对应的音强特征。
[0177]
在一种可能的实现方式中,所述第一属性特征还包括所述朗读音频对应的朗读文本的文本特征;所述处理模块602在由预先训练完成的匹配度预测模型处理所述第一属性特征与各个配乐的第二属性特征,得到所述朗读音频与所述各个配乐的匹配度时,具体用于:
[0178]
由所述预先训练完成的匹配度预测模型基于所述音长特征、所述音高特征和所述音强特征中的一项或者多项与所述第二属性特征,得到第一匹配度;
[0179]
由所述匹配度预测模型基于所述文本特征和所述第二属性特征,得到第二匹配度;
[0180]
根据所述第一匹配度和所述第二匹配度,得到所述朗读音频与所述各个配乐的匹配度。
[0181]
在一个实施例中,该通信装置可用于执行匹配度预测模型的训练方法,用于执行该训练方法的装置可称为匹配度预测模型的训练装置,其中:
[0182]
所述获取模块601,用于:获取朗读音频样本、配乐样本以及所述朗读音频样本和所述配乐样本的标注匹配度;获取所述朗读音频样本的属性特征以及所述配乐样本的属性特征;
[0183]
所述处理模块602,用于将所述朗读音频样本的属性特征以及所述配乐样本的属性特征输入初始匹配度预测模型,得到所述朗读音频样本和所述配乐样本的预测匹配度;以缩小所述标注匹配度和所述预测匹配度的差异为训练目标,对所述初始匹配度预测模型进行训练,得到训练完成的匹配度预测模型;其中,所述匹配度预测模型用于预测输入的朗读音频与输入的各个配乐之间的匹配度。
[0184]
在一种可能的实现方式中,所述获取模块601,还用于获取针对训练作品的历史反馈行为数据,所述训练作品由所述朗读音频样本和所述配乐样本叠加得到,所述历史反馈行为数据包括针对所述训练作品中所述配乐样本的满意度、发布所述训练作品的概率、针对已发布的所述训练作品的互动次数中的一项或者多项;
[0185]
所述处理模块602,还用于对所述历史反馈行为数据进行标准化处理,得到所述标注匹配度。
[0186]
在一种可能的实现方式中,所述获取模块601,还用于获取针对目标作品的目标反馈行为数据,所述目标作品由朗读音频和目标配乐叠加得到,所述目标配乐是从配乐推荐中选择的配乐,所述配乐推荐基于各个配乐与所述朗读音频的匹配度生成;
[0187]
所述处理模块602,还用于:基于所述目标反馈行为数据,得到所述朗读音频和所
述目标配乐的标注匹配度;基于所述朗读音频和所述目标配乐的标注匹配度,对所述匹配度预测模型进行优化。
[0188]
需要说明的是,本技术实施例的通信装置的各模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程及有益效果可以参照上述方法实施例的相关描述,在此不作赘述。
[0189]
请参见图7,图7是本技术实施例提供的一种电子设备的结构示意图。该电子设备可以为上述方法实施例中的服务器或客户端,且该电子设备可以包括:一个或多个处理器701、存储器702。可选的,电子设备还可以包括收发器703。上述处理器701、存储器702和收发器703可以通过总线704连接。存储器702用于存储计算机程序,该计算机程序包括程序指令。
[0190]
在一个实施例中,处理器701通过运行存储器702中存储的程序指令,执行如下操作:
[0191]
获取朗读音频的第一属性特征,所述朗读音频基于目标对象的语音录制而成,所述第一属性特征包括音长特征、音高特征和音强特征中的一项或者多项;所述音长特征、所述音高特征和所述音强特征分别用于指示所述目标对象的音长、音高、音强;
[0192]
由预先训练完成的匹配度预测模型处理所述第一属性特征与各个配乐的第二属性特征,得到所述朗读音频与所述各个配乐的匹配度;其中,所述第二属性特征包括所述配乐的节奏特征、情绪特征、音域特征和音调特征中的一项或者多项;
[0193]
根据所述朗读音频与所述各个配乐的匹配度,进行配乐推荐。
[0194]
在一种可能的实现方式中,所述处理器701在获取朗读音频的第一属性特征时,具体执行如下操作:
[0195]
根据所述朗读音频对应的朗读文本,确定所述朗读音频包括的多个音频片段,其中,所述朗读文本是用于录制所述朗读音频的发音参考文本,一个音频片段与所述朗读文本中的一个分词对应;
[0196]
根据所述多个音频片段,得到所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项。
[0197]
在一种可能的实现方式中,所述处理器701在根据所述朗读音频对应的朗读文本,确定所述朗读音频包括的多个音频片段时,具体执行如下操作:
[0198]
对所述朗读音频进行语音识别,得到识别文本;
[0199]
以分词为单位,将所述识别文本中的各个分词与所述朗读音频的朗读文本中相对应的分词进行对齐;
[0200]
根据所述识别文本和所述朗读文本的对齐结果,确定所述朗读音频包括的多个音频片段。
[0201]
在一种可能的实现方式中,所述处理器701在根据所述多个音频片段,得到所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项时,具体执行如下操作:
[0202]
获取各个所述音频片段的音长特征、音高特征和音强特征中的一项或者多项;
[0203]
根据各个所述音频片段的音长特征、音高特征和音强特征中的一项或者多项,确定所述朗读文本中各个句子对应的音长特征、音高特征和音强特征中的一项或者多项;
[0204]
将所述各个句子对应的音长特征的平均值、音高特征的平均值和音强特征的平均
值中的一项或者多项,确定为所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项。
[0205]
在一种可能的实现方式中,所述处理器701在根据各个所述音频片段的音长特征,确定所述朗读文本中各个句子对应的音长特征时,具体执行如下操作:
[0206]
将各个所述音频片段的音长特征确定为所述朗读文本中各个分词的音长特征;
[0207]
根据所述各个分词的音长特征,确定所述各个句子的句长、分词平均时长和分词时长方差;
[0208]
根据所述各个句子的句长、分词平均时长和分词时长方差,得到所述各个句子对应的音长特征。
[0209]
在一种可能的实现方式中,所述处理器701,在根据各个所述音频片段的音高特征,确定所述朗读文本中各个句子对应的音高特征时,具体执行如下操作:
[0210]
将各个所述音频片段的音高特征确定为所述朗读文本中各个分词的音高特征;
[0211]
根据所述各个分词的音高特征,确定所述各个句子的分词平均音高和分词间音高变化;
[0212]
根据所述各个句子的分词平均音高和分词间音高变化,得到所述各个句子对应的音高特征。
[0213]
在一种可能的实现方式中,所述处理器701在根据各个所述音频片段的音强特征,确定所述朗读文本中各个句子对应的音强特征时,具体执行如下操作:
[0214]
将各个所述音频片段的音强特征与所述朗读音频中噪声音强特征的差异,确定为所述朗读文本中各个分词的音强特征;
[0215]
根据所述各个分词的音强特征,确定所述各个句子的分词间音强变化;
[0216]
根据所述各个句子的分词间音强变化,得到所述各个句子对应的音强特征。
[0217]
在一种可能的实现方式中,所述第一属性特征还包括所述朗读音频对应的朗读文本的文本特征;
[0218]
所述处理器701在由预先训练完成的匹配度预测模型处理所述第一属性特征与各个配乐的第二属性特征,得到所述朗读音频与所述各个配乐的匹配度时,具体执行如下操作:
[0219]
由所述预先训练完成的匹配度预测模型基于所述音长特征、所述音高特征和所述音强特征中的一项或者多项与所述第二属性特征,得到第一匹配度;
[0220]
由所述匹配度预测模型基于所述文本特征和所述第二属性特征,得到第二匹配度;
[0221]
根据所述第一匹配度和所述第二匹配度,得到所述朗读音频与所述各个配乐的匹配度。
[0222]
在另一个实施例中,处理器701通过运行存储器702中存储的程序指令,执行如下操作:
[0223]
获取朗读音频样本、配乐样本以及所述朗读音频样本和所述配乐样本的标注匹配度;
[0224]
获取所述朗读音频样本的属性特征以及所述配乐样本的属性特征;
[0225]
将所述朗读音频样本的属性特征以及所述配乐样本的属性特征输入初始匹配度
预测模型,得到所述朗读音频样本和所述配乐样本的预测匹配度;
[0226]
以缩小所述标注匹配度和所述预测匹配度的差异为训练目标,对所述初始匹配度预测模型进行训练,得到训练完成的匹配度预测模型;其中,所述匹配度预测模型用于预测输入的朗读音频与输入的各个配乐之间的匹配度。
[0227]
在一种可能的实现方式中,所述处理器701还执行如下操作:
[0228]
获取针对训练作品的历史反馈行为数据,所述训练作品由所述朗读音频样本和所述配乐样本叠加得到,所述历史反馈行为数据包括针对所述训练作品中所述配乐样本的满意度、发布所述训练作品的概率、针对已发布的所述训练作品的互动次数中的一项或者多项;
[0229]
对所述历史反馈行为数据进行标准化处理,得到所述标注匹配度。
[0230]
在一种可能的实现方式中,所述处理器701还执行如下操作:
[0231]
获取针对目标作品的目标反馈行为数据,所述目标作品由朗读音频和目标配乐叠加得到,所述目标配乐是从配乐推荐中选择的配乐,所述配乐推荐基于各个配乐与所述朗读音频的匹配度生成;
[0232]
基于所述目标反馈行为数据,得到所述朗读音频和所述目标配乐的标注匹配度;
[0233]
基于所述朗读音频和所述目标配乐的标注匹配度,对所述匹配度预测模型进行优化。
[0234]
应当理解,在一些可行的实施方式中,上述处理器701可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器702可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器702的一部分还可以包括非易失性随机存取存储器。例如,存储器702还可以存储设备类型的信息。
[0235]
具体实现中,上述电子设备的具体实现过程及有益效果可参见上述方法实施例的具体内容,在此不再赘述。
[0236]
本技术实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的配乐推荐装置所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行上述方法实施例中的内容,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。作为示例,程序指令可以被部署在一个电子设备上,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行,分布在多个地点且通过通信网络互连的多个电子设备可以组成区块链系统。
[0237]
根据本技术的一个方面,还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,包括程序指令。电子设备的处理器从计算机可读存储介质读取该程序指令,处理器执行该程序指令,使得该电子设备可以执行上述方法实施例中的内容,因此,在此不再进行赘述。
[0238]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0239]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种配乐推荐方法,其特征在于,所述方法包括:获取朗读音频的第一属性特征,所述朗读音频基于目标对象的语音录制而成,所述第一属性特征包括音长特征、音高特征和音强特征中的一项或者多项;由预先训练完成的匹配度预测模型处理所述第一属性特征与各个配乐的第二属性特征,得到所述朗读音频与所述各个配乐的匹配度;其中,所述第二属性特征包括所述配乐的节奏特征、情绪特征、音域特征和音调特征中的一项或者多项;根据所述朗读音频与所述各个配乐的匹配度,进行配乐推荐。2.根据权利要求1所述的方法,其特征在于,所述获取朗读音频的第一属性特征,包括:根据所述朗读音频对应的朗读文本,确定所述朗读音频包括的多个音频片段,其中,所述朗读文本是用于录制所述朗读音频的发音参考文本,一个音频片段与所述朗读文本中的一个分词对应;根据所述多个音频片段,得到所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项。3.根据权利要求2所述的方法,其特征在于,所述根据所述朗读音频对应的朗读文本,确定所述朗读音频包括的多个音频片段,包括:对所述朗读音频进行语音识别,得到识别文本;以分词为单位,将所述识别文本中的各个分词与所述朗读音频的朗读文本中相对应的分词进行对齐;根据所述识别文本和所述朗读文本的对齐结果,确定所述朗读音频包括的多个音频片段。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述多个音频片段,得到所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项,包括:获取各个所述音频片段的音长特征、音高特征和音强特征中的一项或者多项;根据各个所述音频片段的音长特征、音高特征和音强特征中的一项或者多项,确定所述朗读文本中各个句子对应的音长特征、音高特征和音强特征中的一项或者多项;将所述各个句子对应的音长特征的平均值、音高特征的平均值和音强特征的平均值中的一项或者多项,确定为所述朗读音频的音长特征、音高特征和音强特征中的一项或者多项。5.根据权利要求4所述的方法,其特征在于,根据各个所述音频片段的音长特征,确定所述朗读文本中各个句子对应的音长特征,包括:将各个所述音频片段的音长特征确定为所述朗读文本中各个分词的音长特征;根据所述各个分词的音长特征,确定所述各个句子的句长、分词平均时长和分词时长方差;根据所述各个句子的句长、分词平均时长和分词时长方差,得到所述各个句子对应的音长特征。6.根据权利要求4所述的方法,其特征在于,根据各个所述音频片段的音高特征,确定所述朗读文本中各个句子对应的音高特征,包括:将各个所述音频片段的音高特征确定为所述朗读文本中各个分词的音高特征;根据所述各个分词的音高特征,确定所述各个句子的分词平均音高和分词间音高变
化;根据所述各个句子的分词平均音高和分词间音高变化,得到所述各个句子对应的音高特征。7.根据权利要求4所述的方法,其特征在于,根据各个所述音频片段的音强特征,确定所述朗读文本中各个句子对应的音强特征,包括:将各个所述音频片段的音强特征与所述朗读音频中噪声音强特征的差异,确定为所述朗读文本中各个分词的音强特征;根据所述各个分词的音强特征,确定所述各个句子的分词间音强变化;根据所述各个句子的分词间音强变化,得到所述各个句子对应的音强特征。8.根据权利要求1-3中任一项所述的方法,其特征在于,所述第一属性特征还包括所述朗读音频对应的朗读文本的文本特征;所述由预先训练完成的匹配度预测模型处理所述第一属性特征与各个配乐的第二属性特征,得到所述朗读音频与所述各个配乐的匹配度,包括:由所述预先训练完成的匹配度预测模型基于所述音长特征、所述音高特征和所述音强特征中的一项或者多项与所述第二属性特征,得到第一匹配度;由所述匹配度预测模型基于所述文本特征和所述第二属性特征,得到第二匹配度;根据所述第一匹配度和所述第二匹配度,得到所述朗读音频与所述各个配乐的匹配度。9.一种匹配度预测模型的训练方法,其特征在于,所述方法包括:获取朗读音频样本、配乐样本以及所述朗读音频样本和所述配乐样本的标注匹配度;获取所述朗读音频样本的属性特征以及所述配乐样本的属性特征;将所述朗读音频样本的属性特征以及所述配乐样本的属性特征输入初始匹配度预测模型,得到所述朗读音频样本和所述配乐样本的预测匹配度;以缩小所述标注匹配度和所述预测匹配度的差异为训练目标,对所述初始匹配度预测模型进行训练,得到训练完成的匹配度预测模型;其中,所述匹配度预测模型用于预测输入的朗读音频与输入的各个配乐之间的匹配度。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:获取针对训练作品的历史反馈行为数据,所述训练作品由所述朗读音频样本和所述配乐样本叠加得到,所述历史反馈行为数据包括针对所述训练作品中所述配乐样本的满意度、发布所述训练作品的概率、针对已发布的所述训练作品的互动次数中的一项或者多项;对所述历史反馈行为数据进行标准化处理,得到所述标注匹配度。11.根据权利要求9所述的方法,其特征在于,所述方法还包括:获取针对目标作品的目标反馈行为数据,所述目标作品由朗读音频和目标配乐叠加得到,所述目标配乐是从配乐推荐中选择的配乐,所述配乐推荐基于各个配乐与所述朗读音频的匹配度生成;基于所述目标反馈行为数据,得到所述朗读音频和所述目标配乐的标注匹配度;基于所述朗读音频和所述目标配乐的标注匹配度,对所述匹配度预测模型进行优化。12.一种电子设备,其特征在于,所述电子设备包括存储器,处理器;所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于从所述存储器调用所述程序指令,使得所述电子设备执行如权利要求1-8或权利要求9-11中任意一项所述的方法。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,当所述程序指令被处理器执行时,使得所述处理器执行如权利要求1-8或权利要求9-11中任一项所述的方法。
技术总结
本申请实施例公开了一种配乐推荐方法、模型的训练方法、设备及存储介质,其中方法包括:获取朗读音频的第一属性特征,第一属性特征包括音长特征、音高特征和音强特征中的一项或者多项;由预先训练完成的匹配度预测模型处理第一属性特征与各个配乐的第二属性特征,得到朗读音频与各个配乐的匹配度;其中,第二属性特征包括配乐的节奏特征、情绪特征、音域特征和音调特征中的一项或者多项;根据朗读音频与所述各个配乐的匹配度,进行配乐推荐。本申请可以使推荐的配乐更具个性化,且使推荐的配乐在与朗读音频叠加时,叠加效果更为和谐。叠加效果更为和谐。叠加效果更为和谐。
技术研发人员:江益靓 姜涛 孔令城 赵伟峰
受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司
技术研发日:2023.04.26
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/