音频处理方法及相关设备与流程

未命名 10-08 阅读:101 评论:0


1.本技术实施例涉及音频技术领域,尤其涉及音频处理方法及相关设备。


背景技术:

2.如今,越来越多的听众青睐全景声的播放质感。全景声又称为空间音频,相比于左右声道的立体声,在听感上具有空间环绕感,不仅能极大程度地提升用户的听觉体验,同时可为音乐流媒体提供更多的创作可能性。
3.目前,市场上大多数的音频都以传统双声道的立体声形式进行录制,已完成立体声模板发行的音频需人工制作才能制成空间音频,且制作过程中对监听环境也有着极高的要求,这导致全景声的制作耗时长且昂贵。
4.针对于此,有必要提供有效的解决方案。


技术实现要素:

5.本技术实施例提供了音频处理方法及相关设备,用于提高立体音频的全景听音效果。
6.本技术实施例第一方面提供一种音频处理方法,包括:
7.获取待调音频中各声源信号对应的初始方位参数,及所述待调音频的节拍信息;
8.基于所述节拍信息确定不同声源信号的移动参数;
9.根据所述移动参数和各预设方位差相应变更各所述初始方位参数,以得到各所述声源信号处于目标方位时的空间音频,所述方位差为所述目标方位和所述初始方位之间的位置差。
10.可选地,所述节拍信息包含音频的bpm信息和拍号信息;所述基于所述节拍信息确定不同声源信号的移动参数,包括:
11.根据bpm信息和拍号信息之间的比例关系,计算所述待调音频中每一个小节对应的时间长度;
12.通过所述时间长度和预设的声源移动速度,计算各所述声源信号从所述初始方位运动到所述目标方位期间的移动时长;
13.根据所述移动时长确定所述期间的方位更新次数,并将所述方位更新次数作为所述移动参数。
14.可选地,所述根据所述移动参数和各预设方位差相应变更各所述初始方位参数,包括:
15.根据各所述预设方位差和所述方位更新次数之间的比例关系,计算各所述初始方位参数每次变动时的方位更新步长;
16.对于每一所述声源信号,从所述初始方位对应的起始时刻起,每间隔一时间步长则相应更新所述初始方位参数,直至所述声源信号由所述初始方位运动至所述目标方位;其中,所述起始时刻根据所述拍号信息确定。
17.可选地,所述起始时刻的确定过程,包括:
18.将所述起始时刻对齐在所述待调音频的整小节时间点,且所述起始时刻与所述待调音频的结尾时间点之间的距离大于等于所述移动时长。
19.可选地,根据所述移动参数和各预设方位差相应变更各所述初始方位参数之前,所述方法还包括:
20.通过神经网络算法从所述待调音频中分离出各所述声源信号;
21.对至少一路所述声源信号进行声场展宽处理,所述声场展宽处理包含在所述声源信号的预设节段处拼接复制版的所述声源信号;
22.基于各所述声源信号在所述待调音频中所占的原响度比,对每一所述每一声源信号进行响度缩放;
23.对响度缩放后的所述声源信号进行频率补偿;
24.按各所述声源信号在所述待调音频中的原消散时间确定各所述声源之间的信号权重,并根据所述信号权重对频率补偿后的所有声源信号进行混响处理,以制得混响信号;
25.将所述所有声源信号分别对应的方位参数,作为所述初始方位参数。
26.可选地,根据所述信号权重对频率补偿后的所有声源信号进行混响处理之后,根据所述移动参数和各预设方位差相应变更各所述初始方位参数之前,所述方法还包括:
27.对所述混响信号和所述所有声源信号进行方位初调制,以制得符合预设摆位的初调立体声;
28.将所述初调立体声中各声源信号对应的方位参数作为所述初始方位参数。
29.可选地,所述声源信号包含乐器信号、人声信号和混响信号;所述对所述混响信号和所述所有声源信号进行方位初调制,包括:
30.以听音位置为基点,相对设置所述乐器信号和所述混响信号之间的播音位置,并将人声信号调制在所述听音位置的周围。
31.可选地,所述方法还包括:
32.对所述初始方位变更后的各声源信号进行叠加和响度缩放,以制得各声源信号的失真率符合预设失真范围的空间音频。
33.本技术实施例第二方面提供一种电子设备,包括:
34.中央处理器,存储器以及输入输出接口;
35.所述存储器为短暂存储存储器或持久存储存储器;
36.所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行本技术实施例第一方面或第一方面的任一具体实现方式所描述的方法。
37.本技术实施例第三方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本技术实施例第一方面或第一方面的任一具体实现方式所描述的方法。
38.本技术实施例第四方面提供一种包含指令或计算机程序的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如本技术实施例第一方面或第一方面的任一具体实现方式所描述的方法。
39.从以上技术方案可以看出,本技术实施例至少具有以下优点:
40.本技术实施例能根据音频的节拍信息,自动化地调整声源信号的播放位置,促使
不同音频的乐感信息得到留存的同时,都能类人工效果的相应增强音频在整体听感上的空间环绕感,大大节省对空间音频的制作成本;此外,本方法的实施能为听众提供经久不断的立体听音效果,增强用户听觉体验,避免如传统般只能片刻式地产生听感上的全景声沉浸感。
附图说明
41.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
42.需要说明的是,虽然各实施例所涉及的流程性示意图(若存在)中各个步骤按照箭头的指示依次绘制,但除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
43.图1为本技术实施例方法的一个系统架构示意图;
44.图2为本技术实施例方法的一个流程示意图;
45.图3为本技术实施例方法的另一流程示意图;
46.图4为本技术实施例方法的另一流程示意图;
47.图5为本技术实施例方法的一个方位调制示意图;
48.图6为本技术实施例方法的另一方位调制示意图;
49.图7为本技术实施例电子设备的一个结构示意图。
具体实施方式
50.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
51.本技术的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
52.在以下的描述中,涉及到“一个具体实施方式”或“一个具体示例”等类似表达,其描述了所有可能实施例的子集,但是可以理解,“一个具体实施方式”或“一个具体示例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,涉及到的术语多个是指至少两个。本技术所说的某数值达到阈值(如果存在),在一些具体示例中,可包括前者大于阈值后者的情况;若提及“任意”或“至少一”等类似表
述,具体可指所列举示例中的任一种示例或这些示例之间的任意组合。
53.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
54.为便于理解和说明,在对本技术做进一步的详细说明之前,将对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
55.mir(music information retrieval):音乐信息检索,可包含bpm信和拍号信息。
56.bpm(beat perminute),顾名思义就是一分钟里歌曲拍子的总数,可表达歌曲的速度即拍速。
57.vad(voiceactivity detection):语音活动检测,是一项用于语音处理的技术,目的是检测某语音信号是否存在。
58.本技术实施例提供的音频处理方法,可以应用于如图1所示的应用环境,本技术的音频具体可以含有干声的歌曲(包括无伴奏的纯人声作品)为例,当然该音频也可以不含有干声(干声即人声)。其中,终端102通过网络与服务器101进行通信,数据存储系统100可以存储服务器101需要处理的数据;数据存储系统100可以集成在服务器101上,也可以放在云上或其他网络服务器上。终端102可以获取用户输入的待调音频,并将该待调音频发送至服务器101,服务器101可以基于得到的待调音频获得各声源信号对应的初始方位参数、待调音频的节拍信息(或称为mir信息),并确定声源信号的移动参数,当然,此初始方位参数和mir信息也可由终端102获得后传送给服务器101;之后,服务器101可根据移动参数和各预设方位差改变各声源对象的空间方位,以调制得符合用户播放需求的全景声。
59.上述终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器101可以用独立的服务器或者是多个服务器组成的服务器集群来实现。需要说明的是,本技术实施例提供的方法可如上述由终端设备和服务器共同实现,也可以全部在服务器侧实现,或还可以全部在终端设备侧实现,具体可根据实际应用场景确定,此处不做限制。
60.下面将对本技术的方法做进一步的详细说明。
61.请参阅图2,本技术第一方面提供音频处理方法的一个具体实施例,该实施例包括如下操作步骤:
62.21、获取待调音频信号对应的初始方位参数和节拍信息。
63.获取待调音频中各声源信号对应的初始方位参数,及待调音频的节拍信息。实际应用中,声源信号包括但不限于是人声(vocal)、鼓(drum)、贝斯(bass)、钢琴(piano)和吉他(guitar)等中的至少一种声源对象;声源信号对应的方位可理解为点声源对象在虚拟空间中的点位,如坐标(azimuth,elevation,radius),即名为方位角azimuth、高度elevation、半径radius的三个方位参数可控制或表达声源(如钢琴等乐器)的方位信息;上述初始方位参数和节拍信息之间的获得顺序可以不限。
64.上述音频的节拍信息可理解为mir信息,具体可以是歌曲的bpm信息及如4/4拍的拍号(time signature);当然,上述音频也可以是除歌曲之外带有节拍特点的其他音频作品,如纯人声的哼唱作品。
65.22、基于节拍信息确定不同声源信号的移动参数。
66.为营造出空间环绕感的听觉效果,可基于待调音频的节拍信息,确定声源信号预发生方位变动的移动参数,该移动参数可调控声源信号由初始方位运动到目标方位。
67.23、根据移动参数和各预设方位差变更各初始方位参数,以制得空间音频。
68.全景声,相对于传统的双声道立体声具有更多的播放声道,可视为空间听感更强的一种立体声,能偏重声音在更多不同位置的重现,类似多个不同音箱配置在不同的位置所形成的物理环绕,能虚拟地形成类似的沉浸环绕效果。
69.具体的,可根据移动参数和各预设方位差相应变更各初始方位参数,以得到各声源信号处于目标方位时的空间音频,其中,方位差为目标方位和初始方位之间的位置差。上述目标方位可由用户的实际经验自行确定,可由乐理经验和听音经验综合分析得鼓声、贝斯声在某曲中的最佳空间摆位,如一般的,根据人耳等响曲线可知,人耳对于低频的敏感度最差,主要频段在低频的乐器为确保其在音乐作品中的听感体积足够大,则在这个频段的乐器可根据其频率特性使其“听起来更大”,以使得整首歌曲达到频率上的平衡。
70.综上,本技术实施例能根据音频的节拍信息,自动化地调整声源信号的播放位置,促使不同音频的乐感信息得到留存的同时,都能类人工效果的相应增强音频在整体听感上的空间环绕感,大大节省对空间音频的制作成本;此外,本方法的实施能为听众提供经久不断的立体听音效果,增强用户听觉体验,避免如传统般只能片刻式地产生听感上的全景声沉浸感。
71.在上述示例说明的基础上,下面将提供一些具体的可能实施示例,实际应用中,这些示例之间的实施内容可根据相应的功能原理和应用逻辑由需地结合实施。
72.请参阅图3至图6,本技术提供音频处理方法的另一具体实施例,该实施例包括如下操作步骤:
73.30、分离出声源信号进行预处理。
74.在一些具体示例中,可以对原始音频进行声源分离、预处理分离出的声源信号;相应的,如图4所示,步骤30具体可包含下述(一)、(二)的操作过程:
75.(一)声源分离。
76.通过神经网络算法从待调音频中分离出各声源信号。例如,可将原始立体音频(如原曲)的左右声道输入神经网络算法,通过该神经网络算法可从该待调音频中分离出各声源信号,如人声、吉他、钢琴、贝司等多种常见声源对象的信号,当然还可以是其他(other)未示例出的声源对象如琵琶、古筝。
77.作为一种可能的实施方式,可以计算出分离出的多路声源信号在原始立体音频中的原响度比(即音量比),以便后期对各声源信号进行响度缩放,以期保留、还原各路声源信号在原始作品中的响度比,避免音质损失,增强音频处理的保真效果。
78.(二)预处理分离出的声源信号。
79.(1)对至少一路声源信号进行声场展宽处理,声场展宽处理包含在声源信号的预设节段处拼接复制版的声源信号。
80.可以延迟+混响或增加差信号的两种方式进行声场展宽,从而实现不同声源信号之间的去相关。尽管分离出来的信号成分相比直接调整立体声的自由度大,但与正规的音乐制作所需的分轨信号还相差甚远,故需要在图4的六路声源信号的基础上,构造出新的声音信号如复制(copy)信号;此处可主要选取较能吸引用户听感的多路声源信号进行复制,
如选取频率指标达到预设频率的信号,如吉他、钢琴、美声(属于vocal)等对象信号;当然也可以对分离出的每一路信号做复制。就延迟+混响的方式而言,可在声源信号的预设节段处相应拼接复制版的声源信号,以将复制版信号相对原版信号小间隔地再播放,使得听众还是听到原版信号,从而拉长声场宽度。
81.就增加差信号的方式而言,可对听感体积大的乐器(如钢琴)信号进行声场展宽,如增强双麦克风对钢琴录音之间的差信号以增大钢琴的声场宽度,在对钢琴的特殊处理中,最后还可以限制该差信号的最大输出,以防止钢琴在原曲中被放置在极左或极右,从而引发差信号过大的问题。
82.本技术实施例中,声场展宽(可称为去相关)的目的有,让信号的声场宽度变宽,增大声源在声场中的听感体积,使得听感上更贴合立体空间感、听起来声场更大。在一些示例中,足够低频的信号如鼓声、贝斯声等信号可以不做声场展宽,这是因为,这种声源本身就能体现出多方位摆有乐器的听音环绕感,换言之,是否对分离出的每一声源信号均做去相关处理,可由实际情况或需求而定。上述预设节段可指某信号的末尾节点(如结束时刻)或起始节点(如起始时刻)等位置,则相应的,可在该信号的末尾或前端拼接上复制版信号;其中,选择拼接在前端时,复制前后的两信号之间是否存在信号交叉可由需设定。
83.(2)标准化或保真处理:基于各声源信号在待调音频中所占的原响度比,对每一声源信号进行响度缩放,以期还原各路声源信号在原始作品中的音量,避免音频失真。
84.需说明的是,上述去相关处理和标准化处理的先后执行顺序可以不限,具体可由需自定。
85.(3)均衡补偿:对响度缩放后的声源信号进行频率补偿。
86.在进行完标准化处理后,可使用均衡器对不同的声源元素进行频率补偿;此处做均衡调整的目的有,一、由于分离所带来的一些问题,比如人声高频谐波缺失导致的人声音色畸变等,具体表现有人声分离到了鼓声里;二、提前弥补在空间音频双耳渲染导致的某些频段的缺失。
87.基于上述说明,可对频率补偿后的各声源信号进行叠加,以得到步骤31预用的待调音频。而作为另一种可能的实施方式,可继续对频率补偿后的各声源信号进行侧链复制并混响,最后输出步骤32等后续预用的待调音频。需说明的是,步骤32等后续预用的待调音频,可视为至少由多路单声道信号(如乐器信号和/或人声信号)叠加成的1对左右声道,当然此叠加过程还可以是加有混响信号,具体可视实际场景做区分。
88.(4)侧链复制(可视为信号加权)和混响:按各声源信号在待调音频中的原消散时间确定各声源之间的信号权重,并根据信号权重对频率补偿后的所有声源信号进行混响处理,以制得混响信号。
89.因各声源信号在原始立体音频中的消散时间可能不同,故为了更好地模拟声场效果,在经过均衡模块的频率补偿后,可对频率补偿后的所有信号(包含copy信号)做权重分配,最后加权混响成新音频。例如,鼓声是低频信号,不容易消散,所以鼓声的权重可分配得小点,而人声信号易消散故权重可分配得大点,以使人声更持久些;换言之,可灵活的调整不同声源信号进行混响处理的输入比例。图4中混响模块的使用,可模拟声源信号发散到墙体上后反射到人头(head)的过程。
90.完成上述声源分离、预处理的操作之后,步骤30的具体操作还可包括:将所有声源
信号分别对应的方位参数,作为初始方位参数;换言之,可叠加前述所有声源信号,从而最后输出步骤32等后续预用的待调音频。
91.以上操作可视为完成所需信号的构造与预调制。
92.31、对混响信号和所有声源信号进行方位初调制,以得到初始方位参数。
93.在一些具体示例中,声源信号包含乐器信号、人声信号和混响信号,故可对步骤30获得的各声源信号如均衡补偿后的信号,包含复制前后的vocal和vocal copy、混响信号等全部信号进行方位初调制(或称为静态方位调制),以制得符合预设摆位的初调立体声;将初调立体声中各声源信号(此处不一定具体指混响信号,即混响信号可以不参与动态方位调制,若参与则可以混响中某一乐器或人声源的方位为初始方位,具体可由实际确定)对应的方位参数,作为步骤32等后续预用的初始方位参数。例如,步骤30最后可获得:6路原版声源信号+6路复制版声源信号+4路其他(other)乐器信号+2路混响信号(reverb-2)=18路单声道信号,可对这18路单声道信号进行方位初调制,调制效果可如图5所示。
94.作为一种可能的实施方式,上述“对混响信号和所有声源信号进行方位初调制”的具体操作过程可包括:以听音位置(如人头head位置)为基点,相对设置乐器信号和混响信号之间的播音位置(即对称性地虚拟摆位),并将人声信号调制在听音位置的周围。
95.如图5所示,可延续标准双声道的音乐制作标准,主要将双声道信号调制在听音位置的左前方和右前方。具体的,可将人声(vocal)信号放置在听音位置(head)周围的中间区域,如正方向的前后方或左右方(如正左、正右方),乐器类信号调制在听音位置的左前方和右前方;head后方的几路信号均可为复制延迟信号(带copy标记),具有去相关性,能起到环绕信号的作用,以增加超出水平面的高度感知;将混响(reverb)信号调制在听音位置的左后方和右后方,以模拟声源经过房间反射后的环绕混响信号。经过方位初调制后,共计的18路单声道信号即9对双声道信号,可绕耳对称式地分布,从而初步实现全景声的环绕效果,即方位初调制一定程度上输出的也算是全景声,但其空间感还有待加强。上述静态方位调制过程,具体可以采用头部相关传输函数(hrtf)卷积或hoa编解码等方式实施,这里不具体分析。
96.32、获取待调音频信号对应的初始方位参数和节拍信息。
97.需说明的是,步骤32至34提及的待调音频可以是最初输入的原始立体音频,如未经过步骤30中去相关和标准化等处理的原始歌曲;或者,可以是经过步骤30、31处理得的初调立体声,此情况下,该初调立体声中各声源的当前方位即步骤32等后续步骤预用的初始方位。虽然初调立体声也能呈现出全景声的空间环绕效果,但优选的,为了更好地增加空间听感,可再对初调立体声进行动态方位调制(主要是实施步骤34);换言之,相对于静态方位调制,动态方位调制属于更细粒度的方位精调,动态方位调制的空间感输出效果更优。此外需提及的是,原始立体音频和初调立体声之间的节拍信息不变,这是因为本技术的方位调制属于虚拟空间上的类物理调位,不改变即会留存原始立体音频的原始节拍(mir)信息。
98.33、基于节拍信息确定不同声源信号的移动参数。
99.在一些具体示例中,节拍信息包含音频的bpm信息和拍号信息,相应的,步骤33的具体操作过程可包括:根据bpm信息和拍号信息之间的比例关系,计算待调音频中每一个小节对应的时间长度;通过时间长度和预设的声源移动速度,计算各声源信号从初始方位运动到目标方位期间的移动时长;根据移动时长确定期间的方位更新次数,并将方位更新次
数作为移动参数。
100.示例性的,一首歌曲的bpm为120,拍号(time signature)为4/4,这意味着这首歌的拍速为一分钟120拍,每4拍为一个小节,通过这两个数据信息可以计算出此曲每一个小节的时间长度t:
101.t=(60s/bpm)*time signature=(60s/120)*4=2s(秒);
102.点声源(可简称声源)移动的周期长度c(即移动时长)可由t缩放计算而来,公式如:
103.c=nt,其中n的取值控制或表达了声源移动的速度,n可取0.5、1、2和3等中的任一值。
104.如图6所示,声源预从设置的起点坐标位置1(azimuth1,elevation1,radius1)运动到设置的终点坐标位置2(azimuth2,elevation2,radius2),相当于预由初始方位运动到目标方位的自动化过程(此处可记为动态方位调制过程),该运动过程的移动时长即为上述设置的周期长度c。相应的,实际应用中,可自定义设置坐标(或称方位)更新的时间步长为step,起始时间为t1、结束时间为t2,t1和t2之间的差值即为上述周期长度c,可以得到如下关系:
105.方位更新次数:update_count=(t1-t2)/step。
106.不同声源的上述n取值可以相同或不同,原因有:可以理解的是,一首歌曲是众多声源音效的混合,不同声源信号的加入会以歌曲整体的节拍特点为基准,如不同声源信号体现的拍速bpm和拍号对应一致,以便能贴合和呈现歌曲的全局节奏感,故可以歌曲整体的节拍信息为依据统一调控每一声源的空间方位,此考虑下可将不同声源的n之间取相同值。当然,也可以按照不同声源在歌曲中的不同分布(如消散时间或响度比等分布因素),相应调控其各自的n取值,即此考虑下可将不同声源的n之间至少部分取不同值,具体可由实际情况或需求而定。
107.34、根据移动参数和各预设方位差变更各初始方位参数,以制得空间音频。
108.基于步骤33的说明,在一些具体示例中,步骤34的具体操作过程可包括:根据各预设方位差和方位更新次数之间的比例关系,计算各初始方位参数每次变动时的方位更新步长;对于每一声源信号,从声源信号的初始方位对应的起始时刻起,每间隔一时间步长则相应更新初始方位参数,直至声源信号由初始方位运动至目标方位;其中,起始时刻根据拍号信息确定。
109.步骤33和步骤34中的相关操作,可视为动态方位调制的相关过程。示例性的,坐标更新步长如下:
110.delta_azi=(azimuth2-azimuth1)/update_count,
111.delta_ele=(elevation2-elevation1)/update_count,
112.delta_r=(radius2-radius1)/update_cout,
113.azimuth2-azimuth1表示azimuth参数对应的预设方位差,同理的,radius2-radius1表示radius参数对应的预设方位差。由于音频的渲染是流式处理,当音频数据在起始时刻t1前,声源坐标可视为(azimuth1,elevation1,radius1),到达t1时开始进行自动化操作即开始做动态方位调制;具体的,可每间隔一时间步长(step)更新一次声源的坐标,坐标更新的关系可概括如下:
114.new_azi=azimuth1+k*delta_azi,
115.new_ele=elevation1+k*delta_ele,
116.new_r=radius1+k*delta_r,
117.上式中k取1至update_count值中的任一值,如此可通过间隔step的时间实时地更新声源的方位(new_azi,new_ele,new_r),从而实现声源从坐标1到坐标2的自动化运动。
118.在一些具体示例中,上述起始时刻(t1)的确定过程可包括:将起始时刻对齐在待调音频的整小节时间点,且起始时刻与待调音频的结尾时间点之间的距离大于等于移动时长。
119.自动化段落的选取可由歌曲结构定义,如按主歌段、副歌段、人声段、人声静音段进行分段。以人声静音段(或称非人声段)为例,例如,可使用vad对人声信号取静音段,以获得消除人声后的非人声段(如纯乐器音段),并将起始时刻(t1)对齐mir信息中的强拍时间点,使得t1卡住整小节数,换言之,让t1对应设在音频的整小节时间点,能有效确保动态方位调制更贴合音频节奏,防止音频播放出现卡点错误或音效畸变等;其中,为避免重复调制同一音段的声源方位,或将方位调制资源浪费在非需音段,可设置起始时刻(t1)与待调音频的结尾时间点之间的距离大于等于移动时长(c),换言之,各声源动态方位调制的结束时刻(t2)至少要早于待调音频的结尾时间点一个移动时长(c)。
120.此外,起间隔或周期作用的时间步长(step)可根据移动时长(c)自定义,例如,step=c/n,n可表示由实际经验自定义的比例系数。总言之,本技术实施例可每隔固定帧数步长(step),对azimuth、elevation、radius等三个参数进行一次重置,从而达到自动化地精准调控声源轨迹的目的。
121.作为一种可能的实施方式,在最终信号输出前,可增加压缩模块对信号进行标准化保护,以防止信号因过载输出而出现削波失真或信号畸变等状况;故基于上述各步骤的说明,本技术实施例还可以包括如下步骤35:
122.35、音频渲染输出。
123.具体的,可对初始方位变更后的各声源信号进行叠加和响度缩放,以制得各声源信号的失真率符合预设失真范围的空间音频。此处,初始方位变更后的各声源信号具体可指,静态方位调制或动态方位调制后获得的声源信号,即步骤35可在步骤31或步骤34之后选择性地实施一次,或也可以在两步骤之后各实施一次,具体可由需设定。响度缩放的详细过程可参见步骤30处标准化的相关说明,此处不赘述;预设失真范围可根据各声源信号最初在原始立体声(如原曲)中的信号峰值和/或原响度比确定。例如,可将图5所示的18路单声道信号,左右分别叠加并标准化成1对双声道(left、right)信号输出,以满足用户的全景声制作需求。
124.上述步骤32至34与步骤21至23的操作内容类似,具体不再赘述。步骤32或步骤33,与步骤30至31中任一步骤之间的先后执行顺序可不限,也可以同时执行,具体可由实际操作场景确定。可见,本方法能基于神经网络结构实现不同音乐元素的分离,如有其他可实现相同目的神经网络结构也可替代使用在本方法中;同时,本方法中涉及的均衡器、混响器、压缩器等效果器,均不限某一特定算法,具备相似功能即可;同理,方位调制效果器,也不限于hrtf、hoa+hrtf或vbap+hrtf等方法。
125.综上,本方法可主要分为神经网络的声源分离、声源对象的预处理和静态方位调
制、音频渲染输出、动态方位调制等操作框架(如图4),通过本方法可快速地将立体声信号根据不同的输出需求,转换成适应耳机或音箱播放场景的环绕声信号即全景声,提升用户的听感体验;其中,基于歌曲mir信息所构建的符合歌曲节奏乐感的声源自动化移动,能增强整体听感上的空间感,拓宽曲库作品在车载环绕式音响、live直播等方面的全景声应用范围。
126.对比发现,同类产品如杜比全景声等基于声道的传统混音方法,需要通过人工制作的方式进行制作,不仅需要大量的时间成本,对于制作时的监听环境也有着极高的要求,而本方法可以使全景声的制作完全自动化,大大节省成本,并提升制作效率。传统方法与常规的混算法一样,所有使用的信号均基于左右声道计算而来,因此信号之间均有很强的相关性,根据双耳效应,会被辨别为同一个信号,这增大了扩大听感声场的难度;除此之外,差信号在消除人声的同时也会消除同相位的乐器声音,用其制作的左右环绕声道就会有音乐信息的缺失。而本方法可实现声源分离,并提供基于歌曲mir信息的自动化调位效果,不仅能留存所有mir信息,且不同的歌曲会有不同的自动化处理,使听感效果因歌而异,达到类人工处理的效果。
127.其中,基于神经网络的声源分离达到了很好的去相关性效果,使得每路信号相加既能获得原始听感,同时用于生成空间音频的信号彼此间又有良好的独立性,可以从听感上达到扩大音乐本身声场的效果。简言之,本方法创新性地提出了,基于音乐mir信息进行声像自动化移动的方案,可使得每首歌曲都能有特定的自动化处理,高效实现立体声音源转成全景声的改进,增强听众的空间听感体验。
128.请参阅图7,本技术实施例的电子设备700可以包括一个或一个以上中央处理器cpu(cpu,central processing units)701和存储器705,该存储器705中存储有一个或一个以上的应用程序或数据。
129.其中,存储器705可以是易失性存储或持久存储。存储在存储器705的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器701可以设置为与存储器705通信,在电子设备700上执行存储器705中的一系列指令操作。
130.电子设备700还可以包括一个或一个以上电源702,一个或一个以上有线或无线网络接口703,一个或一个以上输入输出接口704,和/或,一个或一个以上操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等。
131.该中央处理器701可以执行前述第一方面或第一方面的任一具体方法实施例所执行的操作,具体不再赘述。
132.本技术提供的一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如上述第一方面或第一方面的任一具体实现方式所描述的方法。
133.本技术提供的一种包含指令或计算机程序的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述第一方面或第一方面的任一具体实现方式所描述的方法。
134.可以理解的是,在本技术的各种实施例中,各步骤的序号大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
135.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统(若存在)、装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
136.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统或装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
137.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
138.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
139.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品(计算机程序产品)存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,业务服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

技术特征:
1.一种音频处理方法,其特征在于,包括:获取待调音频中各声源信号对应的初始方位参数,及所述待调音频的节拍信息;基于所述节拍信息确定不同声源信号的移动参数;根据所述移动参数和各预设方位差相应变更各所述初始方位参数,以得到各所述声源信号处于目标方位时的空间音频,所述方位差为所述目标方位和所述初始方位之间的位置差。2.根据权利要求1所述的音频处理方法,其特征在于,所述节拍信息包含音频的bpm信息和拍号信息;所述基于所述节拍信息确定不同声源信号的移动参数,包括:根据bpm信息和拍号信息之间的比例关系,计算所述待调音频中每一个小节对应的时间长度;通过所述时间长度和预设的声源移动速度,计算各所述声源信号从所述初始方位运动到所述目标方位期间的移动时长;根据所述移动时长确定所述期间的方位更新次数,并将所述方位更新次数作为所述移动参数。3.根据权利要求2所述的音频处理方法,其特征在于,所述根据所述移动参数和各预设方位差相应变更各所述初始方位参数,包括:根据各所述预设方位差和所述方位更新次数之间的比例关系,计算各所述初始方位参数每次变动时的方位更新步长;对于每一所述声源信号,从所述初始方位对应的起始时刻起,每间隔一时间步长则相应更新所述初始方位参数,直至所述声源信号由所述初始方位运动至所述目标方位;其中,所述起始时刻根据所述拍号信息确定。4.根据权利要求3所述的音频处理方法,其特征在于,所述起始时刻的确定过程,包括:将所述起始时刻对齐在所述待调音频的整小节时间点,且所述起始时刻与所述待调音频的结尾时间点之间的距离大于等于所述移动时长。5.根据权利要求1所述的音频处理方法,其特征在于,根据所述移动参数和各预设方位差相应变更各所述初始方位参数之前,所述方法还包括:通过神经网络算法从所述待调音频中分离出各所述声源信号;对至少一路所述声源信号进行声场展宽处理,所述声场展宽处理包含在所述声源信号的预设节段处拼接复制版的所述声源信号;基于各所述声源信号在所述待调音频中所占的原响度比,对每一所述每一声源信号进行响度缩放;对响度缩放后的所述声源信号进行频率补偿;按各所述声源信号在所述待调音频中的原消散时间确定各所述声源之间的信号权重,并根据所述信号权重对频率补偿后的所有声源信号进行混响处理,以制得混响信号;将所述所有声源信号分别对应的方位参数,作为所述初始方位参数。6.根据权利要求5所述的音频处理方法,其特征在于,根据所述信号权重对频率补偿后的所有声源信号进行混响处理之后,根据所述移动参数和各预设方位差相应变更各所述初始方位参数之前,所述方法还包括:对所述混响信号和所述所有声源信号进行方位初调制,以制得符合预设摆位的初调立
体声;将所述初调立体声中各声源信号对应的方位参数作为所述初始方位参数。7.根据权利要求6所述的音频处理方法,其特征在于,所述声源信号包含乐器信号、人声信号和混响信号;所述对所述混响信号和所述所有声源信号进行方位初调制,包括:以听音位置为基点,相对设置所述乐器信号和所述混响信号之间的播音位置,并将人声信号调制在所述听音位置的周围。8.根据权利要求1所述的音频处理方法,其特征在于,所述方法还包括:对所述初始方位变更后的各声源信号进行叠加和响度缩放,以制得各声源信号的失真率符合预设失真范围的空间音频。9.一种电子设备,其特征在于,包括:中央处理器,存储器以及输入输出接口;所述存储器为短暂存储存储器或持久存储存储器;所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至8中任意一项所述的方法。10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至8中任意一项所述的方法。

技术总结
本申请公开了音频处理方法及相关设备,该方法包括:获取待调音频中各声源信号对应的初始方位参数,及待调音频的节拍信息;基于节拍信息确定不同声源信号的移动参数;根据移动参数和各预设方位差相应变更各初始方位参数,以得到各声源信号处于目标方位时的空间音频,方位差为目标方位和初始方位之间的位置差。本申请能根据音频的节拍信息,自动调整声源信号的播放位置,促使不同音频的乐感信息得到留存的同时,都能类人工效果的相应增强音频在整体听感上的空间环绕感,大大节省对空间音频的制作成本;能为听众提供经久不断的立体听音效果,增强用户听觉体验,避免如传统般只能片刻式地产生听感上的全景声沉浸感。产生听感上的全景声沉浸感。产生听感上的全景声沉浸感。


技术研发人员:王雨晨 芮元庆 闫震海
受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司
技术研发日:2023.07.04
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐