音频处理方法、电子设备及存储介质与流程

未命名 10-25 阅读:57 评论:0


1.本技术实施例涉及数据处理领域,尤其涉及一种音频处理方法、电子设备及存储介质。


背景技术:

2.随着科学技术的飞速发展以及人们对于更佳音效的追求,越来越多的电子设备使用空间音频技术,为用户营造多维度的音响效果,以使用户产生身临其境的听觉体验。
3.用户在使用电子设备时,如果电子设备同时播放了多个声音,这会导致用户听到的声音比较嘈杂,用户会难以听清电子设备同时播放的多个声音,用户体验比较差。


技术实现要素:

4.本技术实施例提供一种音频处理方法、电子设备及存储介质,可以提升用户感兴趣的音频的声音的清晰程度,提升用户体验。
5.为达到上述目的,本技术的实施例采用如下技术方案:第一方面,提供了一种音频处理方法,该方法可以应用于电子设备,该电子设备可以是扩展现实设备、增强现实设备、混合现实设备等等具有空间音频播放能力的电子设备。该方法包括:电子设备获取用户的兴趣角度;用户的兴趣角度用于表征该用户感兴趣的方向;如,该用户注视的方向,该用户进行交互的方向等等。之后,电子设备响应于用户的兴趣角度为第一兴趣角度,播放目标音频。接下来,电子设备响应于用户的兴趣角度从第一兴趣角度变化为第二兴趣角度,播放调整后的目标音频;调整后的目标音频中处于第一音源角度的音频的信号强度大于调整前处于第一音源角度的音频的信号强度。音源角度用于表征发出音频的音源与用户之间的位置关系,如表征发出音频的音源对象与用户之间的方向关系。其中,第一音源角度与第二兴趣角度相匹配,第一音源角度与第一兴趣角度不匹配;第二音源角度与第二兴趣角度、第一兴趣角度不匹配。
6.在上述方法中,目标音频中的音频会跟随用户的兴趣角度变化。当用户的兴趣角度与第一音源角度匹配时,也就表示用户对该第一音源角度的音频比较感兴趣,电子设备就会增强第一音源角度的音频。这样,用户感兴趣的音频就会在目标音频中被凸显出来;那么,用户感兴趣的音频的清晰程度就会被提升,用户就可以将其感兴趣的音频听得更加清楚,可以提升用户的使用体验。
7.在第一方面的一种可能的设计中,上述调整后的目标音频中处于第二音源角度的音频的信号强度保持不变;或者,调整后的目标音频中处于第二音源角度的音频的信号强度变小。其中,第二音源角度与第一兴趣角度、第二兴趣角度不匹配。
8.在这种设计中,通过在目标音频中未与用户兴趣角度匹配的音频的信号强度(如,第二兴趣角度的音频)保持不变。这样可以使得目标音频中用户感兴趣的音频被凸显得更加明显;用户感兴趣的音频的清晰程度就会被提升,用户就可以将其感兴趣的音频听得更加清楚。
9.在第一方面的一种可能的设计中,上述第一音源角度与第一兴趣角度相匹配包括:第一音源角度与第一兴趣角度之间的差异小于或等于预设角度阈值。上述第二音源角度与第一兴趣角度不匹配包括:第二音源角度与第一兴趣角度之间的差异大于预设角度阈值。
10.在第一方面的一种可能的设计中,上述方法还包括:电子设备响应于用户的兴趣角度从第二兴趣角度变化为第三兴趣角度,增大目标音频包括的音频的信号强度,并播放增大后的目标音频。其中,第三兴趣角度与第一音源角度之间的差异,小于第二兴趣角度与第一音源角度之间的差异,增大后的目标音频中处于第一音源角度的音频的信号强度大于增大前处于第一音源角度的音频的信号强度。
11.在这种设计中,音频的信号强度还会基于用户的兴趣角度与音频的音源角度之间的差异进行不同程度的增大。在用户的兴趣角度与音频的音源角度之间的差异不断减小的过程中,用户感兴趣的音频的声音强度也会不断增大。这样,用户就会在听觉上感受到,音频的声音是持续、稳定增大的,不会突然变大。由此,既可以使用户将用户感兴趣的音频听得更加清楚,又可以使得用户感兴趣的音频的变化比较稳定,不会产生突变,可以进一步地提升用户的使用体验。
12.在第一方面的一种可能的设计中,上述方法还包括:电子设备响应于用户的兴趣角度从第二角度变化为第四角度,播放减小后的目标音频。第四兴趣角度与第一音源角度未匹配。减小后的目标音频中处于的第一音源角度的音频的信号强度小于减小前处于第一音源角度的音频的信号强度。
13.在第一方面的一种可能的设计中,目标音频包括多个声道的音频数据(如,包括左声道的音频数据和右声道的音频数据)。上述电子设备响应于用户的兴趣角度为第一兴趣角度,播放目标音频,包括:电子设备从目标音频中分离得到每个声道的音频数据。电子设备对于任一声道进行子带划分得到多个子带的音频数据。对于多个子带中的每个子带,电子设备根据子带的音源角度,对子带的音频数据进行强度处理,得到强度处理后的目标音频。之后,电子设备播放强度处理后的目标音频。其中,子带的音源角度可以用于表征子带对应的音频与用户之间的位置关系。上述强度处理包括:在子带的音源角度与第一兴趣角度的差值小于或等于预设角度阈值的情况下,电子设备增强子带的音频信号强度,在子带的音源角度与第一兴趣角度的差值大于预设角度阈值的情况下,子带的音频信号强度保持不变。
14.在这种设计中,电子设备播放的强度处理后的目标音频中,与用户的兴趣角度匹配的子带的音频信号强度就会被增大。也就是说,用户感兴趣的子带的音频就会被凸显出来,用户就可以将其感兴趣的子带的音频听得更加清楚,可以提升用户的使用体验。
15.在第一方面的一种可能的设计中,上述子带的音源角度是根据子带对应的每个声道之间的音频差异以及三角函数关系确定的;上述音频差异包括:相位差异、振幅差异、频率差异、能量差异和波形差异之中的一种或多种。
16.在这种设计中,电子设备可以通过子带在每个声道上的音频差异准确地得到子带的音源角度。
17.在第一方面的一种可能的设计中,上述电子设备增强子带的音频信号强度,包括:基于子带的音源角度与第一兴趣角度之间的差异,得到子带的声音强度的增益,增益与差
异负相关,基于增益增强子带的音频信号强度。
18.在这种设计中,电子设备可以基于子带的音源角度与第一兴趣角度之间的差异,得到子带的声音强度的增益。差异越小,增益越大,也就是说用户感兴趣的子带的声音强度也就越大。这会使得,在第一兴趣角度与音源角度之间的差异不断减小的过程中,用户感兴趣的子带的声音是持续、稳定增大的,不会突然变大。由此,既可以使用户将其感兴趣的子带的音频听得更加清楚,又可以使得子带的音频强度变化得比较稳定,不会产生突变,可以进一步地提升用户的使用体验。
19.在第一方面的一种可能的设计中,电子设备响应于用户的兴趣角度为第一兴趣角度,播放目标音频,包括:电子设备从目标音频中分离得到每个音源的音频数据;每个音源对应多个声道的音频数据;对于多个音源中每个音源,电子设备根据音源的音源角度,对音源的音频数据进行强度处理;强度处理包括:在音源的音源角度与第一兴趣角度的差值小于或等于预设角度阈值的情况下,增强音源对应的每个声道的音频信号强度,在音源的音源角度与第一兴趣角度的差值大于预设角度阈值的情况下,音源的音频信号强度保持不变。接下来,电子设备播放强度处理后的目标音频。
20.在这种设计中,电子设备播放的强度处理后的目标音频中,与用户的兴趣角度匹配的音源的音频信号强度就会被增大。也就是说,用户感兴趣的音源的音频就会被凸显出来,用户就可以将其感兴趣的音源的音频听得更加清楚,可以提升用户的使用体验。
21.在第一方面的一种可能的设计中,音源的音源角度根据音源对应的多个声道之间的音频差异以及三角函数关系确定;音频差异包括:相位差异、振幅差异、频率差异、能量差异和波形差异之中的一种或多种。
22.在这种设计中,电子设备可以通过音源在每个声道上的音频差异准确地得到子带的音源角度。
23.在第一方面的一种可能的设计中,增强音源对应的每个声道的音频信号强度,包括:电子设备基于音源的音源角度与第一兴趣角度之间的差异,得到音源的声音强度的增益,增益与差异负相关。之后电子设备基于增益增强每个声道的音频信号强度。
24.在这种设计中,电子设备可以基于音源的音源角度与第一兴趣角度之间的差异,得到子带的声音强度的增益。差异越小,增益越大,也就是说用户感兴趣的子带的声音强度也就越大。这会使得,在第一兴趣角度与音源角度之间的差异不断减小的过程中,用户感兴趣的音源的声音是持续、稳定增大的,不会突然变大。由此,既可以使用户将其感兴趣的音源的声音听得更加清楚,又可以使得子带的音频强度变化得比较稳定,不会产生突变,可以进一步地提升用户的使用体验。
25.在第一方面的又一种可能的设计中,上述电子设备获取用户的兴趣角度,包括:电子设备响应于用户的交互操作得到用户的兴趣角度。其中,上述交互操作包括用户的指示操作,以及用户的语音识别操作。在这种设计中,用户可以通过交互操作向电子设备输入该用户感兴趣的方向,这样,电子设备就可以准确地获取到用户的兴趣方向。
26.在第一方面的另一种可能的设计中,电子设备包括摄像头。上述用户的兴趣角度包括用户的交互角度,用户的交互角度用于表征与用户产生交互的方向。上述电子设备获取用户的兴趣角度,包括:电子设备通过摄像头拍摄视场图片,基于视场图片得到交互角度。
27.在这种设计中,考虑到与用户进行互动的方向可以在一定程度上反应出用户感兴趣的方向。基于此,电子设备可以通过摄像头拍摄视场图片,并从视场图片中得到交互角度。这样,可以比较准确地获取到用户的兴趣方向。
28.在第一方面的又一种可能的设计中,电子设备还可以基于摄像头拍摄得到的视场图片对眼动跟踪传感器采集到的注视角度进行校正。这样,感觉准确地确定出用户的注视方向,也就是说,可以提高电子设备获取的注视角度的准确程度。
29.在第一方面的另一种可能的设计中,上述电子设备获取用户的兴趣角度包括:电子设备基于音频在电子设备坐标系中的坐标,得到用户的兴趣角度。
30.第二方面,提供了一种音频处理方法,该方法可以应用于电子设备,该电子设备可以是扩展现实设备、增强现实设备、混合现实设备等等具有空间音频播放能力的电子设备。该方法包括:电子设备获取用户的兴趣角度;用户的兴趣角度用于表征该用户感兴趣的方向;如,该用户注视的方向,该用户进行交互的方向等等。之后,电子设备响应于用户的兴趣角度为第一兴趣角度,播放目标音频。接下来,电子设备响应于用户的兴趣角度从第一兴趣角度变化为第二兴趣角度,调整目标音频包括的音频的信号强度,并播放调整后的目标音频;调整后的目标音频中处于第三音源角度的音频的信号强度小于调整后处于第三音源角度的音频的信号强度。音源角度用于表征发出音频的音源与用户之间的位置关系,如表征发出音频的音源对象与用户之间的方向关系。其中,第一音源角度与第二兴趣角度相匹配,第一音源角度与第一兴趣角度不匹配;第三音源角度与第二兴趣角度、第一兴趣角度不匹配。
31.在上述方法中,目标音频中的音频会跟随用户的兴趣角度变化。当用户的兴趣角度与第一音源角度匹配时,也就表示用户对该第一音源角度的音频比较感兴趣,电子设备就会减弱其他音源角度如第三音源角度的音频。这样,相对来讲,第一音源角度的音频就会在目标音频中被凸显出来;那么,用户感兴趣的音频的清晰程度就会被提升,用户就可以将其感兴趣的音频听得更加清楚,可以提升用户的使用体验。
32.第三方面,提供了一种电子设备,该电子设备包括存储器、一个或多个处理器,存储器与处理器耦合;其中,存储器中存储有计算机程序代码,计算机程序代码包括计算机指令。当计算机指令被处理器执行时,使得电子设备可以执行上述第一方面及第一方面任一种可能的设计所提供的方法;或者使得电子设备可以执行上述第二方面及第二方面任一种可能的设计所提供的方法。
33.第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备可以执行上述第一方面及第一方面任一种可能的设计所提供的方法;或者使得电子设备可以执行上述第二方面及第二方面任一种可能的设计所提供的方法。
34.第五方面,提供了一种包含指令的计算机程序产品,该计算机程序产品在电子设备上运行时,使得电子设备可以执行上述第一方面及第一方面任一种可能的设计所提供的方法;或者使得电子设备可以执行上述第二方面及第二方面任一种可能的设计所提供的方法。
35.第六方面,提供了一种音频处理芯片,该音频处理芯片应用于包括存储器和扬声
器的电子设备,该芯片包括至少一个处理器和至少一个接口电路,处理器和接口电路可以通过线路互联,接口电路用于从电子设备的存储器中接收信号,并向处理器发送信号,该信号包括存储器中存储的计算机指令;当处理器执行该计算机指令时,电子设备执行上述第一方面及第一方面任一种可能的设计所提供的方法;或者执行上述第二方面及第二方面任一种可能的设计所提供的方法。
36.第七方面,提供了一种音频模组,该音频模组包括上述第六方面提供的音频处理芯片和扬声器。
37.其中,第二方面至第七方面中任一种设计方式所带来的技术效果可以参见第一方面中不同设计方式所带来的技术效果,此处不再赘述。
附图说明
38.图1为本技术实施例提供的虚拟演唱会场景的示意图;图2为本技术实施例提供的一种音频处理方法的使用场景示意图;图3为本技术实施例提供的一种电子设备的硬件结构示意图;图4为本技术实施例提供的一种电子设备的结构示意图;图5为本技术实施例提供的一种音频处理方法的应用场景示意图;图6为本技术实施例提供的一种空间音频技术的原理示意图;图7为本技术实施例提供的一种音频处理方法的流程示意图;图8为本技术实施例提供的一种xr眼镜坐标系的示意图;图9为本技术实施例提供的一种用户的交互操作的示意图;图10为本技术实施例提供的一种注视角度校准的示意图;图11为本技术实施例提供的一种发声角度获取的流程的示意图;图12为本技术实施例提供的又一种发声角度获取的流程示意图;图13为本技术实施例提供的一种音源分离神经网络的原理示意图;图14为本技术实施例提供的一种目标对象确定原理示意图;图15为本技术实施例提供的一种音频处理方法音频处理效果示意图;图16为本技术实施例提供的又一种音频处理方法音频处理效果示意图;图17为本技术实施例提供的另一种音频处理方法音频处理效果示意图;图18为本技术实施例提供的一种音频处理装置结构示意图;图19为本技术实施例提供的又一种音频处理装置结构示意图;图20为本技术实施例提供的一种音频处理芯片的结构示意图;图21为本技术实施例提供的另一种电子设备的硬件结构示意图。
具体实施方式
39.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。其中,在本技术的描述中,除非另有说明,“/”表示前后关联的对象是一种“或”的关系,例如,a/b可以表示a或b;本技术中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况,其中a,b可以是单数或者复数。并且,在本技术实施例的描述中,除非另有说明,“多个”是指
两个或多于两个。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。另外,为了便于清楚描述本技术实施例的技术方案,在本技术的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
40.同时,在本技术实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念,便于理解。
41.随着科学技术的飞速发展以及人们对于更佳音效的追求,越来越多的电子设备使用空间音频技术,为用户营造多维度的音响效果,以使用户产生身临其境的听觉体验。
42.其中,空间音频技术是一种通过操控立体声扬声器、环绕声扬声器、扬声器阵列或者耳机等发音设备所产生的声音,来实现让用户感受到声音似乎是从多维度的空间中虚拟的位置发出的一种技术。
43.用户在使用电子设备时,如果电子设备同时播放了多个声音(如,风声、鸟叫声、说话声等等),这会导致用户听到的声音比较嘈杂,用户会难以听清,用户体验比较差。
44.示例性的,参见图1,用户在使用电子设备观看虚拟演唱会。此时,电子设备上会同时播放多个声音,如舞台上演奏者的声音,乐器的声音(如,贝斯、鼓、吉他等等)。此时,由于电子设备会同时播放多个声音,比较嘈杂,上述多个声音用户都难以听清,用户的使用体验比较差。
45.有鉴于此,本技术提供一种音频处理方法。在该方法中,电子设备获取用户的兴趣角度,兴趣角度用于表征用户感兴趣的方向。之后,电子设备基于用户的兴趣角度播放音频。在电子设备播放的音频中,与上述兴趣角度匹配的音频(如,演奏者101)被增强,和/或,与上述兴趣角度未匹配的音频(如,舞台上除101外的演奏者,或者乐器)减弱。这样,用户在听觉体验上就会感觉到,来自用户感兴趣的方向上的音频被凸显出来,会被用户听得更加清楚、清晰,可以提升用户的使用体验。
46.本技术实施例提供的音频处理方法,可以应用于用户对电子设备的使用过程中。
47.示例性的,参见图2。用户可以佩戴电子设备100,以及在听觉上体验的到电子设备100提供的多维度音响效果。
48.其中,上述电子设备100可以是,扩展现实(extended reality,xr)设备,如xr眼镜、xr头戴设备等;增强现实(augmented reality,ar)设备如,ar眼镜、ar头戴设备;虚拟现实(virtual reality,vr)设备如,vr眼镜、vr头戴设备等;混合现实(mixed reality,mr)设备如,mr眼镜、mr头戴设备等等,具有空间音频播放能力的电子设备,本技术实施例对电子设备的产品形态不做特殊限制。
49.在详细说明本技术实施例提供的音频处理方法前,先在此介绍电子设备的结构。
50.如图3所示,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,usb)接口130,电源管理模块141,天线,无线通信模块150,显示装置140,眼动跟踪传感器142,摄像头193,视图方向传感器143,音频模块
170,扬声器170a,麦克风170b,耳机接口170c等。
51.可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本技术另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
52.处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural-network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
53.其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
54.处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
55.无线通信模块150可以提供应用在电子设备100上的包括无线局域网(wireless local area networks,wlan)(如无线保真(wireless fidelity,wi-fi)网络),蓝牙(bluetooth,bt),全球导航卫星系统(global navigation satellite system,gnss),调频(frequency modulation,fm),近距离无线通信技术(near field communication,nfc),红外技术(infrared,ir)等无线通信的解决方案。
56.显示装置140可以包括显示屏或投影仪等等,可以用于显示图像,视频等。显示屏包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,lcd),有机发光二极管(organic light-emitting diode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,amoled),柔性发光二极管(flex light-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,qled)等。
57.外部存储器接口120可以用于连接外部存储卡,例如micro sd卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
58.内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。例如,在本技术实施例中,处理器110可以通过执行存储在内部存储器121中的指令,内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。
59.usb接口130是符合usb标准规范的接口,具体可以是mini usb接口,micro usb接口,usb type c接口等。usb接口130可以用于连接充电器为电子设备100提供电能,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该
接口还可以用于连接其他电子设备,例如ar设备等。
60.摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。或者,感光元件也可以是光电二极管(photodiode)等等,具有将光信号转换为电信号能力的器件。
61.音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
62.扬声器170a,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170a播放音频。其中,电子设备可以有设置至少两个位置不同的扬声器170a,以实现空间音频技术。
63.麦克风170b,也称“话筒”,“传声器”,用于将声音信号转换为电信号。电子设备100可以设置至少一个麦克风170b。在另一些实施例中,电子设备100可以设置两个麦克风170b,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170b,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
64.耳机接口170c用于连接有线耳机。耳机接口170c可以是usb接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,ctia)标准接口。
65.其中,摄像头193还可以包括:眼动跟踪传感器142、视图方向传感器143等。
66.眼动跟踪传感器142也称“眼动仪”、“双目眼动仪”等等,用于拍摄使用电子设备100的用户的眼球得到眼动数据,以获得用户的注视角度。
67.视图方向传感器143也称视场(field of view,fov)相机,用于拍摄使用电子设备100的用户的视野中的图像得到fov图像。
68.在一些实施例中,电子设备100也可以通过视图方向传感器143,拍摄得到fov图像,并通过电子设备的显示装置140显示fov图像;这样,用户就可以在显示装置140上看到真实环境中的图像。
69.示例性的,电子设备100可以通过显示装置140,显示虚拟影像。并通过音频模块170中的扬声器170a输出空间音频。这样,用户就可以在电子设备100上看到电子设备100的处理器110基于存储器中的代码生成的虚拟对象,以及用户还可以听到虚拟对象的音频。
70.又示例性的,电子设备100还可以通过麦克风170b采集电子设备100的真实环境的音频,并通过扬声器170a输出,真实环境的音频。可以理解的,对于一些电子设备,由于其密封性较好,真实环境中的音频可能会被削弱,这会导致用户无法听清真实环境中的音频。因此,电子设备可以通过麦克风170b采集真实环境中的音频,之后,再通过扬声器170a输出。这样,使用电子设备的用户就可以清楚地听到真实环境中的音频。
71.以下,将以电子设备100是扩展现实(xr)眼镜200为例,对电子设备100的结构进行进一步介绍。
72.示例性的,参见图4中的a部分,图4的a部分中示出了xr眼镜200的外侧结构示意图。xr眼镜200的每个镜腿上设置有扬声器170a1、扬声器170a2。并通过扬声器170a1和扬声器170a2,输出两个声道的音频数据,以使得xr眼镜200具有空间音频能力。xr眼镜的镜框的中心处设置有视图方向传感器143,并通过视图方向传感器143,拍摄得到fov图像。其中,扬声器170a1、扬声器170a2可以用于,播放通过本技术实施例提供的音频处理方法,处理后的音频数据。
73.又示例性的,参见图4中的b部分,图4的b部分中示出了xr眼镜200内侧结构示意图。xr眼镜200的镜框的内侧有眼动跟踪传感器142。其中,眼动跟踪传感器142的数量可以设置为一个或更多(图4的b部分中仅示出两个),眼动跟踪传感器142可以拍摄使用xr眼镜200的用户的眼球得到眼动数据,并根据眼动数据得到用户的注视角度。如,拍摄用户的左眼球得到用户的左眼眼动数据,并根据左眼眼动数据得到左眼视线,之后根据左眼视线得到用户的注视角度。
74.需要指出的是,图4中仅示出了xr眼镜200的结构的一种示例,并不构成对xr眼镜200的结构的限定。xr眼镜200的结构也可以有其他更多的设计方式。具体可以根据实际的使用情况对xr眼镜的结构进行设计,本技术对此不做任何限制。
75.示例性的,参见图5,图5的a部分示出了,虚拟视频会议场景;假如用户使用xr眼镜正在进行虚拟视频会议,用户通过xr眼镜看到的虚拟视频会议的图像400。图像400中包括了,虚拟对象401和真实对象402。
76.其中,虚拟对象401可以理解为,xr眼镜通过处理器生成的对象;该虚拟对象401不存在于用户当前所处的空间中,也就是说,如果用户摘下xr眼镜,用户不会看到虚拟对象401。真实对象402可以理解为,用户当前所处的空间中包括的对象,也就是说,如果用户摘下xr眼镜,用户可以看到真实对象402。对于真实对象402来讲,其可以是由xr眼镜的视野相机拍摄,经过处理器处理后,在xr眼镜的显示装置上显示的;也可以是用户透过xr眼镜的眼镜镜片观察到的。具体的,可以根据实际的使用情况进行设计,本技术实施例对此不做任何限制。
77.参见图5的b部分,图5的b部分示出了,虚拟演唱会场景;假如用户使用xr眼镜正在观看虚拟演唱会,用户可以通过xr眼镜看到虚拟演唱会的图像410。图像410中包括了,多个演奏者和多个乐器(如贝斯、吉他、鼓)。参见图5的c部分,图5的c部分中示出了,虚拟景区场景;加入用户使用xr眼镜正在游览虚拟景区,用户可以通过xr眼镜看到虚拟景区的图像420。图像420中包括了,山峰、太阳、云朵。
78.需要指出的是,图5的a部分示出的虚拟视频会议场景,仅为用户对电子设备的一种使用示例,电子设备还具有其他应用场景,如观看演唱会(图5的b部分所示),游览景区(如5的c部分所示)等等。具体的,可以根据实际的使用情况对电子设备的应用场景进行设计,本技术对此不做任何限制。
79.接下来,结合上述虚拟视频会议场景,对xr眼镜上的空间音频技术进行简要介绍。
80.示例性的,参见图6;假设xr眼镜具有两个音频输出通道(声道),也就是说,xr眼镜具有至少两个扬声器。用户500佩戴xr眼镜正在与虚拟对象501和真实对象502进行虚拟视频会议。虚拟对象501位于用户500的正前方,真实对象502位于用户500的左前方。由于虚拟对象501位于用户500的正前方,因此xr眼镜的两个声道(如,左声道和右声道)的音频,二者
的音量大小是一致的。这样,用户500就可以在听觉上感受到虚拟对象501是位于该用户500的正前方。由于真实对象502位于用户500的左前方,因此xr眼镜的两个声道的音频,二者的音量大小是不一致的,如左声道音频的音量会大于右声道音频的音量。这样,用户500就可以在听觉上感受到真实对象502是位于该用户500的左前方(如,左前方45
°
)。基于此,通过空间音频技术,用户就可以在xr眼镜上感受到多维度的音响效果,就可以产生身临其境的听觉体验。其中,真实对象502的声音可以是,由真实对象502佩戴的xr眼镜采集后,由用户500的xr眼镜的扬声器播放的。或者,真实对象502的声音也可以是,由用户500的xr眼镜的麦克风采集后,通过用户500的xr眼镜的扬声器播放的。本技术实施例对此不做任何限制。
81.可以理解的是,对于不同的电子设备、不同的声道数量,空间音频技术也会有不同的应用方式,具体可以根据实际使用需要进行设计,本技术实施例对此不做任何限制。
82.下面,将结合图5示出的虚拟视频会议场景,以电子设备是图4所示的眼镜为例,对本技术实施例提供的音频处理方法进行详细介绍。
83.参见图7,本技术实施例提供的音频处理方法可以包括步骤s600-步骤s603。
84.s600.在xr眼镜播放音频的过程中,xr眼镜获取用户的兴趣角度。
85.其中,兴趣角度用于表征使用xr眼镜的用户的兴趣方向。兴趣方向可以理解为,用户感兴趣的方向;也就是说,用户对兴趣方向上的音频对象比较感兴趣,用户对兴趣方向上的音频更加关注,用户也就更想要听清楚来自兴趣方向上的声音。其中,音频对象可以理解为,发出声音的对象。如,音频对象可以包括,真实对象或虚拟对象。例如,音频对象可以是,上述图5的a部分中正在进行会议的与会者(如,真实对象402、虚拟对象401)。也可以是,图5的b部分中舞台上的演奏者,或者乐器(如,贝斯、吉他、鼓)。
86.如,某音频对象与用户进行交互(如,与用户交谈、与用户互动、向用户展示表情等等),则用户就会对该音频对象比较感兴趣;由用户指向该音频对象的方向即为该用户的兴趣方向。
87.又如,用户的注意力集中在某音频对象上,则可以表示用户对该音频对象比较感兴趣,用户会比较关注该音频对象;由用户指向该音频对象的方向即为该用户的兴趣方向。
88.可以理解的,角度是一个相对的概念,同一个角度对于不同的坐标系、参照物,角度会发生变化的。接下来,在详细介绍兴趣角度前,先对xr眼镜的坐标系进行举例介绍。
89.示例性的,参见图8,图8示出了,用户佩戴xr眼镜状态下的俯视图。其中,用户的前后方向为xr眼镜的坐标系的y轴,y轴的正方向为:由用户的后方指向用户的前方的方向;用户的左右方向为xr眼镜的坐标系的x轴,x轴的正方向为:由用户的左侧指向用户的右侧的方向;用户头部的中心点为xr眼镜的坐标系的原点。其中,兴趣角度可以是,兴趣方向与y轴的正半轴(正方向)的夹角。并且,当兴趣方向在xr眼镜坐标系的第一象限时,该兴趣方向的兴趣角度为正值,当兴趣方向在xr眼镜坐标系的第二象限时,该兴趣方向的兴趣角度为负值。
90.可以理解的,对于xr眼镜的坐标系,还可以有其他的建立方式。在其他的建立方式下,兴趣角度也可以有不同的定义方式以及划分方式。具体可以根据实际的使用需要对此进行设计,本技术实施例对此不做任何限制。
91.在一些实施例中,xr眼镜可以通过用户的交互操作(如,指示操作、语音输入操作等等)得到用户的兴趣方向。
92.在一些实施例中,xr眼镜可以基于用户的指示操作得到用户指定的兴趣方向。
93.示例性的,参见图9,用户可以通过指示操作(如,手指指向某个方向),向xr眼镜输入该用户指定的兴趣方向。之后,xr眼镜通过摄像头确定手指指向的方向,并基于手指指向的方向和xr眼镜坐标系y轴正方向的夹角,得到用户指定的兴趣方向。
94.在一些实施例中,xr眼镜还可以通过识别用户的语音,得到用户指定的兴趣方向。
95.又示例性的,用户可以通过xr眼镜的语音识别功能,向xr眼镜输入该用户指定的兴趣方向。再次参见图9,用户可以通过预设的唤醒词,唤醒xr眼镜的语音识别功能。之后,用户通过虚拟视频会议的图像800中虚拟对象(如虚拟对象801b、虚拟对象801a)或真实对象(如真实对象802b、真实对象802a)的昵称,去指定兴趣方向。例如,在用户通过唤醒词,唤醒xr眼镜的语音识别功能后,通过真实对象802b的昵称,去指定兴趣方向。接下来,xr眼镜可以基于真实对象802b和xr眼镜坐标系原点的连线与y轴正方向的夹角,得到用户指定的兴趣方向。
96.在一些实施例中,上述兴趣角度可以包括:注视角度或交互角度。
97.其中,注视角度,可以理解为用户目光注视的角度,可以用来表征用户注意力集中的方向,如用来表征注视方向。交互角度,可以理解为用户与该交互角度上的音频对象进行交互,可以用来表征与用户发生交互的方向,如交互方向。
98.在一些实施例中,xr眼镜可以通过眼动跟踪传感器,跟踪用户的眼睛(如,左眼、右眼、双眼)来获取注视角度。
99.示例性的,xr眼镜可以通过眼动跟踪传感器,跟踪用户的左眼,得到用户左眼的视线方向。接下来,基于用户左眼的视线方向与xr眼镜坐标系y轴正方向的夹角,得到注视角度。
100.在另一些实施例中,xr眼镜也可以通过摄像头,拍摄用户的眼睛图像。之后,xr眼镜通过图像识别技术,从眼睛图像中识别得到注视角度。
101.示例性的,xr眼镜可以通过图像识别技术,从眼睛图像中识别得到用户双眼的视线焦点。接下来,基于视线焦点和xr眼镜坐标系原点的连线与y轴正方向的夹角,得到注视角度。
102.在一些实施例中,xr眼镜还可以通过眼动跟踪传感器,获取注视角度。之后,基于fov相机拍摄的fov图像,对注视角度进行校正。
103.示例性的,参见图10;xr眼镜通过眼动跟踪传感器,获取到的注视角度如图中所示。接下来,xr眼镜根据fov相机拍摄fov图像,如,拍摄得到真实对象902b和真实对象902a。之后,xr眼镜从真实对象902b和真实对象902a中确定与注视角度匹配的真实对象。接下来,基于与注视角度匹配的真实对象对注视角度进行校正。其中,上述与注视角度匹配的真实对象可以是,真实对象与坐标系原点的连线与y轴正方向的夹角,与注视角度最接近的真实对象。考虑到,在用户使用xr眼镜时,用户的视线上应具有对象;也就是说,用户的注视角度上会存在真实对象;因此,在一些实施例中xr设备还可以通过fov图像对注视角度进行校准,这样,可以提高xr眼镜获取的注视角度的准确程度。
104.在一些实施例中,xr眼镜可以通过fov相机,拍摄fov图像。之后,xr眼镜通过图像识别技术,从fov图像中识别得到交互角度。
105.示例性的,xr眼镜可以通过图像识别技术,从fov图像中识别得到与用户交互的真
实对象(如,面向用户的且正在开口说话的真实对象)。之后,基于该真实对象和xr眼镜坐标系原点的连线与y轴正方向的夹角,得到交互角度。
106.在一些实施例中xr眼镜可以在步骤s600之后,执行步骤s601。在另一些实施例中,xr眼镜也可以先执行步骤s601再执行步骤s600。在另一些实施例中,也可以并行执行步骤s600和步骤s601,本技术实施例对步骤s600和步骤s601间的执行顺序不做任何限制。
107.s601.xr眼镜获取播放的音频中音频对象的发声角度。
108.其中,发声角度用于表征音频对象与佩戴xr眼镜的用户,二者间的方向关系。音频对象是指发出音频的对象。音频对象包括真实对象或虚拟对象,在一些实施例中发声角度也可以被称为声源角度、音源角度、子带偏移角度等等。播放的音频是指用户在使用xr眼镜的过程中,xr眼镜播放的音频。
109.示例性的,发声角度可以是音频对象与xr眼镜坐标系原点间的连线,与xr眼镜坐标系y轴正半轴的夹角。
110.在一些实施例中,xr眼镜可以根据音频对象在xr眼镜坐标系统与用户的位置关系得到音频对象的发声角度。
111.示例性的,xr眼镜可以根据fov相机,拍摄得到fov图片。之后,通过图片识别技术,从fov图片中识别得到真实对象的位置(如,在xr眼镜坐标系中的位置坐标);接下来,基于真实对象的位置得到发声角度。
112.又示例性的,xr眼镜也可以根据虚拟对象在xr眼镜坐标系中的位置坐标,得到虚拟对象的发声角度。
113.可以理解的,由于虚拟对象是由xr眼镜,或者与xr眼镜连接的服务器(xr服务器)生成的;因此xr眼镜可以获取到虚拟对象的位置坐标。那么,xr眼镜就能够基于该位置坐标得到发声角度。
114.在一些实施例中,考虑到xr眼镜的处理器性能不是十分强大,处理器的功率也不是很高。也就是说,在xr眼镜上,可能不会执行生成虚拟对象的步骤。xr眼镜,负责播放虚拟对象的音频、视频,真实对象的音频、视频,以及采集用户的输入等等;与xr眼镜连接的服务器负责生成,虚拟对象的音频、视频,真实对象的音频、视频。基于此,考虑到xr眼镜可能获取不到音频对象的位置坐标。在一些实施例中,xr眼镜可以根据音频数据获取音频对象的发声角度。
115.其中,音频数据可以是多声道音频数据。示例性的,多声道音频数据与xr眼镜的声道数相对应。若xr眼镜具有左右两个声道,则多声道音频数据可以是左声道音频数据和右声道音频数据。若xr眼镜具有上、下、左、右四个声道,则多声道音频数据可以是,上、下、左、右四个声道音频数据。本技术实施例对音频数据的声道数量不做任何限制。
116.下面,以xr眼镜具有两个声道的音频数据;如,左声道音频数据和右声道音频数据。对步骤s601-s603进行详细介绍。
117.由于xr眼镜具有左右两个声道的音频数据,也就是说,用户在使用xr眼镜所能听到的声音均来自上述左声道音频数据和右声道音频数据。那么,左声道音频数据和右声道音频数据对应了多个音频对象的声音。基于此,可以分别从左声道音频数据和右声道音频数据中,分离出每个音频对象在左、右声道上的音频数据。之后,根据音频对象在左、右声道上音频数据的关系(如,在相位、振幅、频率、波形、能量等等上的差异),得到音频对象的发
声角度。其中,可以通过频域分析的方式分离得到每个音频对象在左、右声道上的音频数据;或者,也可以通过神经网络分离得到每个音频对象在左、右声道上的音频数据。
118.在一些实施例中,可以通过互相关方法、广义互相关方法、广义互相关-相位变换(generalized cross correlation-phase transform,gcc-phat)方法、延迟相加(delay and sum)算法、最小方差无失真响应(minimum variance distortionless response, mvdr)算法等等,得到音频对象与用户的方向关系,并通过三角函数关系,得到音频对象的发声角度。
119.示例性的,xr眼镜可以通过频域分析的方式,从左、声道音频数据中,分离得到每个音频对象在左、右声道上的音频数据,接下来,基于音频对象在左、右声道上音频数据振幅之间的关系,得到音频对象的发声角度。参见图11,步骤s601可以包括:步骤s601a1-s601a3。
120.s601a1.xr眼镜分别对左声道音频数据和右声道音频数据进行时频转换,得到左声道频域数据和右声道频域数据。
121.示例性的,xr眼镜可以通过离散傅里叶变换(discrete fourier transform,dft)、快速傅里叶变化(fast fourier transform,fft)、修改的离散余弦变换(modified discrete cosine transform ,mdct)、梅尔倒谱、小波变换之中的任一种,进行时频转换。
122.例如,xr眼镜可以采用下述表达式1对左声道音频数据按照音帧,逐帧进行时频转换,得到左声道频域数据。
123.其中,音帧是音频数据的组成单位。也就是说,音频数据是由多个音帧组成的。在音帧中包括多个音频样点,音帧中的音频样点个数与音频数据的采样率,以及帧长相关。例如,音频样点个数=音频数据的采样率*帧长。示例性的,在格式为48000赫兹(hertz,hz)采样率,帧长0.01秒的音频数据的音帧中;一个音帧包括480音频样点。可以理解的,音频数据还可以有其他格式;如采样率为32000hz、16000hz、8000hz等等,如帧长为0.005秒、0.02秒等等。本技术实施例对此不做任何限制。
[0124] 表达式1。
[0125]
其中,x
l
表示,左声道频域数据;n表示,音频样点编号;运算符“dft”表示离散傅里叶变换;x
l
表示,左声道音频数据;n表示,dft每次处理输入的连续时域样点数,如上述音频样点的个数为480。
[0126]
然后,xr眼镜可以采用下述表达式2对右声道音频数据按照音帧,逐帧进行时频转换,得到右声道频域数据。
[0127] 表达式2。
[0128]
其中,xr表示,右声道频域数据;xr表示,右声道音频数据。
[0129]
在进行时频转换之后,xr眼镜就得到了左声道频域数据和右声道频域数据;二者均为复数频域数据,均可以按照实部和虚部的形式表示。
[0130]
示例性的,左声道频域数据可以通过下述表达式3表征。
[0131]
表达式3。
[0132]
其中,x
l,r
表示,左声道频域数据的实部,x
l,i
表示,左声道频域数据的虚部。
[0133]
右声道频域数据可以通过下述表达式4表征。
[0134] 表达式4。
[0135]
其中,x
r,r
表示,右声道频域数据的实部,x
r,i
表示,右声道频域数据的虚部。
[0136]
示例性的,假定计算过程都用浮点数表示。和的取值范围是[-1.0, 1.0]。和的取值范围也是[-1.0, 1.0]。
[0137]
接下来,xr眼镜可以基于实部和虚部的形式表示的左声道频域数据,得到左声道频域数据的频谱幅度。
[0138]
示例性的,可以通过下述表达式5计算左声道频域数据的频谱幅度。
[0139]
表达式5。
[0140]
其中,|x
l
(k)|,表示左声道频域数据的频谱幅度。
[0141]
示例性的,可以通过下述表达式6计算右声道频域数据的频谱幅度。
[0142]
表达式6。
[0143]
其中,|xr(k)|,表示右声道频域数据的频谱幅度。
[0144]
s601a2.xr眼镜分别计算左声道频域数据和右声道频域数据的子带能量,得到左声道子带能量和右声道子带能量。
[0145]
在一些实施例中可以根据巴克(bark)谱、等效矩阵带宽(equivalent matrix bandwidth,erb)、倍频程、1/3倍频程、均匀子带宽度等子带划分方法,分别将左声道音频数据和右声道音频数据划分为多个子带。
[0146]
可以理解的,对于不同的音频对象来讲,其声音的频率大多会在一个范围内。因此通过对子带的划分,可以区分出每个音频对象的左、右声道频域数据。接下来,基于音频对象的左、右声道频域数据的差异,得到音频对象的发声角度。
[0147]
示例性的,xr眼镜可以根据bark谱分别将左声道频域数据和右声道频域数据划分为多个子带。
[0148]
例如,bark谱的划分可以参照下述表1所示。
[0149]
表1
[0150]
接下来,xr眼镜可以基于表1示出的bark谱的划分,分别计算左声道频域数据和右声道频域数据中,各个子带的(频域)能量。
[0151]
示例性的,xr眼镜可以根据下述表达式7计算左声道频域数据的子带能量。
[0152]
表达式7。
[0153]
其中,e
l
表示,左声道频域数据的子带能量;i表示,bark子带索引号。
[0154]
又示例性的,xr眼镜可以根据下述表达式8计算右声道频域数据的子带能量。
[0155]
表达式8。
[0156]
其中,er表示,右声道频域数据的子带能量。
[0157]
s601a3.xr眼镜基于左声道子带能量和右声道子带能量计算发声角度。
[0158]
参见上述图6对应的相关描述;在音频对象位于用户正前方时,音频对象在左右声道上的音量大小应是一至的;也就是说,左声道子带能量和右声道子带能量相等时,音频对象应位于用户正前方的。在音频对象位于用户左侧时,音频对象左声道上的音量应大于音频对象右声道上的音量,也就是说,左声道子带能量大于右声道子带能量时,音频对象应位
于用户左侧。在音频对象位于用户右侧时,音频对象右声道上的音量应大于音频对象左声道上的音量,也就是说,右声道子带能量大于左声道子带能量时,音频对象应位于用户右侧。
[0159]
可以理解的,当音频对象的发声角度是0时,也就是说,音频对象位于用户的前方;左声道子带能量与右声道子带能量相等。
[0160]
在一些实施例中,xr眼镜可以根据左声道子带能量和右声道子带能量大小关系(如,比例关系),通过三角函数关系,得到音频对象的发声角度。其中,三角函数关系可以包括:反三角函数(如反正切函数、反余切函数、反正弦函数、反余弦函数、反正割函数、反余割函数)。
[0161]
示例性的,xr眼镜可以根据下述表达式9计算得到音频对象的发声角度。
[0162]
表达式9。
[0163]
其中,θi表示,发声角度。示例性的,θi的取值范围可以是[-π/2,π/2]。ε是一个很小的正实数,例如,0.00001、0.00003等等,用于避免在计算发声角度时,表达式9中出现分母为0的情况。可选的,在另外一些实施例中,表达式9也可以不包括ε,本技术实施例对此不做限定。
[0164]
又示例性的,xr眼镜可以通过神经网络(neural network,nn),从左、声道音频数据中,分离得到每个音频对象在左、右声道上的音频数据,接下来,基于音频对象在左、右声道上音频数据之间的差异,得到音频对象的发声角度。参见图12,步骤s601可以包括:步骤s601b1-s601b3。
[0165]
s601b1.xr眼镜基于音源分离神经网络分别对左声道音频数据和右声道音频数据进行处理,得到音频对象的左声道音频数据和右声道音频数据。
[0166]
其中,音源分离神经网络用于对输入的音频数据进行分离,分离得到音频数据中每个音频对象的音频数据。示例性的,音源分离神经网络可以包括:tasnet神经网络、conv-tasnet神经网络、tdcn神经网络或时域nn网络等等。
[0167]
示例性的,参见图13;xr眼镜可以基于时域nn网络分别对左声道音频数据和右声道音频数据进行处理,得到音频对象的左声道音频数据和右声道音频数据。其中,时域nn网络可以包括:编码网络、分离网络、和解码网络。具体的,xr眼镜可以将左声道音频数据和右声道音频数据输入时域nn网络的编码网络中,通过编码网络分别提取左声道音频数据和右声道音频数据的特征。接下来,将左声道音频数据和右声道音频数据的特征通过分离网络进行归类,得到分离掩码矩阵。之后,将分离掩码矩阵分别与左声道音频数据和右声道音频数据的特征相乘,之后通过解码网络进行解码,得到音频对象的左声道音频数据和右声道音频数据。
[0168]
s601b2.xr眼镜基于音频对象的左声道音频数据和右声道音频数据,计算音频对象的左声道(音频)能量和右声道(音频)能量。
[0169]
示例性的,xr眼镜可以通过下述表达式10,基于音频对象的左声道音频数据,计算音频对象的左声道能量。
[0170]
表达式10。
[0171]
其中,e
m,l
表示,第m个对象的左声道能量,m为对象的索引值;m表示,从左声道音频数据中分离出的音频对象的个数;x
m,l
表示,第m个对象的左声道音频数据。
[0172]
又示例性的,xr眼镜可以通过下述表达式11,基于音频对象的右声道音频数据,计算音频对象的右声道能量。
[0173]
表达式11。
[0174]
其中,e
m,r
表示,第m个对象的右声道能量;x
m,r
表示,第m个对象的右声道音频数据。
[0175]
s601b3.xr眼镜基于音频对象的左声道能量和右声道能量计算音频对象的发声角度。
[0176]
再次参见上述图6对应的相关描述;在音频对象位于用户正前方时,音频对象在左右声道上的音量大小应是一至的;也就是说,左声道能量和右声道能量相等时,音频对象应位于用户正前方的。在音频对象位于用户左侧时,音频对象左声道上的音量应大于音频对象右声道上的音量,也就是说,左声道能量大于右声道能量时,音频对象应位于用户左侧。在音频对象位于用户右侧时,音频对象右声道上的音量应大于音频对象左声道上的音量,也就是说,右声道能量大于左声道能量时,音频对象应位于用户右侧。
[0177]
可以理解的,当音频对象的发声角度是0时,也就是说,音频对象位于用户的前方;左声道能量与右声道能量相等。
[0178]
在一些实施例中,xr眼镜可以通过左声道能量和右声道能量的比值,通过三角函数关系,得到发声角度。
[0179]
示例性的,xr眼镜可以通过下述表达式12,基于音频对象的左声道能量和右声道能量大小关系(如,比例关系),通过三角函数关系得到发声角度。其中,三角函数关系可以包括:反三角函数(如反正切函数、反余切函数、反正弦函数、反余弦函数、反正割函数、反余割函数)。
[0180]
表达式12。
[0181]
其中,θm表示,发声角度。示例性的,θm的取值范围可以是[-π/2,π/2]。ε是一个很小的正实数,例如,0.00001、0.00003等等,用于避免在计算发声角度时,表达式9中出现分母为0的情况。可选的,在另外一些实施例中,表达式12也可以不包括ε,本技术实施例对此不做限定。
[0182]
可以理解的,在一些实施例中,xr眼镜也可以通过上述方式如步骤s601a1-s601a3,步骤s601b1-s601b3,来获取音频的声源角度。
[0183]
s602.xr眼镜基于发声角度与兴趣角度从音频对象中确定目标对象。
[0184]
在一些实施例中,xr眼镜可以将发声角度与兴趣角度相等的音频对象作为目标对象。
[0185]
可以理解的,如果发声角度与兴趣角度相等,则该音频对象是在用户的兴趣方向
上的对象。也就是说,可能是在与用户进行互动的对象(如,与用户交谈、与用户互动、向用户展示表情等等),或者,是用户注意力集中的对象(如,用户视线焦点的对象)。基于此,xr眼镜将该对象作为目标对象。并在后续对目标对象的音频进行增强处理;这样,目标对象的响度就会提升,目标对象的音频的清晰程度也就会提升。
[0186]
在另一些实施例中,xr眼镜也可以将发声角度与兴趣角度匹配的音频对象作为目标对象。
[0187]
示例性的,xr眼镜可以将发声角度与兴趣角度差值的绝对值小于预设的角度阈值的音频对象作为目标对象。考虑到,有时兴趣角度的获取可能不是十分精确;以及,有时用户的视线不会仅仅聚焦在一条直线上,用户的视线会覆盖一个范围方向。基于此,可以将发声角度与兴趣角度的差值小于预设角度阈值的音频对象作为目标对象,这样,可以使得目标对象的确定更加真实、准确。
[0188]
示例性的,参见图14。兴趣角度,和角度阈值如图14中所示。从图14中可知,由于音频对象1402b以及音频对象1401b,均在角度阈值内(也就是,发声角度与兴趣角度的差值小于角度阈值);基于此,xr眼镜可以将音频对象1402b和音频对象1401b作为目标对象。并且,由于音频对象1401a未在角度阈值内(也就是,发声角度与兴趣角度的差值大于预设角度阈值),xr眼镜可以将音频对象1401a作为非目标对象。
[0189]
例如,可以通过下述表达式13或表达式14,计算发声角度与兴趣角度差值的绝对值。
[0190]

θi=|θ-θi|表达式13。
[0191]
其中,

θi表示,发声角度与兴趣角度差值的绝对值;θ表示,兴趣角度;θi表示,发声角度。
[0192]
示例性的,如果

θi小于或等于预设的角度阈值θ
th
,则将该音频对象作为目标对象。其中,角度阈值θ
th
,可以是π/6,或者π/12等等。
[0193]

θm=|θ-θm|表达式14。
[0194]
其中,

θm表示,发声角度与兴趣角度的差值;θm表示,发声角度。
[0195]
示例性的,如果

θm小于或等于预设的角度阈值θ
th
,则将该音频对象作为目标对象。其中,角度阈值θ
th
,可以是π/6,或者π/12等等。
[0196]
s603.xr眼镜对目标对象的音频数据进行增强处理,和/或,对非目标对象的音频数据进行减弱处理。
[0197]
其中,对目标对象的音频数据进行增强处理,可以理解为,增大目标对象的音频数据的响度,或者,增高目标对象的音频数据的振幅。对非目标对象的音频数据进行减弱处理,可以理解为,减小非目标对象的音频数据的响度,或者,降低非目标对象的音频数据的振幅。
[0198]
在一些实施例中,上述步骤s603可以包括:xr眼镜对目标对象的音频数据的响度增大预设倍数(如,1.2倍、1.5倍等等),和/或,xr眼镜对非目标对象的音频数据的响度减小预设倍数。
[0199]
示例性的,参见图15。在图15中,音频对象1301a、1301b、1302a、1302b,两侧示出了该对象左、右声道音频数据的响度。如,音频对象1301a左侧的虚线表示音频对象1301a左声道音频数据的响度,音频对象1301a右侧的虚线表示音频对象1301a右声道音频数据的响
度。图15中,以虚线的长度,示出了响度的大小。在图15的1300部分中,用户的兴趣角度未与图中的音频对象匹配。接下来,用户的兴趣角度变化为图15中的1310部分所示,xr眼镜确定音频对象1302b为目标对象。然后,xr眼镜对音频对象1302b的左、右声道音频数据进行增强处理,以及对非目标对象(如,音频对象1301b、1302a、1301a)的左、右声道音频数据进行减弱处理。xr眼镜音频处理后各音频对象如图15中1310部分所示。从1310部分中可见,对于目标对象1302b的左、右声道音频数据的响度,均被增强。对于非目标对象的左、右声道音频数据的响度,均被减弱。这样,通过本技术实施例提供的音频数据处理方法,用户在使用xr眼镜时,就会感受到目标对象1302b的声音被突出。那么,用户也就可以更加清晰地听到,该用户感兴趣的对象也就是目标对象1302b的声音。从而,可以提升用户感兴趣的对象,也就是目标对象的声音的清晰程度。用户在使用xr眼镜时,就可以清楚地听到该用户感兴趣的音频对象的声音,可以提升用户的使用体验。
[0200]
在一些实施例中,xr眼镜可以仅增大上述图15中的目标对象1302b的声音强度。这样,由于音频对象1302b的声音强度被增大,用户在听觉上就会感受到目标对象1302b被突出。那么,用户就可以更加清晰地听到,该用户感兴趣的对象也就是目标对象1302b的声音。从而,可以提升用户感兴趣的对象,也就是目标对象的声音的清晰程度。
[0201]
在另一些实施例中,xr眼镜也可以仅减小上述图15中非目标对象(如,音频对象1301b、音频对象1302a、音频对象1301a、等)。这样,由于非目标对象的声音强度被减小了。那么,相对来讲,目标音频对象的声音强度也就被增大了。用户在听觉上就会感受到目标对象1302b被突出。那么,用户就可以更加清晰地听到,该用户感兴趣的对象也就是目标对象1302b的声音。从而,可以提升用户感兴趣的对象,也就是目标对象的声音的清晰程度。
[0202]
在一些实施例中,xr眼镜可以基于目标对象的发声角度与兴趣角度,二者间的大小关系(如,差值的绝对值),确定目标对象的增益,并基于目标对象的增益增大目标对象的左、右音频数据的响度。其中,目标对象的增益与目标对象的发声角度与兴趣角度,二者间差值的绝对值负相关;也就是说,二者间差值的绝对值越大,目标对象的增益越小,二者间差值的绝对值越小,目标对象的增益越大。
[0203]
示例性的,参见图16。在图16中,音频对象1501a、1501b、1502a、1502b,两侧示出了该对象左、右声道音频数据的响度。如,音频对象1501a左侧的虚线表示音频对象1501a左声道音频数据的响度,音频对象1501a右侧的虚线表示音频对象1501a右声道音频数据的响度。图16中,以虚线的长度,示出了响度的大小。xr眼镜音频处理前各音频对象如图16中1500部分所示。xr眼镜获取到的兴趣角度如1500部分中所示。接下来,xr眼镜确定音频对象1502b、音频对象1501b为目标对象。然后,xr眼镜可以基于目标对象的发声角度与兴趣角度,二者间差值的绝对值,确定目标对象的增益,并基于目标对象的增益增大目标对象的左、右音频数据的响度。其中,由于音频对象1502b的发声角度与兴趣角度的差值的绝对值比较小;因此,音频对象1502b的增益比较大。由于音频对象1501b的发声角度与兴趣角度的差值的绝对值比较大;因此,音频对象1501b的增益比较小。xr眼镜音频处理后各音频对象如图16中1510部分所示。从1510部分中可见,对于目标对象1502b的左、右声道音频数据的响度,均被增强,以及对于目标对象1501b的左、右声道音频数据的响度,也均被增强。其中,目标对象1502b的响度增强幅度大于,目标对象1501b的响度增强幅度。
[0204]
这样,通过本技术实施例提供的音频数据处理方法,用户在使用xr眼镜时,就会感
受到目标对象1502b的声音,和目标对象1501a的声音被突出。并且目标对象1502b的声音的突出的会比目标对象1502a的声音突出得更加明显。那么,用户就可以清晰地听到,用户感兴趣的对象,也就是目标对象1501b的声音;以及,用户就可以更加清晰地听到,用户感兴趣的对象,也就是目标对象1502a的声音。从而,可以提升用户感兴趣的对象,也就是目标对象的声音的清晰程度。用户在使用xr眼镜时,就可以清楚地听到该用户感兴趣的音频对象的声音,可以提升用户的使用体验。
[0205]
又示例性的,参见图17,音频对象1601a、1601b、1602a、1602b,两侧示出了该对象左、右声道音频数据的响度。如,音频对象1601a左侧的虚线表示音频对象1601a左声道音频数据的响度,音频对象1601a右侧的虚线表示音频对象1601a右声道音频数据的响度。图16中,以虚线的长度,示出了响度的大小。用户在使xr眼镜的过程中,视线从音频对象1602b,经过音频对象1601b,移动至音频对象1602a。也就是说,用户在使用xr眼镜的过程中,注视方向由音频对象1602b,经过音频对象1601b,移动至音频对象1602a。基于注视方向的变化,xr眼镜获取到的兴趣角度也发生了变化。
[0206]
在图17的1600部分中,xr眼镜确定音频对象1602b,和音频对象1601b为目标对象。然后,xr眼镜基于目标对象的发声角度与兴趣角度,二者间差值的绝对值,确定目标对象的增益,并基于目标对象的增益,增大目标对象的左、右音频数据的响度。xr眼镜对目标对象左、右声道音频数据增益后的响度如1600部分所示。
[0207]
接下来,在图17的1610部分中,由于用户的视线发生了变化,也就是注视方向发生了变化。xr眼镜确定音频对象1602b,音频对象1601b和音频对象1602a为目标对象。然后,xr眼镜基于目标对象的发声角度与兴趣角度,二者间差值的绝对值,确定目标对象的增益,并基于目标对象的增益,增大目标对象的左、右音频数据的响度。xr眼镜对目标对象左、右声道音频数据增益后的响度如1610部分所示。
[0208]
然后,在图17的1620部分中,由于用户的视线发生了变化,也就是注视方向发生了变化。xr眼镜确定音频对象1601a,音频对象1602a为目标对象。然后,xr眼镜基于目标对象的发声角度与兴趣角度,二者间差值的绝对值,确定目标对象的增益,并基于目标对象的增益,增大目标对象的左、右音频数据的响度。xr眼镜对目标对象左、右声道音频数据增益后的响度如1620部分所示。
[0209]
这样,在用户的视线移动的过程中;用户就会感受到,音频对象1602a的声音的音量由不变,到小幅度增大,直至大幅度增大。对于,音频对象1602a来讲,其音量在用户的视线移动的过程中,是均匀稳定变化的,不会突然增大,在听感上会更和谐,可以提升用户的使用体验。
[0210]
由此可见,通过基于目标对象的发声角度与兴趣角度,二者间差值的绝对值,确定目标对象的增益,并基于目标对象的增益增大目标对象的左、右音频数据的响度;可以使得目标对象,也就是用户感兴趣的音频对象的声音更加清晰;同时,对于目标对象的响度的变化更加均匀、稳定,可以大大提升用户的使用体验。
[0211]
在一些实施例中,若xr眼镜在上述步骤s602中未确定目标对象,则xr眼镜不进行增强也不进行减弱。
[0212]
例如,xr眼镜可以通过下述表达式15基于目标对象的发声角度与兴趣角度的差值

θi,计算目标对象的增益。
[0213]
表达式15。
[0214]
其中,为最大增益,是一个预设值(如,1.5、2.0、3.2等等)。
[0215]
又例如,xr眼镜可以通下述表达式16基于目标对象的发声角度与兴趣角度的差值

θm,计算目标对象的增益。
[0216] 表达式16。
[0217]
其中,为最大增益,是一个预设值(如,1.5、2.0、3.2等等)。
[0218]
接下来,xr眼镜基于目标对象的增益,对目标对象的音频数据进行放大(增益)。
[0219]
示例性的,xr眼镜可以通过下述表达式组1,基于增益,对目标对象的音频数据进行增益。
[0220]
表达式组1。
[0221]
其中,x
·r表示,增益后的右声道频域数据;x
·
l
表示,增益后的左声道频域数据。
[0222]
又示例性的,xr眼镜可以通过下述表达式组2,基于增益,对目标对象的音频数据进行放大。
[0223]
表达式组2。
[0224]
其中,x
·
m,l
表示,第m个音频对象的放大后的左声道音频数据,x
·
m,r
表示,第m个音频对象的放大后的右声道音频数据。
[0225]
在xr眼镜对目标对象的音频数据放大后,xr眼镜基于放大后的目标对象的音频数据,得到放大后的左声道音频数据,和放大后的右声道音频数据。
[0226]
示例性的,xr眼镜可以通过下述表达式组3,分别对增益后的右声道频域数据和增益后的左声道频域数据,进行频时转换,得到增益后的左声道音频数据,和增益后的右声道音频数据。
[0227]
其中,频时转换是时频转换的逆变换,可以将频域转换到时域。如dft的逆变换是,反离散傅里叶变换(inverse discrete fourier transform,idft)。
[0228]
表达式组3。
[0229]
其中,x
l`
表示,增益后的左声道音频数据;x
r`
表示,增益后的右声道音频数据;运算符“idft”表示,反离散傅里叶变换。
[0230]
又示例性的,xr眼镜可以通过下述表达式组4,对每个音频对象放大后的左声道音频数据和右声道音频数据进行叠加,得到放大后的左声道音频数据和放大后的右声道音频数据。
[0231]
表达式组4。
[0232]
在另一些实施例中,在上述步骤s600之后,xr眼镜可以获取xr眼镜上待播放的音频。接下来,xr眼镜基于兴趣角度,增强待播放的音频中与兴趣角度方向匹配的音频。然后,xr眼镜播放增强后的音频。
[0233]
其中,xr眼镜可以通过上述表达式1、表达式2,将待播放的音频由时域转换为频域,得到频域音频。接下来,xr眼镜可以通过上述表1将频域音频划分为多个子带频域音频。之后,xr眼镜可以通过上述表达式7、表达式8计算每个子带频域音频的能量。接下来,xr眼镜可以基于上述表达式9,基于每个子带频域音频的能量,得到每个子带频域音频的发声角度。之后,xr眼镜从每个子带频域音频的发声角度中,确定与兴趣角度匹配的子带频域音频(如发声角度与兴趣角度相等,或者发声角度与兴趣角度的差值小于角度阈值)。然后,xr眼镜将与兴趣角度方向匹配的音频增强,和/或,将未与兴趣角度方向匹配的音频减弱。
[0234]
下面,将通过一个或多个实施例对本技术实施例提供的音频处理方法进行整体性地介绍。
[0235]
一种音频处理方法,该方法可以应用于xr眼镜。该方法包括:xr眼镜播放第一目标音频,第一目标音频包括第一音频,用户的兴趣角度为第一兴趣角度,第一音频的声源角度未与第一兴趣角度匹配。在xr眼镜播放第一目标音频的过程中,响应于用户的兴趣角度为第一兴趣角度,播放第一强度的第一音频;响应于用户的兴趣角度为第二兴趣角度,播放第二强度的第一音频;其中,第一音频的声源角度与第一兴趣角度相匹配,第一音频的声源角度与第二兴趣角度不匹配,第一强度大于第二强度。例如,在图15的1310部分中用户的兴趣角度为第一兴趣角度,在图15的1300部分中用户的兴趣角度为第二兴趣角度,在图15中的1310部分中,声源角度与第一兴趣角度匹配的第一音频(如音频对象1302b的音频)的声音强度为第一强度,在图15中的1300部分中,声源角度与第二兴趣角度不匹配的第一音频(如音频对象1302b的音频)的声音强度为第二强度。用户的角度由第二兴趣角度变化为第一兴趣角度,第一音频的声音强度由第二强度变化为第一强度,也就是音频的声音强度被增强。
[0236]
其中,第一目标音频是xr眼镜播放的音频,第一音频是第一目标音频的一部分。声源角度用于表征声音来源方向与用户之间的相对位置关系。第一音频是第一目标音频中声源角度在某个角度(如第一角度)的音频。例如,第一音频可以是第一目标音频中,子带的频率范围在某个特定范围(如第一频率范围)内的音频;声源角度是指第一频率范围的音频与用户之间的相对位置关系。再例如,第一音频可以是第一目标音频中,某个或某几个音频对象的音频;声源角度是指音频对象的音频和用户之间的相对位置关系。
[0237]
假设,第一目标音频是包括了流水声和篝火声的音频,第一音频可以是流水声,流水声的声源角度表征了该流水声的来源方向和用户之间的相对位置关系(如左前方)。可以理解的,由于流水声和篝火声,这两个音频的频率范围是不相同的(如,流水声在上述子带索引号为18的bark子带,篝火声在上述子带索引号为3的bark子带),基于此,第一音频也可以理解成子带索引号为18的bark子带;第一音频的声源角度也就表征了子带索引号为18的
bark子带与用户之间的相对位置关系。以及,由于第一目标音频包括了流水声和篝火声,也就是说,第一目标音频包括了音频对象水流和音频对象篝火二者的音频。由此,第一音频还可以理解为音频对象篝火对应的音频;第一音频的声源角度也就表征了音频对象篝火与用户之间的相对位置关系。
[0238]
在上述方法中,第一音频的声音强度会跟随着用户的兴趣角度变化。当用户的兴趣角度与第一音频的声源角度匹配时,也就说明用户对该第一音频比较感兴趣。此时,xr眼镜播放的第一目标音频中的第一音频的声音强度会变大(如由第二强度,变为第一强度)。由于第一音频的声音强度变大了,第一音频的声音就会在第一目标音频中被凸显出来;这样,第一音频的清晰程度就会被提升,用户就可以将第一音频听得更加清楚,可以提升用户的使用体验。
[0239]
在一些实施例中,上述第一目标音频还包括第二音频;第二音频的声源角度与第一兴趣角度不匹配,所述第二音频的声源角度与二兴趣角度不匹配。上述方法还包括:在电子设备播放第一目标音频的过程中,响应于用户的兴趣角度为第一兴趣角度,播放第三强度的第二音频;响应于用户的兴趣角度为第二兴趣角度,播放第三强度的第二音频。
[0240]
在第二音频的声源角度未与用户的兴趣角度匹配时,第二音频的声音强度不发生变化。也就是说,在第一音频的声音强度为第一强度,和第一音频的声音强度为第二强度时,第二音频的声音强度是相同的。这样,由于第一强度大于第二强度,第一音频的声音就会进一步地在第一目标音频中被凸显出来;由此,第一音频的清晰程度就会被提升,用户就可以将第一音频听得更加清楚,可以提升用户的使用体验。
[0241]
在一些实施例中,上述声源角度与兴趣角度相匹配包括声源角度与兴趣角度之间的差异小于或者等于预设角度阈值。上述方法还包括:在电子设备播放第一目标音频的过程中,响应于用户的兴趣角度为为第三兴趣角度,播放第四强度的第一音频。第三兴趣角度与第一音频的声源角度之间的差异,小于第一兴趣角度与第一音频的声源角度之间的差异,第四强度大于第一强度。例如,在图17的1600部分中,用户的兴趣角度为第一兴趣角度,在图17的1610部分中,用户的兴趣角度为第三兴趣角度;第一音频(如音频对象1601b的音频)的声音强度在图17的1600部分中为第一强度,在图17的1610部分中为第四强度。用户的兴趣角度由图17的1600部分中的第一兴趣角度变化为1610部分中的第三兴趣角度,第一音频(如音频对象1601b的音频)的声音强度由第一强度变化为第四强度。也就是,与用户的兴趣角度匹配的音频对象1601b的音频的声音强度变大。
[0242]
在上述实施例中,第一音频的声音强度还会基于用户的兴趣角度与第一音频的声源角度的差异进行不同程度的变化;这样,可以使得第一音频的声音强度的变化更加均匀。在用户的兴趣角度与第一音频的声源角度的差异不断减小的过程中,第一音频的声音强度也会不断增大;这样,用户就会在听觉上感受到,第一音频的声音强度是持续、稳定增大的,不会突然变大。这样,既可以使用户将第一音频听得更加清楚,又可以使得第一音频声音强度的变化比较稳定,不会产生突变,可以进一步地提升用户的使用体验。
[0243]
在另一些实施例中,上述方法还包括:在xr播放第一目标音频的过程中,响应于用户的兴趣角度为第四兴趣角度,第一音频的声源角度未与第四兴趣角度匹配,第一音频的声音强度变化为第七强度,第七强度小于第一强度。例如,在图17的1620部分中,用户的兴趣角度为第四兴趣角度,第一音频(如,音频对象1601b的音频)的声音强度为第七强度。用
户的兴趣角度由图17的1600部分中的第一兴趣角度变化为1620部分中的第四兴趣角度,音频对象1601b不再与用户的兴趣角度匹配,音频对象1601b的音频的声音强度由第一强度变化为第七强度,也就是,音频对象1601b的音频的声音强度变小。
[0244]
在又一些实施例中,上述方法还包括:xr眼镜获取用户的兴趣角度;用户的兴趣角度用于表征用户感兴趣的方向。之后,xr眼镜获取第一音频的声源角度。上述响应于用户的兴趣角度为第一兴趣角度,播放第一强度的第一音频,包括:若获取到用户的兴趣角度为第一兴趣角度,则基于第一兴趣角度与第一音频的声源角度对第一音频进行增强处理,以使得播放第一强度的第一音频。
[0245]
其中,xr眼镜获取用户的兴趣角度的具体实现,可以参见上述步骤s600的相关介绍,在此不再赘述。以及。xr眼镜获取第一音频的声源角度的具体实现,可以参见上述步骤s601的相关介绍,在此不再赘述。以及,xr眼镜基于第二兴趣角度与第一音频的声源角度对第一音频进行增强处理的具体实现,可以参见上述步骤s603的相关介绍,在此不再赘述。
[0246]
在一些实施例中,上述第一目标音频可以包括第一音频和第二音频。在电子设备播放第一目标音频的过程中,响应于用户的兴趣角度为第一兴趣角度,播放第五强度的第二音频;响应于用户的兴趣角度为第二兴趣角度,播放第六强度的第二音频。
[0247]
其中,第一音频的声源角度与第一兴趣角度相匹配,第一音频的声源角度与第二兴趣角度不匹配,第二音频的声源角度与第一兴趣角度不匹配,第二音频的声源角度与第二兴趣角度不匹配。音频的声源角度用于表征音频与用户的位置关系,第五强度小于第六强度,用户的兴趣角度用于表征所述用户感兴趣的方向。
[0248]
例如,在图15的1300部分中用户的兴趣角度为第二兴趣角度,第二音频(如音频对象1301b的音频)的声音强度为第六强度;在图15的1310部分中用户的兴趣角度为第一兴趣角度,第二音频(如音频对象1301b的音频)的声音强度为第五强度。在第二兴趣角度变化为第一兴趣角度后,第二音频的声音强度由第六强度变为第五强度,也就是说,第二音频的音频的声音强度变小。
[0249]
在上述实施例中,第二音频的声音强度会跟随着用户的兴趣角度变化。当用户的兴趣角度与第一音频的声源角度匹配时,也就说明用户对该第一音频比较感兴趣。此时,电子设备播放的第一目标音频中的第二音频的声音强度会变小(如由第六强度变为第五强度)。由于第二音频的声音强度变小了,相对来讲,在第一目标音频中第一音频的声音就可以在听觉上被凸显。这样,第一音频的清晰程度就会被提升,用户就可以将第一音频听得更加清楚,可以提升用户的使用体验。
[0250]
本技术的另外一些实施例中又提供了一种音频处理方法,该方法可以应用于xr眼镜。该方法包括:xr眼镜获取用户的兴趣角度。兴趣角度用于表征使用xr眼镜的用户的兴趣方向。兴趣方向可以理解为,用户感兴趣的方向;也就是说,用户对兴趣方向上的音频对象比较感兴趣,用户对兴趣方向上的音频更加关注,用户也就更想要听清楚来自兴趣方向上的声音。兴趣角度可以包括:注视角度或交互角度。其中,注视角度,可以理解为用户目光注视的角度,可以用来表征用户注意力集中的方向,如用来表征注视方向。交互角度,可以理解为用户与该交互角度上的音频对象进行交互,可以用来表征与用户发生交互的方向,如交互方向。
[0251]
示例性的,xr眼镜可以通过用户的交互操作获取用户的兴趣角度;又示例性的,xr
眼镜也可以通过眼动跟踪传感器获取用户的注视角度;再示例性的,xr眼镜还可以通过fov相机获取用户的交互角度。
[0252]
接下来,xr眼镜响应于用户的兴趣角度为兴趣角度1,播放第二目标音频。
[0253]
然后,xr眼镜响应于用户的兴趣角度从兴趣角度1变化为兴趣角度2,调整第二目标音频包括的音频的信号强度,并播放调整后的第二目标音频;调整后的第二目标音频中处于第一音源角度的音频的信号强度大于调整前处于第一音源角度的音频的信号强度,调整后的第二目标音频中处于第二音源角度的音频的信号强度保持不变。音源角度用于表征发出音频的音源与用户之间的位置关系,如表征发出音频的音源对象与用户之间的方向关系。其中,第一音源角度与兴趣角度2相匹配,第一音源角度与兴趣角度1不匹配;第二音源角度与兴趣角度2、兴趣角度1不匹配。
[0254]
例如,参见上述图17;在图17的1600中用户的兴趣角度为兴趣角度1,音频1602a的声源角度为第一声源角度,音频1601a的声源角度为第二声源角度;在图17的1610中用户的兴趣角度为兴趣角度2。xr眼镜响应于用户的兴趣角度从兴趣角度1变化为兴趣角度2,播放调整后的第二目标音频。在调整后的第二目标音频中,音频对象1602a的声音强度是变大的(如,图17的1610部分中音频对象1602a的声音强度大于图17中1600部分中音频对象1602a的声音强度),音频对象1601a的声音强度不变。在上述过程中,第二目标音频中的音频会跟随用户的兴趣角度变化。当用户的兴趣角度与第一音源角度匹配时,也就表示用户对该第一音源角度的音频比较感兴趣,xr眼镜就会增强第一音源角度的音频。以及,保持在第二目标音频中未与用户兴趣角度匹配的音频的信号强度(如,兴趣角度2的音频)不变。这样,用户感兴趣的音频(如,音频对象1602a的音频)就会在第二目标音频中被凸显出来;那么,用户感兴趣的音频的清晰程度就会被提升,用户就可以将其感兴趣的音频听得更加清楚,可以提升用户的使用体验。
[0255]
接下来,xr眼镜响应于用户的兴趣角度从兴趣角度2变化为兴趣角度3,并播放增大后的第二目标音频。其中,兴趣角度3与第一音源角度之间的差异,小于兴趣角度2与第一音源角度之间的差异,增大后的第二目标音频中处于第一音源角度的音频的信号强度大于增大前处于第一音源角度的音频的信号强度。
[0256]
例如,参见上述图17;在图17的1610中用户的兴趣角度为兴趣角度2,在图17的1620中用户的兴趣角度为兴趣角度3。xr眼镜响应于用户的兴趣角度2变化为兴趣角度3播放增大后的第二目标音频。在增大后的第二目标音频中音频对象1602a的声音强度大于增大前的第二目标音频中音频对象1602a的声音强度(如,图17的1620部分中音频对象1602a的声音强度大于图17中1610部分中音频对象1602a的声音强度)。在上述过程中,音频的信号强度还会基于用户的兴趣角度与音频的音源角度之间的差异进行不同程度的增大。在用户的兴趣角度与音频的音源角度之间的差异不断减小的过程中,用户感兴趣的音频的声音强度也会不断增大。这样,用户就会在听觉上感受到其感兴趣的音频的声音是持续、稳定增大的,不会突然变大。由此,既可以使用户将其感兴趣的音频听得更加清楚,又可以使得其感兴趣的音频的变化比较稳定,不会产生突变,可以进一步地提升用户的使用体验。
[0257]
然后,xr眼镜响应于用户的兴趣角度从兴趣角度2变化为兴趣角度4,xr眼镜播放减小后的第二目标音频。减小后的第二目标音频中处于第一音源角度的音频的信号强度小于减小前处于第一音源角度的音频的信号强度。兴趣角度4与第一音源角度未匹配。
[0258]
例如,参见上述图17,用户的兴趣角度由图17的1610部分中的兴趣角度2变化为图17的1600部分中的兴趣角度4。音频对象1602a的音源角度(也就是第一音源角度)与兴趣角度2匹配变化为与兴趣角度4未匹配。此时xr眼镜播放的目标音频中处于第一音源角度的音频的信号强度小于减小前处于第一音源角度的音频的信号强度,也就是说,在图17的1600部分中音频对象1602a的声音强度小于在图17的1610部分中音频对象1602a的声音强度。
[0259]
其中,xr眼镜获取用户的兴趣角度的具体实现,可以参见上述步骤s600的相关介绍,在此不再赘述。以及。xr眼镜播放第二目标音频的具体实现,可以参见上述步骤s601、s602和s603的相关介绍,在此不再赘述。
[0260]
可以理解的是,为了实现上述功能,xr眼镜包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0261]
本实施例可以根据上述方法示例对xr眼镜进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0262]
参见图18,本技术实施例还提供一种音频处理装置,该装置包括:兴趣角度获取模块,时频变换模块,子带能量计算模块、发声角度计算模块、目标对象确定模块、音频响度增强模块和频时变换模块。
[0263]
其中,兴趣角度获取模块用于执行上述步骤s600,获取用户的兴趣角度。时频转换模块用于执行上述步骤s601a1,得到左声道频域数据和右声道频域数据。子带能量计算模块用于执行上述步骤s601a2,得到左声道频域数据的子带能量和右声道频域数据的子带能量。发声角度计算模块用于执行上述步骤s601a3,得到发声角度。目标对象确定模块,用于执行上述步骤s602,确定目标对象。音频响度增益模块,用于执行上述表达式组1对应的方案,得到增益后的右声道频域数据和增益后的左声道频域数据。频时变换模块,用于执行上述表达式组3对应的方案,得到增益后的左声道音频数据和增益后的右声道音频数据。
[0264]
在一些实施例中,上述音频处理装置还包括:多声道音频播放模块,该多声道音频播放模块用于播放上述增益后的左声道音频数据域和增益后的右声道音频数据。
[0265]
参见图19,本技术实施还提供一种音频处理装置,该装置包括:音源分离神经网络、能量计算模块、发声角度计算模块、目标对象确定模块、音频响度放大模块、音频融合模块和兴趣角度获取模块。
[0266]
其中,兴趣角度获取模块用于执行上述步骤s600,获取用户的兴趣角度。音源分离神经网络用于执行上述步骤s601b1,得到音频对象的右声道音频数据和音频对象的左声道音频数据。能量计算模块用于执行上述步骤s601b2,得到音频对象的右声道能量和音频对象的左声道能量。发声角度计算模块,用于执行上述步骤s601b3,得到发声角度。目标对象确定模块,用于执行上述步骤s602,确定目标对象。音频响度放大模块,用于执行上述表达式组2对应的方案,得到放大后的目标对象的右声道音频数据和放大后的目标对象的左声
道音频数据。音频融合模块用于执行上述表达式组4对应的方案,得到放大后的右声道音频数据和放大后的左声道音频数据。
[0267]
在一些实施例中,上述音频处理模块还包括,多声道音频播放模块,该多声道音频播放模块用于播放上述放大后的右声道音频数据和放大后的左声道音频数据。
[0268]
本技术实施例还提供一种音频处理芯片,如图20所示,该音频处理芯片包括至少一个处理器1901和至少一个接口电路1902。处理器1901和接口电路1902可通过线路互联。例如,接口电路1902可用于从其它装置(例如,存储器)接收信号。又例如,接口电路1902可用于向其它装置(例如处理器1901)发送信号。例如,接口电路1902可读取存储器中存储的指令,并将该指令发送给处理器1901。当该指令被处理器1901执行时,可使得音频处理芯片可以执行上述各实施例中的各个步骤。
[0269]
本技术实施例还提供一种音频模组,该音频模组可以包括上述音频处理芯片和至少两个扬声器。其中,音频处理芯片用于执行上述方法实施例,得到处理后的音频数据。接下来,扬声器播放上述处理后的音频数据。
[0270]
本技术实施例还提供一种电子设备,如图21所示,该电子设备可以包括一个或者多个处理器2001、存储器2002和通信接口2003。
[0271]
其中,存储器2002、通信接口2003与处理器2001耦合。例如,存储器2002、通信接口2003与处理器2001可以通过总线2004耦合在一起。
[0272]
其中,通信接口2003用于与其他设备进行数据传输。存储器2002中存储有计算机程序代码。计算机程序代码包括计算机指令,当计算机指令被处理器2001执行时,使得电子设备执行本技术实施例中的设备认证。
[0273]
其中,处理器2001可以是处理器或控制器,例如可以是中央处理器(central processing unit,cpu),通用处理器,数字信号处理器(digital signal processor,dsp),专用集成电路(application-specific integrated circuit,asic),现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等等。
[0274]
其中,总线2004可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。上述总线2004可以分为地址总线、数据总线、控制总线等。为便于表示,图21中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0275]
本技术实施例还提供一种计算机可读存储介质,该计算机存储介质中存储有计算机程序代码,当上述处理器执行该计算机程序代码时,电子设备执行上述方法实施例中的相关方法步骤。
[0276]
本技术实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述方法实施例中的相关方法步骤。
[0277]
其中,本技术提供的电子设备、计算机可读存储介质或者计算机程序产品均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
[0278]
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0279]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0280]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0281]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0282]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0283]
以上内容,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何在本技术揭露的技术范围内的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种音频处理方法,其特征在于,所述方法包括:获取用户的兴趣角度;所述用户的兴趣角度用于表征所述用户感兴趣的方向;响应于所述用户的兴趣角度为第一兴趣角度,播放目标音频;所述目标音频包括多个音源角度的音频;音源角度用于表征发出音频的音源与所述用户之间的位置关系;响应于所述用户的兴趣角度从所述第一兴趣角度变化为第二兴趣角度,播放调整后的所述目标音频;所述调整后的所述目标音频中处于第一音源角度的音频的信号强度大于调整前处于所述第一音源角度的音频的信号强度;所述第一音源角度与所述第二兴趣角度相匹配,所述第一音源角度与所述第一兴趣角度不匹配。2.根据权利要求1所述的方法,其特征在于,所述调整后的所述目标音频中处于第二音源角度的音频的信号强度保持不变;或者,所述调整后的所述目标音频中处于所述第二音源角度的音频的信号强度变小;所述第二音源角度与所述第一兴趣角度、所述第二兴趣角度不匹配。3.根据权利要求1所述的方法,其特征在于,所述第一音源角度与所述第二兴趣角度相匹配包括:所述第一音源角度与所述第二兴趣角度之间的差异小于或等于预设角度阈值;所述第一音源角度与所述第一兴趣角度不匹配包括:所述第一音源角度与所述第一兴趣角度之间的差异大于所述预设角度阈值。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:响应于所述用户的兴趣角度从所述第二兴趣角度变化为第三兴趣角度,播放增大后的所述目标音频;其中,所述第三兴趣角度与所述第一音源角度之间的差异,小于所述第二兴趣角度与所述第一音源角度之间的差异,所述增大后的所述目标音频中处于所述第一音源角度的音频的信号强度大于增大前处于所述第一音源角度的音频的信号强度。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于所述用户的兴趣角度从所述第二兴趣角度变化为第四兴趣角度,播放减小后的所述目标音频;所述第四兴趣角度与所述第一音源角度未匹配;所述减小后的所述目标音频中处于所述第一音源角度的音频的信号强度小于减小前处于所述第一音源角度的音频的信号强度。6.根据权利要求1-5任一项所述的方法,其特征在于,所述目标音频包括多个声道的音频数据;所述响应于所述用户的兴趣角度为第一兴趣角度,播放所述目标音频,包括:从所述目标音频中分离得到每个声道的音频数据;对于所述每个声道的音频数据进行子带划分得到多个子带的音频数据;对于所述多个子带中的每个子带,根据所述子带的音源角度,对所述子带的音频数据进行强度处理,得到强度处理后的所述目标音频;所述强度处理包括:在所述子带的音源角度与所述第一兴趣角度的差值小于或等于预设角度阈值的情况下,增强所述子带的音频信号强度,在所述子带的音源角度与所述第一兴趣角度的差值大于所述预设角度阈值的情况下,所述子带的音频信号强度保持不变;播放所述强度处理后的所述目标音频。7.根据权利要求6所述的方法,其特征在于,所述子带的音源角度根据所述子带对应的每个声道之间的音频差异以及三角函数关系确定;所述音频差异包括:相位差异、振幅差
异、频率差异、能量差异和波形差异之中的一种或多种。8.根据权利要求7所述的方法,其特征在于,所述增强所述子带的音频信号强度,包括:基于所述子带的音源角度与所述第一兴趣角度之间的差异,得到所述子带的声音强度的增益,所述增益与所述差异负相关;基于所述增益增强所述子带的音频信号强度。9.根据权利要求1-5任一项所述的方法,其特征在于,所述响应于所述用户的兴趣角度为第一兴趣角度,播放所述目标音频,包括:从所述目标音频中分离得到每个音源的音频数据;每个音源对应多个声道的音频数据;对于所述多个音源中每个音源,根据所述音源的音源角度,对所述音源的音频数据进行强度处理;所述强度处理包括:在所述音源的音源角度与所述第一兴趣角度的差值小于或等于预设角度阈值的情况下,增强所述音源对应的每个声道的音频信号强度,在所述音源的音源角度与所述第一兴趣角度的差值大于所述预设角度阈值的情况下,所述音源的音频信号强度保持不变;播放强度处理后的所述目标音频。10.根据权利要求9所述的方法,其特征在于,所述音源的音源角度根据所述音源对应的多个声道之间的音频差异以及三角函数关系确定;所述音频差异包括:相位差异、振幅差异、频率差异、能量差异和波形差异之中的一种或多种。11.根据权利要求10所述的方法,其特征在于,所述增强所述音源对应的每个声道的音频信号强度,包括:基于所述音源的音源角度与所述第一兴趣角度之间的差异,得到所述音源的声音强度的增益,所述增益与所述差异负相关;基于所述增益增强所述每个声道的音频信号强度。12.根据权利要求11所述的方法,其特征在于,所述多个声道包括左声道和右声道。13.根据权利要求1-5任一项所述的方法,其特征在于,所述获取用户的兴趣角度,包括:响应于所述用户的交互操作得到所述用户的兴趣角度。14.根据权利要求1-5任一项所述的方法,其特征在于,所述方法应用于包括眼动跟踪传感器的电子设备;所述用户的兴趣角度包括所述用户的注视角度,所述用户的注视角度用于表征所述用户的注视方向;所述获取用户的兴趣角度,包括:通过所述眼动跟踪传感器检测所述用户的注视角度。15.根据权利要求1-5任一项所述的方法,其特征在于,所述方法应用于包括摄像头的电子设备;所述用户的兴趣角度包括所述用户的交互角度,所述用户的交互角度用于表征与所述用户产生交互的方向;所述获取用户的兴趣角度,包括:通过所述摄像头拍摄视场图片,基于所述视场图片检测所述用户的交互角度。16.一种电子设备,其特征在于,所述电子设备包括存储器、一个或多个处理器,所述存储器与所述处理器耦合;其中,所述存储器中存储有计算机程序代码,所述计算机程序代码
包括计算机指令;当所述计算机指令被所述处理器执行时,使得所述电子设备执行如权利要求1-15任一项所述的方法。17.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-15任一项所述的方法。

技术总结
本申请实施例涉及数据处理领域,尤其涉及一种音频处理方法、电子设备及存储介质。在该方法中,电子设备获取用户的兴趣角度;用户的兴趣角度用于表征用户感兴趣的方向;响应于用户的兴趣角度为第一兴趣角度,播放目标音频;目标音频包括多个音源角度的音频;响应于所述用户的兴趣角度从所述第一兴趣角度变化为第二兴趣角度,播放调整后的所述目标音频;调整后的目标音频中处于第一音源角度的音频的信号强度大于调整前处于第一音源角度的音频的信号强度。通过这种方法,可以提升用户感兴趣的音频的声音的清晰程度,可以提升用户的使用体验。体验。体验。


技术研发人员:许剑峰
受保护的技术使用者:荣耀终端有限公司
技术研发日:2023.09.11
技术公布日:2023/10/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐