一种音源确定方法、系统、电子设备及可读存储介质与流程

未命名 08-02 阅读:117 评论:0


1.本技术涉及音源定位领域,具体而言,涉及一种音源确定方法、系统、电子设备及可读存储介质。


背景技术:

2.通过声音识别技术,可以识别到人声、鼾声、异响、以及运动物体移动时的声音等,因此,可以被广泛应用于语音处理、故障检测等多个方面,相关技术中,声音识别技术仅针对单一对象,且对待识别对象的发音质量要求较高,导致声音识别技术仅能适应环境变化程度较低的情境,因此降低了声音识别技术的泛用性和稳定性。


技术实现要素:

3.本技术的实施例提供了一种音源确定方法、系统、电子设备及可读存储介质,能够应用于多人场景的声音识别中,解决了相关技术中声音识别技术仅能适应环境变化程度较低的情境,导致声音识别技术的泛用性和稳定性均较低的问题。
4.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
5.根据本技术实施例的一个方面,提供了一种音源确定方法,所述音源确定方法包括:获取实时采集的初始音频信息;对所述初始音频信息进行音频识别处理,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的所述初始音频信息作为目标音频信息;对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息;根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息。
6.可选地,获取实时采集的初始音频信息,包括:在至少两个不同的方位设置收音组件,基于至少两个不同的方位的所述收音组件实时进行音频信息采集,得到所述初始音频信息。
7.可选地,所述预设的音频识别条件包括预设音频信号频率范围和预设音频信号音压范围,对所述初始音频信息进行音频识别处理,得到音频识别结果,包括:对所述初始音频信息进行频率特征识别或音压特征识别,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的初始音频信息作为目标音频信息包括:若所述音频识别结果指示所述初始音频信息的频率满足预设音频信号频率范围和所述初始音频信息的音压满足所述预设音频信号音压范围的情况下,将所述音频识别结果对应的初始音频信息作为目标音频信息。
8.可选地,所述对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息,包括:获取所述目标音频信息对应的音频讯号振幅和过零率,所述过零率为所述目标音频信息对应的取样信息跨过零点的次数,所述取样信息为对所述目标音频信息进行多次取
样后得到的;对比所述音频讯号振幅与预设的振幅阈值,得到振幅阈值对比结果;对比所述过零率与所述预设的过零率阈值,得到过零率对比结果;在所述振幅阈值对比结果指示所述音频讯号振幅大于所述振幅阈值,且所述过零率对比结果指示所述过零率小于等于所述过零率阈值的情况下,将所述目标音频信息确定为所述目标音频活动信息。
9.可选地,所述对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息,包括:获取所述目标音频信息对应的音频讯号振幅或过零率,所述过零率为所述目标音频信息对应的取样信息跨过零点的次数,所述取样信息为对所述目标音频信息进行多次取样后得到的;对比所述音频讯号振幅与预设的振幅阈值,得到振幅阈值对比结果;或对比所述过零率与所述预设的过零率阈值,得到过零率对比结果;在所述振幅阈值对比结果指示所述音频讯号振幅大于所述振幅阈值,或所述过零率对比结果指示所述过零率小于等于所述过零率阈值的情况下,将所述目标音频信息确定为所述目标音频活动信息。
10.可选地,音源定位参数包括各个所述收音组件接收到音频信号的时间差、各个所述收音组件之间的间隔距离、音频信号传播速度以及所述目标音频信息的取样率,根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息,包括:基于各个所述收音组件接收到音频信号的时间差、各个所述收音组件之间的间隔距离、音频信号传播速度以及所述目标音频信息的取样率,对所述发声对象进行角度定位,得到所述发声对象与各个所述收音组件间的方位角参数;基于所述音频信号传播速度和各个所述收音组件接收到前、后周期的音频信号的时间差,对所述发声对象进行距离定位估算,得到所述发声对象与所述收音组件间的直线距离参数;根据所述方位角参数和所述直线距离参数,确定在三维空间中所述发声对象与所述收音组件间的相对位置信息,并将所述相对位置信息作为所述目标位置信息。
11.可选地,对红外线影像获取模块对应的影像获取区域进行调整,得到目标影像获取区域,所述目标影像获取区域中包括所述发声对象;
12.通过所述红外线影像获取模块,对所述目标影像获取区域执行红外线影像拍摄操作,得到所述发声对象的红外线影像姿态信息,并对所述红外线影像姿态信息进行存储,所述红外线影像姿态信息用于获取对应的姿态矫正方法。
13.根据本技术实施例的一个方面,提供了一种音源确定系统,所述系统包括收音模块,用于获取实时采集的初始音频信息;处理模块,用于对所述初始音频信息进行音频识别处理,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的所述初始音频信息作为目标音频信息;检测模块,用于对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息;定位模块,用于根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息。
14.根据本技术实施例的一个方面,本技术实施例提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如上所述的方法。
15.根据本技术实施例的一个方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时,使电子设备执行如上所述的方法。
16.根据本技术实施例的一个方面,本技术实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该电子设备执行上述各个实施例中提供如前所述的方法。
17.在本技术的实施例所提供的技术方案通过获取实时采集的初始音频信息;对所述初始音频信息进行音频识别处理,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的所述初始音频信息作为目标音频信息;对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息;根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息,其中,在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,则表明该初始音频信息对应的发声对象为特定的发声对象,在根据目标音频信息进行音频信息活动检测,得到目标音频活动信息后,根据该目标音频信息直接对发声对象进行音源定位,实现了快速、准确获取特定的发声对象的目标位置信息,避免了相关技术中,无法对特定的发声对象进行定位的问题。
18.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
19.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。在附图中:
20.图1是本技术一示例性实施例示出的一种音源确定方法的基本流程图;
21.图2是本技术一示例性实施例示出的一种音源确定系统的基本结构图;
22.图3是本技术一示例性实施例示出的又一种音源确定系统的基本结构图;
23.图4是本技术一示例性实施例示出的一种音源确定方法的基本流程图;
24.图5示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
25.这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
26.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
27.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/,也不是必须按所描述的顺序执行。例如,有的操作/还可以分解,而有的操作/可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
28.还需要说明的是:在本技术中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
29.实施例一
30.为了解决上述技术问题,本技术实施例提供了一种音源确定方法,如图1所示,所述方法包括:
31.s101、获取实时采集的初始音频信息;
32.s102、对所述初始音频信息进行音频识别处理,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的所述初始音频信息作为目标音频活动信息;
33.s103、对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息;
34.s104、根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息。
35.能够理解的是,上述初始音频信息是基于实时采集的声音转换而来的数字信息,其中,实时采集的声音可以是一个发声对象产生的声音,也可以是多个发声对象产生的声音;若确定接收到的声音为一个发声对象产生的,则直接将该声音转换为数字信息得到初始音频信息即可;若确定接收到的声音为多个发声对象产生的,则需要将采集到的声音进行分离,并基于分离后的声音得到每个发声对象对应的初始音频信息。其中,本示例并不限制将声音进行语音角色分离的方法,相关人员可以灵活选取语音角色分离方法来进行声音的语音角色分离。
36.承接上例,收音组件接收到声音后,得到声音的模拟信号,由于模拟信号由于具有多变性,非常容易遭受到外界环境的干扰,且不利于后续信号重制及信号处理,因此,需要将该模拟信号转换为对应的数字信号,得到对应的初始音频信息;
37.本实施例并不限制将模拟信号转换为数字信号的方式,下面以一种将模拟信号转换为数字信号得到初始音频信息为例进行说明:模拟信号转换为数字信号包括采样、量化以及编码三个主要步骤;
38.采样:以一定采样率,在时间轴上对模拟信号进行数字化。具体的,首先,我们沿着时间轴,按照固定的时间间隔t(假设t=0.1s),依次取多个点(如图中1~10所对应波上的点)。此时t称为取样周期,t的倒数为本次取样的目标频率(f=1/t=10hz),f即表示每秒钟进行采样的次数,单位为赫兹(hz)。显然,目标频率越高、单位时间的采样点越多,就能越好的表示原波形(如果高频率、密集地采集无数个点,就相当于完整地记录了原波形)。能够理解的是,目标频率越高、采样点越多,就可以越好的表示原波形。而更详细的说明,可以参考奈奎斯特采样定理:目标频率f,必须大于原始音频信号最大振动频率fmax的2倍(也即f》2*fmax,fmax被称为奈奎斯特频率),采样结果才能用于完整重建原始音频信号;如果采样率低于2*fmax,那么音频采样就存在失真。比如,要对最高频率fmax=8khz的原始音频进行采样,则目标频率f至少为16khz。
39.能够理解的是,具体的采样率可以由相关人员根据实际使用需求灵活设置,本实施例并不对此进行限定。
40.第二步,量化:以一定精度,在幅度轴上对模拟信号进行数字化。具体的,完成采样
后,我们接下来进行音频数字化的第二步,量化。采样是在时间轴上对音频信号进行数字化,得到多个采样点;而量化,则是在幅度方向上进行数字化,得到每个采样点的幅度值。
41.第三步,编码:按特定格式,记录采样/量化后的数据。具体的,经过量化后,我们得到了每个采样点的幅度值。接下来,就是音频信号数字化的最后一步,编码。编码是将每个采样点的幅度量化值,转化为计算机可理解的二进制字节序列。
42.参照编码部分的表格,样本序号为样本采样顺序,样本值(十进制)为量化的幅度值。而样本值(二进制)即为幅度值转换后的编码数据。最终,我们就得到了“0”、“1”形式的二进制字节序列,也即离散的数字信号。这里得到的,是未经压缩的音频采样数据裸流,也叫做pcm音频数据(pulse code modulation,脉冲编码调制)。实际应用中,往往还会使用其他编码算法做进一步压缩,本实施例并不对此进行限制。
43.其中,上述采集的声音可以是发声对象呼吸时所产生的声音,通过采集呼吸时的声音,并将其转换为数字信号得到初始音频信息,并在所述目标音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,根据所述初始音频信息对应的音源定位参数,对所述初始音频信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息,在所述目标音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,表明该初始音频信息对应的发声对象为特定的发声对象,根据该初始音频信息直接对发声对象进行音源定位,实现了快速、准确且稳定地在多人场景中获取特定的发声对象的位置信息,避免了相关技术中,无法对特定的发声对象进行定位的问题。
44.在本实施例的一些示例中,获取实时采集的初始音频,包括:
45.在至少两个不同的方位设置收音组件,基于至少两个不同的方位的所述收音组件实时进行音频采集,得到所述初始音频信息。
46.其中,该收音组件包括但不限于麦克风或是设置有麦克风的终端设备(例如,手机、智能手表等);
47.下面以收音组件为麦克风为例,在一个区域的至少两个不同的方位分别设置麦克风,并同步通过至少两个麦克风实时进行音频信息采集,也即,在进行音频信息采集时,至少两个麦克风是同步工作的,使得采集到的音频信息更为完整,其中,上述两个麦克风为设置在pcb板上的左声道麦克风和右声道麦克风;
48.能够理解的是,本实施例并不限制收音组件的数量以及设置方位,在一个区域的至少两个不同的方位设置收音组件即可,例如,存在两个收音组件,一个放在左侧另一个放在右侧;再例如,存在三个收音组件,两个放在左侧,另一个放在右侧;再例如,存在四个收音组件,东、南、西以及北侧各放置有一个收音组件。
49.在本实施例的一些示例中,所述预设的音频识别条件包括预设音频信号频率范围和预设音频信号音压范围,对所述初始音频信息进行音频识别处理,得到目标音频识别结果,包括:对所述初始音频信息进行频率特征识别或音压特征识别,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的初始音频信息作为目标音频信息包括:若所述音频识别结果指示所述初始音频信息的频率满足预设音频信号频率范围和所述初始音频信息的音压满足所述预设音频信号音压范围的情况下,将所述音频识别结果对应的初始音频信息作为目标音频信息。
50.在对所述初始音频信息进行频率特征识别或音压特征识别,得到初始音频识别结
果的步骤中,首先获取初始音频信息的音频信号频率或者音频信号音压,然后将初始音频信息的频率与预设音频信号频率范围进行匹配和将初始音频信息的音压与预设音频信号音压范围进行匹配,若初始音频信息的频率在预设音频信号频率范围和初始音频信息的音压在预设音频信号音压范围内,则判定在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况,将音频识别结果对应的初始音频信息作为目标音频信息;反之,若初始音频信息的频率不在预设音频信号频率范围或初始音频信息的音压不在预设音频信号音压范围内,判定所述音频识别结果指示所述初始音频信息不满足预设的音频识别条件的情况,不会将音频识别结果对应的初始音频信息作为目标音频信息。
51.在一些示例中,若所述音频识别结果指示所述初始音频信息的频率满足预设音频信号频率范围或所述初始音频信息的音压满足所述预设音频信号音压范围的情况下,将所述音频识别结果对应的初始音频信息作为目标音频信息。
52.能够理解的是,其中预设音频信号频率范围和预设音频信号音压范围为相关人员根据实际使用需求而确定的,例如,相关人员想识别出存在打鼾情况的发声对象,此时,则获取鼾声复合音频率,然后根据鼾声复合音频率确定符合预设音频信号频率范围;获取喉部各区发出打鼾时的声压音强度,然后根据喉部各区发出打鼾时的声压音强度确定符合预设音频信号音压范围。
53.承接上例,获取的喉部各区发出打鼾时的声压音强度如下:
54.(1)软颚之鼾声平均声压音强度为36.58声压音强度(decibel-sound pressure level,dbspl);
55.(2)会厌之鼾声平均声压音强度为23.49dbspl;
56.(3)舌根之鼾声平均声压音强度为16.3dbspl。
57.其中,为了避免误差,设置误差量为3dbspl,进而得到预设音频信号音压范围为33.58dbspl至39.58dbspl、33.58dbspl至39.58dbspl以及13.3dbspl至16.3dbspl;初始音频信息可以为鼾声复合音,包括多种鼾声音频,若初始音频信息中存在音压落入了33.58dbspl至39.58dbspl的范围,且初始音频信息中存在音压落入了33.58dbspl至39.58dbspl的范围,并且初始音频信息的音压落入了13.3dbspl至16.3dbspl的范围,则确定初始音频信息中存在音压在预设音频信号音压范围内;反之,若初始音频信息的音压不满足上述三个条件中的任一一个条件,即初始音频信息的音压未落入33.58dbspl至39.58dbspl的范围,或初始音频信息的音压未落入33.58dbspl至39.58dbspl的范围,或初始音频信息的音压未落入13.3dbspl至16.3dbspl的范围,则确定初始音频信息的音压不在预设音频信号音压范围内。
58.同理,获取的鼾声复合音频率为160~190hz,此时,则将160~190hz作为预设音频信号频率范围,然后确定初始音频信息的频率,若初始音频信息的频率落入了160~190hz范围内,则确定初始音频信息的频率在预设音频信号频率范围内,反之,则确定初始音频信息的频率不在预设音频信号频率范围内。
59.能够理解的是,其中相关人员可以根据实际使用需求设置多个预设音频信号频率范围和多个预设音频信号音压范围,本实施例并不对此进行限制。
60.在本实施例的一些示例中,所述对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息,包括:
61.获取所述初始音频信息对应的音频讯号振幅和过零率;
62.对比所述音频讯号振幅与预设的振幅阈值,得到振幅阈值对比结果;
63.对比所述过零率与所述预设的过零率阈值,得到过零率对比结果;
64.在所述振幅阈值对比结果指示所述音频讯号振幅大于所述振幅阈值,且所述过零率对比结果指示所述过零率小于等于所述过零率阈值的情况下,将所述目标音频信息确定为所述目标音频活动信息。
65.其中,音频讯号振幅表征初始音频信息对应的声音的大小,目标音频信息的音频讯号振幅越大,则声音的音量越大,反之目标音频信息的音频讯号振幅越小,则声音的音量越小;上述预设的振幅阈值可以由相关人员根据实际使用需求所设置,将对比所述音频讯号振幅与预设的振幅阈值,得到振幅阈值对比结果,若音频讯号振幅高于该预设的振幅阈值,则判定目标音频信息的音频讯号振幅满足振幅阈值,则将所述目标音频信息确定为所述目标音频活动信息;反之若音频讯号振幅不高于该预设的振幅阈值,则判定目标音频信息的音频讯号振幅不满足振幅阈值,不会将所述目标音频信息确定为所述目标音频活动信息。
66.其中,过零率(zero crossing rate,zcr)是在声音信号的每一帧中,声音信号的采样值通过零点的次数,预设的过零率阈值可以基于取样数的周期讯号次数确定的,具体的,可以直接将取样数的周期讯号作为预设的过零率阈值,能够理解的是,本示例并不用于限制预设的过零率阈值的确定方式仅为基于取样数的周期讯号次数而确定的,相关人员可以灵活选取确定预设的过零率阈值的方式;通过将过零率与预设的过零率阈值进行比较,得到过零率对比结果,若过零率低于预设的过零率阈值,则表明该目标音频信息是能够使用的正常音频,此时将所述目标音频信息确定为所述目标音频活动信息,若过零率高于过零率阈值,则表明该目标音频信息是噪声,此时,则不会将所述目标音频信息确定为所述目标音频活动信息。
67.承接上例,以直接将取样数的周期讯号作为预设的过零率阈值为例,在获取到目标音频信息的过零率后,将所述目标音频信息的过零率与目标音频信息的取样数的周期讯号进行比对;若取样数的周期讯号次数大于所述过零率,则将所述目标音频信息确定为所述目标音频活动信息;反之,若所述周期讯号次数小于过零率,则判定目标音频信息为噪声,则不会将所述目标音频信息确定为所述目标音频活动信息;
68.在一些示例中,所述对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息,包括:获取所述目标音频信息对应的音频讯号振幅或过零率,所述过零率为所述目标音频信息对应的取样信息跨过零点的次数,所述取样信息为对所述目标音频信息进行多次取样后得到的;对比所述音频讯号振幅与预设的振幅阈值,得到振幅阈值对比结果;或对比所述过零率与所述预设的过零率阈值,得到过零率对比结果;在所述振幅阈值对比结果指示所述音频讯号振幅大于所述振幅阈值,或所述过零率对比结果指示所述过零率小于等于所述过零率阈值的情况下,将所述目标音频信息确定为所述目标音频活动信息。
69.能够理解的是,在一些示例中,可以仅获取所述初始音频信息对应的音频讯号振幅,在所述振幅阈值对比结果指示所述音频讯号振幅大于所述振幅阈值,将所述目标音频信息确定为所述目标音频活动信息,反之不会将所述目标音频信息确定为所述目标音频活动信息。在一些示例中,可以仅获取所述初始音频信息对应的过零率;所述过零率对比结果
指示所述过零率小于等于所述过零率阈值的情况下,将所述目标音频信息确定为所述目标音频活动信息,反之不会将所述目标音频信息确定为所述目标音频活动信息;在一些示例中,则需要在所述振幅阈值对比结果指示所述音频讯号振幅大于所述振幅阈值,和,所述过零率对比结果指示所述过零率小于等于所述过零率阈值的情况下,将所述目标音频信息确定为所述目标音频活动信息。
70.在本实施例的一些示例中,音源定位参数包括各个所述收音组件接收到音频信号的时间差、各个所述收音组件之间的间隔距离、音频信号传播速度以及所述目标音频信息的取样率,根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息,包括:基于各个所述收音组件接收到音频信号的时间差、各个所述收音组件之间的间隔距离、音频信号传播速度以及所述目标音频信息的的取样率,对所述发声对象进行角度定位,得到所述发声对象与各个所述收音组件间的方位角参数;基于所述音频信号传播速度和各个所述收音组件接收到前、后周期的音频信号的时间差,对所述发声对象进行距离定位估算,得到所述发声对象与所述收音组件间的直线距离参数;根据所述方位角参数和所述直线距离参数,确定在三维空间中所述发声对象与所述收音组件间的相对位置信息,并将所述相对位置信息作为所述目标位置信息。
71.承接上例,以在左右两侧分别设置有收音组件为例,左右两边的收音组件因为有隔开一段间距而使得接收到的音频信号的时间不同,声音从最左边收音组件以及右边的收音组件之间的存在接收信号的时间差,根据两个收音组件之间的接收到音频信号的时间差、间隔距离、音频信号传播音速、取样率而可以估算出音频信号对应的发声对象所在的方位角参数,根据收音组件在接收到前后周期的音频信号的时间差及音频信号传播速度可以估算出音频信号对应的发声对象与各个收音组件的直线距离,在得到直线距离参数和方位角参数后,基于该直线距离参数和方位角参数确定在三维空间中所述发声对象与所述收音组件间的相对位置信息,并将所述相对位置信息作为所述目标位置信息。
72.在本实施例的一些示例中,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息之后,所述方法还包括:根据所述目标位置信息,对红外线影像获取模块对应的影像获取区域进行调整,得到目标影像获取区域,所述目标影像获取区域中包括所述发声对象;通过所述红外线影像获取模块,对所述目标影像获取区域执行红外影像拍摄操作,得到所述发声对象的红外线影像姿态信息,并对所述红外线影像姿态信息进行存储,所述红外线影像姿态信息用于获取对应的姿态矫正方法。也即,根据发声对象的位置目标位置信息,将红外影像获取模块的影像获取区域调整为包含发声对象的区域,使得红外影像获取模块能够拍摄到发声对象,得到发声对象的红外线影像姿态信息。能够理解的是,红外线影像获取模块能够在光线充足的情况下对所述目标影像获取区域执行红外影像拍摄操作,得到所述发声对象的红外线影像姿态信息;同时,红外线影像获取模块由于红外线的特性,还能够在黑暗(光线不充足)的情况下对所述目标影像获取区域执行红外影像拍摄操作,得到所述发声对象的红外线影像姿态信息,使得本方案能够适用于光线变化程度较高的情境。
73.其中,以依据打鼾所对应的鼾声复合音频率、声压音强度确定预设音频信号频率范围、预设音频信号音压范围为例,在所述音频识别结果指示所述初始音频信息满足预设
的音频识别条件的情况下,则表明发声对象当前正在打鼾,对打鼾的发声对象进行音源定位,得到打鼾的发声对象的目标位置信息后,对红外线影像获取模块对应的摄像影像获取进行调整,得到目标影像获取区域;通过所述红外线影像获取模块,对所述目标影像获取区域执行红外影像拍摄操作,得到打鼾的发声对象的红外影像姿态信息,并对所述红外影像姿态信息进行存储。
74.在本实施例的一些示例中,所述红外线影像姿态信息包括待矫正姿态信息,所述待矫正姿态信息为所述发声对象发出所述目标音频信息时对应的姿势信息,对所述红外线影像姿态信息进行存储之后,所述方法还包括:查找与所述待矫正姿态信息对应的姿态矫正方法;向所述发声对象展示与所述姿态矫正方法对应的姿态提醒信息。
75.承接上例,以发声对象为打鼾的发声对象为例,不同的姿态会使得发声对象打鼾程度不同,因此,可以基于获取的待矫正姿态信息查找对应的姿态矫正方法,并向所述发声对象展示与所述姿态矫正方法对应的姿态提醒信息,使得发声对象能够根据姿态矫正方法进行姿态矫正。
76.本实施例提供的音源确定方法,所述音源确定方法包括:获取实时采集的初始音频信息;对所述初始音频信息进行音频识别处理,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的所述初始音频信息作为目标音频信息;对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息;根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息,其中,在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,则表明该初始音频信息对应的发声对象为特定的发声对象,在根据目标音频信息进行音频信息活动检测,得到目标音频活动信息后,根据该目标音频信息直接对发声对象进行音源定位,实现了快速、准确获取特定的发声对象的目标位置信息,避免了相关技术中,无法对特定的发声对象进行定位的问题。
77.实施例二
78.基于相同的技术构思,本实施例还提供一种音源确定系统,如图2所示,所述系统包括:
79.收音模块1,用于获取实时采集的初始音频信息;
80.处理模块2,用于对所述初始音频信息进行音频识别处理,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的所述初始音频信息作为目标音频信息;
81.检测模块3,用于对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息;
82.定位模块4,用于根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息。
83.该音源确定系统还包括红外线影像获取模块5,所述红外线影像获取模块5用于根据所述目标位置信息,对红外线影像获取模块5对应的影像获取区域进行调整,得到目标影像获取区域,所述目标影像获取区域中包括所述发声对象;通过所述红外线影像获取模块5,对所述目标影像获取区域执行红外影像拍摄操作,得到所述发声对象的红外影像姿态信
息,所述红外线影像姿态信息用于获取对应的姿态矫正方法;
84.其中,获取实时采集的初始音频信息,包括:在至少两个不同的方位设置收音组件,基于至少两个不同的方位的所述收音组件实时进行音频信息采集,得到所述初始音频信息。
85.其中,所述预设的音频识别条件包括预设音频信号频率范围和预设音频信号音压范围,对所述初始音频信息进行音频识别处理,得到音频识别结果,包括:对所述初始音频信息进行频率特征识别或音压特征识别,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的初始音频信息作为目标音频信息包括:若所述音频识别结果指示所述初始音频信息的频率满足预设音频信号频率范围和所述初始音频信息的音压满足所述预设音频信号音压范围的情况下,将所述音频识别结果对应的初始音频信息作为目标音频信息。
86.其中,所述对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息,包括:获取所述目标音频信息对应的音频讯号振幅和过零率,所述过零率为所述目标音频信息对应的取样信息跨过零点的次数,所述取样信息为对所述目标音频信息进行多次取样后得到的;对比所述音频讯号振幅与预设的振幅阈值,得到振幅阈值对比结果;对比所述过零率与所述预设的过零率阈值,得到过零率对比结果;在所述振幅阈值对比结果指示所述音频讯号振幅大于所述振幅阈值,且所述过零率对比结果指示所述过零率小于等于所述过零率阈值的情况下,将所述目标音频信息确定为所述目标音频活动信息。
87.在一些示例中,所述对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息,包括:获取所述目标音频信息对应的音频讯号振幅或过零率,所述过零率为所述目标音频信息对应的取样信息跨过零点的次数,所述取样信息为对所述目标音频信息进行多次取样后得到的;对比所述音频讯号振幅与预设的振幅阈值,得到振幅阈值对比结果;或对比所述过零率与所述预设的过零率阈值,得到过零率对比结果;在所述振幅阈值对比结果指示所述音频讯号振幅大于所述振幅阈值,或所述过零率对比结果指示所述过零率小于等于所述过零率阈值的情况下,将所述目标音频信息确定为所述目标音频活动信息。
88.其中,音源定位参数包括各个所述收音组件接收到音频信号的时间差、各个所述收音组件之间的间隔距离、音频信号传播速度以及所述目标音频信息的取样率,根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息,包括:基于各个所述收音组件接收到音频信号的时间差、各个所述收音组件之间的间隔距离、音频信号传播速度以及所述目标音频信息的取样率,对所述发声对象进行角度定位,得到所述发声对象与各个所述收音组件间的方位角参数;基于所述音频信号传播速度和各个所述收音组件接收到前、后周期的音频信号的时间差,对所述发声对象进行距离定位估算,得到所述发声对象与所述收音组件间的直线距离参数;根据所述方位角参数和所述直线距离参数,确定在三维空间中所述发声对象与所述收音组件间的相对位置信息,并将所述相对位置信息作为所述目标位置信息。
89.其中,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息之后,所述方法还包括:根据所述目标位置信息,对红外线影像获取模块对应的影像获取区域进行调整,得到目标影像获取区域,所述目标影像获取区域中包括所述发声对象;通过所述红外线影像获取模块,对所述目标影像获取区域执行红外影像拍摄
操作,得到所述发声对象的红外线影像姿态信息,所述红外线影像姿态信息用于获取对应的姿态矫正方法。
90.能够理解的是,该音源确定系统具体包括:一处理器,一音频处理器,滤波器,音频放大器(amplifier),一影像感测器,透镜模块(lens模块),一红外发光二极管模块(ir led模组),一环境光传感器(als感测器),一红外线滤光片(ir cut),一存储器,二精密电容式麦克风等器件,上述器件共同组成了上述收音模块1、处理模块2、检测模块3、定位模块4以及红外线影像获取模块5。
91.应该理解的是,本实施例提供的音源确定系统各个模块组合能够实现上述音源确定方法的各个步骤,达到与音源确定方法的各个步骤相同的技术效果,在此不再赘述。
92.实施例三
93.为了更好的理解本发明,本示例提供一种更为具体的示例进行说明,其中,本示例提供一种音源确定方法,该方法应用于音源确定系统,如图3所示该音源确定系统包括:一处理器,一音频处理器,滤波器,音频放大器(amplifier),一影像感测器,透镜模块(lens模块),一红外发光二极管模块(ir led模组),一环境光传感器(als感测器),一红外线滤光片(ir cut),一存储器(图中記憶體),二精密电容式麦克风等器件,上述器件共同组成了音源确定系统内的收音模块、处理模块、检测模块、定位模块以及拍摄模块。
94.其中,lens模组与影像感测器连接,影像感测器与滤波器连接,滤波器与处理器连接,处理器与存储器连接,其中,处理器还分别与als感测器、ircut以及irled模组连接;
95.具体的,环境光传感器(ambient light sensor,als)是一种能够感知环境光照强度的传感器。红外线滤光片(ir-cut)的作用是阻挡红外线的进入,只允许可见光线进入相机或摄像机。这样可以保证图像清晰度,避免因红外线的干扰而产生图像失真或色差;在白天,红外线滤光片会让可见光线进入相机或摄像机,拍摄出色彩鲜艳的图像;而在夜晚或光线较暗的环境下,红外线滤光片会自动切换到透过红外线的模式,以便于拍摄黑白画面,从而使拍摄图像达到最佳效果。红外线二极管单元(ir-led)是一种发射红外线光波的电子元件,主要用于红外通信、红外遥控器、红外传感器等应用中。它能够将电能转化为红外线能量,发射出的红外线能够在空气中传播,并被接收端的光敏元件接收,从而实现通信、遥控、检测等功能。ir-led具有发射距离远、抗干扰能力强、功耗低、体积小等特点,广泛应用于智能家居、工业自动化、安防监控等领域。具体的,红外线二极管单元包括红外线发射二极管(ir transmitter led)与红外线接收二极管(ir receiver led),红外线发射二极管用于发出红外光,红外线接收二极管用于识别红外线信息,将识别到的红外线信息传输至影像传感器。
96.len模块是透镜模块的一种,可以用于光学成像、光学测量、光通信等领域。它通常由一组透镜、滤光片、光阑等光学元件组成,通过调整这些元件的相对位置和角度,可以改变光线的传播方向、聚焦效果、光强分布等光学参数,从而实现对光学信号的处理和控制。len模块具有结构简单、易于调节、可重复使用等优点,被广泛应用于各种光学系统中。
97.具体来说,该系统包括影像传感器和滤波器,用于采集待监测对象所在区域的光信号;同时,还配备了ir led模块、环境光传感器(als)和红外线滤光片(ir-cut),以辅助影像传感器在照度不足的情况下获取光信号。ir led模块、环境光传感器和红外线滤光片会感测当前环境光情况,并将该信息发送至处理器。处理器会根据这些信息控制ir led模块、
环境光传感器和红外线滤光片的工作,从而调整影像传感器,使其在照度不足的环境中也能够正常工作,进而采集到光信号。
98.其中,两支麦克风分别与对应的amplifier连接,amplifier与a/d转换器连接,a/d转换器与音频处理器连接,音频处理器与处理器连接,两支麦克风、与对应的amplifier、a/d转换器连接以及音频处理器共同作用,用于采集音频信息。
99.以通过上述音源确定方法对打鼾的发声对象进行音源定位为例,如图4所示,图4所示为本示例提供的音源确定方法的流程示意图,首先本音源确定系统的左右各一之电容式高精密度麦克风分别设置在收音区域的左右两侧,用于接收区域范围内的打鼾时的喉部各区发出打鼾时的声压音强度(dbspl;decibel-sound pressure level)得到音频信息,a/d转换器再根据类比电信号将音频信息转换成数字信号,打鼾时的喉部各区发出打鼾时的声压音强度:(1)鼾声复合音频率为:160~190hz;(2)软颚之鼾声平均声压音强度为36.58dbspl;(3)会厌之鼾声平均声压音强度为23.49dbspl;(4)舌根之鼾声平均声压音强度为16.3dbspl。确认出声音压强度确实为打鼾声之后,开始进行打鼾的发声对象定位程序,首先是对接收音频讯号取样并处理模拟转成数字讯号程序,确认是否音频讯号振幅大于门坎值,此为门坎值选择程序(threshold value detection;tvd),门坎值可经由training方式多次调校找出,并且门坎值可以依巨量数据统计来动态调整。之后是过零率判断(zero crossing rate,zcr),透过zcr的计算可以估计取样讯号跨过零点的次数,若zcr《=取样数的周期讯号次数则代表取样数据非噪声,如若zcr》取样数的周期讯号次数则代表取样数据是噪声,这是因为左右声道取值有机会造成左右声道波形差异过大而造成回声噪声。当撷取的音源讯号小于tvd则代表打鼾讯号的结束。左右声道两支电容式高精密度麦克风因为有隔开一段间距而使得接收到的打鼾音源讯号的时间不同,声音从最左边麦克风以及右边的麦克风之间的时间差最大,根据两支mic接收到音频信号的时间差、两支mic的距离、音速、取样率而可以估算出打鼾声所在的方位角,根据接收到的前后鼾声音频的时间差及音速可以估算出打鼾声与系统的直线距离,因此可以估算出打鼾声与打鼾系统的方位角与相对直线距离。
100.确定好打鼾声音源位置后即开启红外线热影像撷取,将打鼾者的睡姿的红外线热影像撷取后储存,如此可以不必在区域范围内以及在黑暗中找寻多个就寝者中何者为打鼾者,撷取后的打鼾者睡姿红外线热影像可以作为校正参考以及找出非侵入式打鼾治疗的参考。
101.实施例四
102.本技术的实施例还提供了一种电子设备,包括一个或多个处理器,以及存储装置,其中,存储装置,用于存储一个或多个计算机程序,当一个或多个计算机程序被一个或多个处理器执行时,使得电子设备实现如上的音源确定方法。
103.图5示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
104.需要说明的是,图5示出的电子设备的计算机系统1800仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
105.如图5所示,计算机系统1800包括处理器(central processing unit,cpu)1801,其可以根据存储在只读存储器(read-only memory,rom)1802中的程序或者从储存部分1808加载到随机访问存储器(random access memory,ram)1803中的程序而执行各种适当
的动作和处理,例如执行上述实施例中的方法。在ram 1803中,还存储有系统操作所需的各种程序和数据。cpu 1801、rom 1802以及ram 1803通过总线1804彼此相连。输入/输出(input/output,i/o)接口1805也连接至总线1804。
106.在一些实施例中,以下部件连接至i/o接口1805:包括键盘、鼠标等的输入部分1806;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分1807;包括硬盘等的储存部分1808;以及包括诸如lan(local area network,局域网)卡、调制解调器等的网络接口卡的通信部分1809。通信部分1809经由诸如因特网的网络执行通信处理。驱动器1810也根据需要连接至i/o接口1805。可拆卸介质1811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1810上,以便于从其上读出的计算机程序根据需要被安装入储存部分1808。
107.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1809从网络上被下载和安装,和/或从可拆卸介质1811被安装。在该计算机程序被处理器(cpu)1801执行时,执行本技术的系统中限定的各种功能。
108.需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
109.附图中的流程图和框图,图示了按照本技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机程序的组合来实现。
110.描述于本技术实施例中所涉及到的单元或者模块可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元或者模块也可以设置在处理器中。其中,这些单元或者模块的名称在某种情况下并不构成对该单元或者模块本身的限定。
111.本技术的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的音源确定方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
112.本技术的另一方面还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该电子设备执行上述各个实施例中提供如前所述的音源确定方法。
113.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
114.本领域技术者在考虑说明书及实践这里公开的实施方式后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
115.上述内容,仅为本技术的较佳示例性实施例,并非用于限制本技术的实施方案,本领域普通技术者根据本技术的主要构思和精神,可以十分方便地进行相应的变通或修改,故本技术的保护范围应以权利要求书所要求的保护范围为准。

技术特征:
1.一种音源确定方法,其特征在于,所述音源确定方法包括:获取实时采集的初始音频信息;对所述初始音频信息进行音频识别处理,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的所述初始音频信息作为目标音频信息;对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息;根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息。2.根据权利要求1所述的方法,其特征在于,获取实时采集的初始音频信息,包括:在至少两个不同的方位设置收音组件,基于至少两个不同的方位的所述收音组件实时进行音频信息采集,得到所述初始音频信息。3.根据权利要求1所述的方法,其特征在于,所述预设的音频识别条件包括预设音频信号频率范围和预设音频信号音压范围,对所述初始音频信息进行音频识别处理,得到音频识别结果,包括:对所述初始音频信息进行频率特征识别或音压特征识别,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的初始音频信息作为目标音频信息包括:若所述音频识别结果指示所述初始音频信息的频率满足预设音频信号频率范围和所述初始音频信息的音压满足所述预设音频信号音压范围的情况下,将所述音频识别结果对应的初始音频信息作为目标音频信息。4.根据权利要求1所述的方法,其特征在于,所述对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息,包括:获取所述目标音频信息对应的音频讯号振幅和过零率,所述过零率为所述目标音频信息对应的取样信息跨过零点的次数,所述取样信息为对所述目标音频信息进行多次取样后得到的;对比所述音频讯号振幅与预设的振幅阈值,得到振幅阈值对比结果;对比所述过零率与所述预设的过零率阈值,得到过零率对比结果;在所述振幅阈值对比结果指示所述音频讯号振幅大于所述振幅阈值,且所述过零率对比结果指示所述过零率小于等于所述过零率阈值的情况下,将所述目标音频信息确定为所述目标音频活动信息。5.根据权利要求1所述的方法,其特征在于,所述对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息,包括:获取所述目标音频信息对应的音频讯号振幅或过零率,所述过零率为所述目标音频信息对应的取样信息跨过零点的次数,所述取样信息为对所述目标音频信息进行多次取样后得到的;对比所述音频讯号振幅与预设的振幅阈值,得到振幅阈值对比结果;或对比所述过零率与所述预设的过零率阈值,得到过零率对比结果;在所述振幅阈值对比结果指示所述音频讯号振幅大于所述振幅阈值,或所述过零率对比结果指示所述过零率小于等于所述过零率阈值的情况下,将所述目标音频信息确定为所
述目标音频活动信息。6.根据权利要求2所述的方法,其特征在于,音源定位参数包括各个所述收音组件接收到音频信号的时间差、各个所述收音组件之间的间隔距离、音频信号传播速度以及所述目标音频信息的取样率,根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息,包括:基于各个所述收音组件接收到音频信号的时间差、各个所述收音组件之间的间隔距离、音频信号传播速度以及所述目标音频信息的取样率,对所述发声对象进行角度定位,得到所述发声对象与各个所述收音组件间的方位角参数;基于所述音频信号传播速度和各个所述收音组件接收到前、后周期的音频信号的时间差,对所述发声对象进行距离定位估算,得到所述发声对象与所述收音组件间的直线距离参数;根据所述方位角参数和所述直线距离参数,确定在三维空间中所述发声对象与所述收音组件间的相对位置信息,并将所述相对位置信息作为所述目标位置信息。7.根据权利要求1所述的方法,其特征在于,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息之后,所述方法还包括:根据所述目标位置信息,对红外线影像获取模块对应的影像获取区域进行调整,得到目标影像获取区域,所述目标影像获取区域中包括所述发声对象;通过所述红外线影像获取模块,对所述目标影像获取区域执行红外线影像拍摄操作,得到所述发声对象的红外线影像姿态信息,并对所述红外线影像姿态信息进行存储,所述红外线影像姿态信息用于获取对应的姿态矫正方法。8.一种音源确定系统,其特征在于,所述系统包括:收音模块,用于获取实时采集的初始音频信息;处理模块,用于对所述初始音频信息进行音频识别处理,得到音频识别结果;在所述音频识别结果指示所述初始音频信息满足预设的音频识别条件的情况下,将所述音频识别结果对应的所述初始音频信息作为目标音频信息;检测模块,用于对所述目标音频信息进行音频信息活动检测,得到目标音频活动信息;定位模块,用于根据所述目标音频活动信息对应的音源定位参数,对所述目标音频活动信息对应的发声对象进行音源定位,得到所述发声对象的目标位置信息。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备执行权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时,使电子设备执行权利要求1至7中任一项所述的方法。

技术总结
本申请的实施例公开了一种音源确定方法、系统、电子设备及可读存储介质,本方案通过获取实时采集的初始音频信息;对初始音频信息进行音频识别处理,得到音频识别结果;在音频识别结果指示初始音频信息满足预设的音频识别条件的情况下,将音频识别结果对应的初始音频信息作为目标音频信息;对目标音频信息进行音频信息活动检测,得到目标音频活动信息;根据目标音频活动信息对应的音源定位参数,对目标音频活动信息对应的发声对象进行音源定位,得到发声对象的目标位置信息,根据该目标音频信息直接对发声对象进行音源定位,实现了快速、准确获取特定的发声对象的目标位置信息。准确获取特定的发声对象的目标位置信息。准确获取特定的发声对象的目标位置信息。


技术研发人员:王冠雄
受保护的技术使用者:立讯精密工业股份有限公司
技术研发日:2023.05.30
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐