语音信息处理方法、装置、电子设备及可读存储介质与流程
未命名
08-02
阅读:66
评论:0

1.本技术属于语音处理技术领域,具体涉及一种语音信息处理方法、装置、电子设备及可读存储介质。
背景技术:
2.针对多人参与的线下会议或现场会议,在会议过程中由于各种因素,例如会议场景嘈杂、发言对象声音较小或者与会对象的听力问题等因素,可能会导致与会对象无法听清发言对象的发言内容,使得与会对象在会议中无法获取到完整的会议信息。
技术实现要素:
3.本技术实施例的目的是提供一种语音信息处理方法、装置、电子设备及可读存储介质,能够解决线下会议或现场会议中与会对象无法听清发言对象的发言内容的问题。
4.第一方面,本技术实施例提供一种语音信息处理方法,方法包括:
5.在n个电子设备连接至第一会议系统的情况下,针对第一会议系统中除发言对象之外的第一与会对象,基于n个电子设备中,与第一与会对象距离最小的第一电子设备采集发言对象的第一音频,其中n为大于1的正整数;
6.在第一音频的音量小于第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备;
7.基于目标电子设备获取发言对象的第二音频;
8.基于目标电子设备对第二音频按照音频参数进行播放,音频参数包括音量值,音量值大于或等于第一音量阈值。
9.第二方面,本技术实施例提供了一种语音信息处理装置,装置包括:
10.第一声音获取模块,用于在n个电子设备连接至第一会议系统的情况下,针对第一会议系统中除发言对象之外的第一与会对象,基于n个电子设备中,与第一与会对象距离最小的第一电子设备采集发言对象的第一音频,其中n为大于1的正整数;
11.目标设备确定模块,用于在第一音频的音量小于第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备;
12.第二声音获取模块,用于基于目标电子设备获取发言对象的第二音频;
13.播放模块,用于基于目标电子设备对第二音频按照音频参数进行播放,音频参数包括音量值,音量值大于或等于第一音量阈值。
14.第三方面,本技术实施例提供了一种电子设备,该设备包括:处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的语音信息处理方法的步骤。
15.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
16.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述
通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
17.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
18.在本技术实施例中,在n个电子设备连接至第一会议系统的情况下,针对第一会议系统中除发言对象之外的第一与会对象,基于n个电子设备中,与第一与会对象距离最小的第一电子设备采集发言对象的第一音频,并在第一音频的音量小于第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备,基于目标电子设备获取发言对象的第二音频,基于目标电子设备对第二音频按照音量进行播放,音量大于或等于第一音量阈值。根据本实施例,在第一与会对象无法听清发言对象的发言声音的情况下,可以基于目标电子设备采用第一与会对象能够听清的音量对发言对象的发言声音进行播放,从而使得第一与会对象能够基于目标电子设备播放的声音,获取到发言对象的发言内容,解决了与会对象无法听清发言对象的发言内容的问题,进而可以保证与会对象在会议中能够获取到完整的会议信息。
附图说明
19.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1是本技术实施例提供的线下会议的场景示意图;
21.图2是本技术实施例提供的虚拟会议室的显示界面示意图;
22.图3是本技术实施例提供一种语音信息处理方法的流程示意图;
23.图4是本技术实施例提供一种确定第一与会对象对应的第一音量阈值的方法的流程示意图;
24.图5是本技术实施例提供一种确定目标电子设备的方法的流程示意图;
25.图6是本技术实施例提供一种确定目标音量的方法的流程示意图;
26.图7是本技术实施例提供的一种语音信息处理装置的结构示意图;
27.图8是本技术实施例提供的电子设备的结构示意图;
28.图9是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
29.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
30.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
31.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的语音信息处理方法、装置、电子设备及可读存储介质进行详细地说明。
32.下面首先对本技术实施例所提供的语音信息处理方法进行介绍。
33.随着科技的发展,电子设备的功能越来越完善,使得电子设备逐渐可以在线下会议或现场会议中得到应用,以提高会议场景的智能化与多样化。一个会议中通常可以包括多个电子设备,多个电子设备可以通过网络等连接方式连接至同一会议系统(下称第一会议系统),从而可以在网络上构成一个虚拟会议现场。
34.例如图1所述,为一个线下会议的场景示意图,其中包括5个与会对象,分别为用户1、用户2、用户3、用户4和用户5,每个与会对象面前分别设置有一个电子设备,分别为设备1、设备2、设备3、设备4和设备5,线下会议中还包括第一会议系统100,设备1、设备2、设备3、设备4和设备5分别通过网络与第一会议系统100连接,连接后在网络上形成一个虚拟会议室,该虚拟会议室可在电子设备1-5中显示,其显示界面如图2所示,其中第一会议系统100可以包括多个电子设备的中控设备,用于对多个电子设备进行控制。
35.在会议中,任意与会对象可以参与发言,参与发言的与会对象即作为发言对象。例如图1所示,在会议中用户1、用户2和用户5均参与发言,则用户1、用户2和用户5均作为发言对象。
36.电子设备可以包括手机、电脑、智能手表等具有收音和播音功能的设备。电子设备可以预先设置在会议现场,可以由与会对象自己提供,比如可以为与会对象的手机。
37.本技术实施例提供的语音信息处理方法可以应用于如图1所示的包含多个电子设备和第一会议系统100的线下会议或现场会议场景,用于解决会议中与会对象无法听清发言对象的发言内容的技术问题。
38.参见图3为本技术实施例提供的一种语音信息处理方法的流程示意图,如图3所示,该方法可以包括如下步骤s31-s34。
39.s31.在n个电子设备连接至第一会议系统的情况下,针对第一会议系统中除发言对象之外的第一与会对象,基于n个电子设备中,与第一与会对象距离最小的第一电子设备采集发言对象的发言声音,其中n为大于1的正整数。
40.第一与会对象为参加会议的所有对象中除发言对象之外的任意与会对象。
41.n个电子设备中的不同电子设备与第一与会对象之间的距离通常不同,将其中与第一与会对象之间的距离最小的电子设备作为第一电子设备。由此可见,第一电子设备包含在n个电子设备中。
42.在基于第一电子设备采集发言对象的第一音频时,可以基于第一电子设备的收音功能对发言对象的发言声音进行现场收音,从而获得第一音频。因为第一电子设备与第一与会对象距离最小,所以第一电子设备通过现场收音采集到的第一音频的音量,最接近第一与会对象在会议现场听到的发言对象的发言声音的音量。因此可以基于第一电子设备采集到的第一音频的音量来判断第一与会对象是否可以听清发言对象的发言声音。
43.s32.在第一音频的音量小于第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备。
44.第一与会对象对应的第一音量阈值为预先设置的用来区分音量是否为第一与会
对象可以听清的音量的阈值,由于不同的与会对象对听得清的定义不同,所以不同的与会对象对应的第一音量阈值不同。
45.第一与会对象可以听清大于或等于其对应的第一音量阈值的声音,而无法听清小于其对应的第一音量阈值的声音。基于此,可以将第一电子设备采集到的第一音频的音量与第一与会对象对应的第一音量阈值进行比较,在第一音频的音量小于第一音量阈值的情况下,确定第一与会对象不能听清发言对象的发言声音,在第一音频的音量大于或等于第一音量阈值的情况下,则确定第一与会对象能够听清发言对象的发言声音。
46.在确定第一与会对象不能听清发言对象的发言声音的情况下,为了使得第一与会对象听清发言对象的发言声音,进一步的,从n个电子设备中确定目标电子设备,以便可以通过目标电子设备对发言对象的发言声音进行处理,从而使第一与会对象能够听清发言对象的发言声音。其中,目标电子设备可以为第一电子设备,也可以为n个电子设备中除第一电子设备之外的其他电子设备。
47.而在确定第一与会对象能够听清发言对象的发言声音的情况下,可以不针对第一与会对象对发言对象的发言声音进行处理,也即无需确定与第一与会对象对应的目标电子设备,也无需再执行s33和s34。
48.s33.基于目标电子设备获取发言对象的第二音频。
49.在基于目标电子设备对发言对象的发言声音进行处理时,先基于目标电子设备获取发言对象的发言声音,将获取到的发言对象的发言声音确定为第二音频。
50.s34.基于目标电子设备对第二音频按照音频参数进行播放,音频参数包括音量值,音量值大于或等于第一音量阈值。
51.在获取到第二音频后,即可由目标电子设备基于音频参数对获取到的第二音频进行调整和播放,其中,音频参数中包含大于或等于第一音量阈值的音量值,如此可以保证对调整后的第二音频进行播放时能够使第一与会对象听清。因为第二音频实际为获取的发言对象的发言声音,因此通过此种方式可以使得第一与会对象听清发言对象的发言声音,进而解决了由于无法听清导致的无法获取到完整的会议信息的问题。
52.本技术实施例提供的一种语音信息处理方法,在n个电子设备连接至第一会议系统的情况下,针对第一会议系统中除发言对象之外的第一与会对象,基于n个电子设备中,与第一与会对象距离最小的第一电子设备采集发言对象的第一音频,并在第一音频的音量小于第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备,基于目标电子设备获取发言对象的第二音频,基于目标电子设备对第二音频按照音量值进行播放,音量值大于或等于第一音量阈值。根据本实施例,在第一与会对象无法听清发言对象的发言声音的情况下,可以基于目标电子设备采用第一与会对象能够听清的目标音量对发言对象的发言声音进行播放,从而使得第一与会对象能够基于目标电子设备播放的声音,获取到发言对象的发言内容,解决了与会对象无法听清发言对象的发言内容的问题,进而可以保证与会对象在会议中能够获取到完整的会议信息。
53.在一些实施例中,在与会对象进入会议现场之后,在执行步骤s31之前,可以先分别确定与各与会对象距离最小的电子设备。
54.作为一种示例,可以在第一会议系统中分别将每个电子设备与会议现场中与该电子设备距离最小的座位进行关联,在与会对象进行会议现场后,确定各与会对象所处的座
位,并在第一会议系统中分别将各与会对象与其所处的座位进行关联。如此,针对任意与会对象,在确定与该与会对象距离最小的电子设备时,可以根据与会对象与座位之间的关联,以及座位与电子设备之间的关联,将与与会对象关联的座位存在关联的电子设备,确定为与该与会对象距离最小的电子设备。
55.以图1为例,各与会对象面前放置的电子设备,为与与会对象所处的座位距离最小的电子设备,如此,可以将与会对象面前放置的电子设备确定为与该与会对象距离最下的电子设备,也即与用户1距离最小的电子设备为设备1,与用户2距离最小的电子设备为设备2,与用户3距离最小的电子设备为设备3,与用户4距离最小的电子设备为设备4,与用户5距离最小的电子设备为设备5。
56.作为另一种示例,在电子设备具备测距功能的情况下,针对任意与会对象,可以基于电子设备的测距功能,确定与该与会对象距离最小的电子设备。具体的,可以在与会对象进行会议现场后,控制电子设备基于测距功能,测量该电子设备周围的各与会对象与该电子设备的距离,将测量的距离与对应的与会对象进行关联后上传至第一会议系统,由第一会议系统根据各电子设备上传的距离和与会对象之间的关联关系,分别确定出与各与会对象距离最小的电子设备。其中,电子设备在基于测距功能测量与与会对象的距离时,可以采集对应的与会对象的声纹信息,在将测量的距离与对应的与会对象进行关联时可以将测量的距离与对应的与会对象的声纹信息进行关联,第一会议系统中可以录入所有与会对象的声纹信息与与会对象之间的关联关系,如此,第一会议系统可以根据电子设备上传的距离与声纹信息的关联关系以及录入的与会对象与声纹信息的关联关系,确定出各距离对应的与会对象,进而分别确定出与各与会对象距离最小的电子设备。
57.作为又一种示例,在电子设备由与会对象提供的情况下,在将电子设备连接至第一会议系统时,可以在第一会议系统中将电子设备与其提供者进行关联。与会对象通常会随身携带自己的电子设备,因此可以认为与会对象与自己提供的电子设备距离最小,基于此,针对任意与会对象,在确定该与会对象距离最小的电子设备时,可以将由该与会对象提供的电子设备,也即与该与会对象关联的电子设备确定为与该与会对象距离最小的电子设备。
58.在确定出与各与会对象距离最小的电子设备后,即可针对第一与会对象执行s31。
59.在一些实施例中,在s31中,在基于第一电子设备采集发言对象的第一音频时,为了保证可以准确的采集到发言对象的第一音频,可以预先在第一会议系统中录入发言对象的声纹信息,第一会议系统可以将发言对象的声纹信息发送至第一电子设备,如此,第一电子设备可以进行音频采集,并将采集到的与发言对象的声纹信息相匹配的音频作为发言对象的第一音频。
60.因为在会议中发言对象通常是不固定的,所以为了保证可以顺利的准确采集到不同发言对象的发言声音,第一会议系统中可以录入全部与会对象对应的声纹信息,在会议过程中,第一会议系统可以实时将当前发言对象的声纹信息发送至第一电子设备。
61.在获取到第一音频后,即可通过上述步骤s32基于第一音频和第一与会对象对应的第一音量阈值来确定第一与会对象是否可以听清发言对象的发言声音。
62.在一些实施例中,在执行上述步骤s32之前,先确定第一与会对象对应的第一音量阈值。如图4所述,确定第一与会对象对应的第一音量阈值时,可以包括如下步骤s41-s44:
63.s41.对第一与会对象进行听力测试,基于测试结果确定第一与会对象对应的第一音量。
64.在实际应用中,可以基于会议现场的电子设备对第一与会对象进行听力测试,例如,可以基于第一电子设备对第一与会对象进行听力测试。以基于第一电子设备对第一与会对象进行听力测试为例,在进行听力测试时,第一电子设备可以播放不同言语强度、音量和/或语速的言语声音,让第一与会对象选择是否能够听清,从而根据第一与会对象的选择确定出适合第一与会对象接听的第一音量。
65.示例性的,在基于第一电子设备对第一与会对象进行听力测试时,第一电子设备播放的言语声音的言语强度在频率上的波动范围一般可以在250~1000hz之间,具体可以根据实际情况确定,音量一般可以在40~60之间,语速可以在120~200字/分钟。通过言语强度、音量和/或语速的组合来测试第一与会对象能够听清的第一音量。例如:第一与会人员在音量为40分贝,语速为150字/分钟,无噪音的环境下,言语辨识度为90%;当音量降低到30分贝,语速提高为180字/分钟,有20分贝言语噪音的情况下,其言语辨识度下降至65,则可以确定需要通过提高非噪音分贝或降低语速或过滤掉无效语料(如风声、噪声等)来提高第一与会人员的言语辨识度,如此可以在音量为40分贝,语速为150字/分钟,无噪音的基础上,进一步对播放的言语声音进行调整,从而使第一与会人员的言语辨识度达到预设值(比如100%),将使第一与会人员的言语辨识度达到预设值的音量作为第一音量。
66.s42.采集第一与会对象所处会议现场的场景信息。
67.因为会议现场通常会存在一些环境噪声,这些环境噪声通常也会影响到第一与会对象对发言对象的发言声音的听感效果。鉴于此,为了保证可以根据音量阈值准确的判断出第一与会对象是否可以听清发言对象的发言声音,在确定音量阈值时除了对第一与会对象进行听力测试之外,还可以考虑会议现场的环境噪音。
68.会议现场的环境噪声通常与会议现场的场景信息相关,因此可以采集会议现场的场景信息。
69.s43.根据场景信息,确定第一与会对象对应的待增强音量。
70.场景信息可以包括以下至少一项:会议现场中的人数、会议现场中基础设备的信息,其中基础设备的信息可以包括:基础设备运行时产生的声音音量、第一与会对象与基础设备之间的距离。其中,基础设备可以包括会议现场中的共用设备,比如空调、投影仪等。
71.在根据场景信息确定第一与会对象对应的待增强音量时,可以包括:
72.根据会议现场中的人数确定第一干扰音量;
73.根据第一与会对象与基础设备之间的距离以及基础设备运行时产生的声音音量,确定基础设备对第一与会对象的第二干扰音量;
74.根据第一干扰音量和第二干扰音量中的至少一项,确定第一与会对象对应的待增强音量。
75.其中,在根据第一干扰音量和第二干扰音量中的至少一项,确定第一与会对象对应的待增强音量时,可以包括:将第一干扰音量确定为第一与会对象对应的待增强音量,将第二干扰音量确定为第一与会对象对应的待增强音量,或,将第一干扰音量和第二干扰音量的和值确定为第一与会对象对应的待增强音量。
76.s44.根据第一音量和待增强音量,确定第一与会对象对应的第一音量阈值。
77.示例性的,可以将第一音量和待增强音量的和值确定为第一与对象对应的第一音量阈值,也可以将第一音量和待增强音量进行加权求和计算后得到的音量值确定为第一与会对象对应的第一音量阈值,其中,在加权求和计算时第一音量和待增强音量各自对应的权值可以根据实际情况确定
78.通过上述方式,在确定第一与会对象对应的第一音量阈值时,除了考虑第一与会对象自身的听力因素之外,还考虑了会议现场的环境噪声,相比于只考虑听力因素,根据此种方式确定出的第一音量阈值可以更加准确的判断出第一与会对象是否可以听清发言对象的发言声音。在一些实施例中,在上述步骤s33中,在确定第一与会对象对应的目标电子设备时,可以直接将与第一与会对象距离最小的第一电子设备确定为目标电子设备。
79.因为第一电子设备与第一与会对象距离最小,所以在一般情况下,相比于其他电子设备,第一电子设备与第一与会对象之间声的传播路径更短,传输消耗的时间更短,过程中的音量损耗也更少,若n个电子设备按照相同的音量进行声音播放,第一与会对象听到的第一电子设备播放的声音的音量通常会最大,也就更容易听清。所以将第一电子设备作为目标电子设备可以使得第一与会对象更快的、更清晰的听到目标电子设备播放的发言对象的发言声音。
80.在一些实施例中,在上述步骤s33中,考虑到第一与会对象在会议中的位姿和第一与会对象与发言对象之间的相对位置关系,通常也会影响到第一与会对象的听感效果,所以在确定第一与会对象对应的目标电子设备时,还可以根据第一与会对象的位姿信息和会议现场的布局信息来确定第一与会对象对应的目标电子设备,如图5所示,确定目标电子设备的方式可以包括以下步骤s51-s53。
81.s51.获取第一与会对象的位姿信息以及第一与会对象所处会议现场的布局信息。
82.其中,会议现场的布局信息可以包括各与会对象的座位分布情况和会议现场中的座位与会议内容展示设备(例如会议屏幕等)之间的位置分布情况。因为会议现场的布局信息在会议过程中通常不会发生变化,所以可以预先将会议现场的布局信息录入到第一会议系统中,如此在使用时可以直接调用。
83.而第一与会对象在会议过程中其位姿可能会发生变化,所以第一与会对象的位姿信息可以实时获取。
84.作为一种示例,在会议现场中设置有可以与第一会议系统通信的图像采集设备的情况下,可以基于图像采集设备来获取第一与会对象的位置信息。
85.示例性的,在需要获取第一与会对象的位姿信息时,可以基于图像采集设备采集第一与会对象的图像,将该图像传输至第一会议系统,第一会议系统基于图像分析技术对该图像进行分析,从而确定出第一与会对象的位姿信息。
86.s52.根据所述位姿信息和所述布局信息确定所述发言对象或会议内容展示设备相对于所述第一与会对象的方向。
87.以目确定会议内容展示设备的方向为例,根据布局信息可以确定会议内容展示设备与第一与会对象所处座位的相对位置关系,比如会议内容展示设备位于第一与会对象所处座位的前方,此时若根据第一与会对象的位姿信息确定其位姿为正对前方,则可以确定会议内容展示设备相对于第一与会对象所处的目标方向为第一与会对象前方。
88.s53.将n个电子设备中位于方向且与第一与会对象距离最小的电子设备确定为第
一与会对象对应的目标电子设备。
89.以目标对象相对于第一与会对象所处的目标方向为第一与会对象的前方为例,在确定目标电子设备时,可以确定位于第一与会对象的前方的电子设备与第一与会对象的距离,将其中与第一与会对象距离最小的电子设备确定为第一与会对象对应的目标电子设备。
90.之所以选取位于方向上的电子设备,是为了保证第一与会对象听到的目标电子设备播放的声音与现场听到的发言对象的发言声音来自同一方向,提高真实性。而之所以选取与第一与会对象距离最小的电子设备,是为了使第一与会对象可以更快的、更清晰的听到目标电子设备播放的声音。
91.通过此种方式确定目标电子设备,可以在保证第一与会对象可以更快的、更清晰的听到目标电子设备播放的发言对象的发言声音的情况下,提高听到的声音的真实性。
92.进一步的,为了避免采用上述方式确定出的目标电子设备与第一与会对象的距离太大,在执行s53时,可以确定位于方向上,且与第一与会对象之间的距离小于预设距离阈值的电子设备,将确定出的电子设备作为备选电子设备,然后从备选电子设备中选取与第一与会对象距离最小的电子设备确定为第一与会对象对应的目标电子设备。其中距离阈值可以根据实际情况设置。
93.通过上述方式,可以保证最终确定出的目标电子设备与第一与会对象之间的距离不会过大,从而一方面可以避免距离过大导致的声音传输时间长、声音衰减严重等问题,也可以从一定程度上避免对其他与会对象造成打扰。
94.进一步的,若没有确定出位于方向上,且与第一与会对象之间的距离小于预设距离阈值的电子设备,也即方向上的电子设备都与第一与会对象的距离均较大,则可以从方向之外的其他方向中,选取一个与第一与会对象的距离在距离阈值内,且距离最小的电子设备作为第一与会对象对应的目标电子设备,以保证最终可以实现基于目标电子设备的语音信息处理。
95.在确定出目标电子设备之后,即可通过s34基于目标电子设备获取发言对象的第二音频。
96.在一些实施例中,在s34中目标电子设备可以采用现场收音的方式来获取发言对象的第二音频。与基于第一电子设备采集第一音频类似,目标电子设备可以根据发言对象的声纹信息实时采集声音,将与该声纹信息匹配的发言声音确定为发言对象的第二音频。
97.考虑到会议现场通常较为嘈杂,采用现场收音可能导致获取到的第二音频不够清晰,所以在一些实施例中,在s34中,可以基于目标电子设备接收第二电子设备采集的发言对象的第二音频,第二电子设备为n个电子设备中与发言对象距离最小的电子设备。
98.因为第二电子设备与发言对象距离最小,所以第二电子设备可以采集到发言对象的音频更清晰,第二电子设备将采集到的发言对象的第二音频通过网络传输的方式传输至目标电子设备,如此目标电子设备便可以获取到发言对象清晰的第二音频,进而可以保证最终播放的音频也比较清晰。
99.在一些实施例中,在执行上述步骤s35之前,可以先确定音频参数,音频参数中包括音量值。
100.如图6所示,确定音频参数中包括的音量值的方式可以包括如下步骤s61-s64。
101.s61.获取目标电子设备与第一与会对象之间的距离。
102.可以基于目标电子设备的测距功能,测量目标电子设备与第一与会对象之间的距离。
103.s62.根据目标电子设备与第一与会对象之间的距离以及第一音量阈值,确定目标电子设备播放的第二音量阈值。
104.因为目标电子设备与第一与会对象之间的距离通常不是0,若直接将第一音量阈值作为目标电子设备的播放音量对发言声音进行播放,则可能会由于声音在传播过程中发生衰减使得传输到第一与会对象耳朵的音量小于第一音量阈值,进而导致第一与会对象无法听清目标电子设备播放的第二音频。鉴于此,为了保证第一与会对象能够听清目标电子设备播放的第二音频,可以根据目标电子设备与第一与会对象之间的距离以及音量阈值确定一个目标电子设备播放的第一音量阈值。
105.在确定目标电子设备播放的第二音量阈值时,可以根据目标电子设备与第一与会对象之间的距离按照现有的音量衰减公式,计算出相应的音量衰减量,然后可以将音量衰减量与音量阈值的和值确定为第二音量阈值。
106.s63.根据第二音量阈值确定音量区间,音量区间的下限值大于或等于第二音量阈值。
107.音量区间的上限值可以根据实际情况确定,保证目标电子设备按照音量区间内的音量进行播放时不会使第一与会对象不舒服即可。
108.作为一个示例,以通过s62确定出的第二音量阈值为40分贝,第一与会对象听起来舒适的最佳音量为50分贝为例,音量区间可以设置为[40,50]。
[0109]
s64.从音量区间中确定一个音量值作为音频参数中包括的音量值。
[0110]
根据前面对音量区间的设置可知,目标电子设备在按照音量区间内的音量值进行音频播放时,第一与会对象肯定可以听到,且不会使第一与会对象不舒服,所以可以从音量区间中随机选取一个音量值作为音频参数中包括的音量值。
[0111]
在一些实施例中,考虑到会议中,除了第一与会对象和发言对象之外,可能还存在其他与会对象,所以为了避免目标电子设备在对第二音频进行播放时影响到其他与会对象,s64在从音量区间中确定一个音量值作为音频参数中包括的音量值时,可以采用如下方式:
[0112]
确定会议现场中与第一与会对象距离最小的第二与会对象;
[0113]
将音量区间中的任意一个音量值作为备选音量值,根据目标电子设备与第二与会对象之间的距离,确定目标电子设备按照备选音量值进行声音播放时,干扰第二与会对象的概率值;
[0114]
在目标电子设备按照备选音量值进行声音播放时,干扰第二与会对象的概率值小于预设概率阈值的情况下,将备选音量值确定为目标音量。
[0115]
其中,概率阈值可以根据实际情况设定。
[0116]
确定目标电子设备按照备选音量值对进行声音播放时,干扰第二与会对象的概率值的方式可以包括:
[0117]
确定目标电子设备与第二与会对象之间的距离,基于该距离确定目标电子设备播放的备选音量值传输到第二与会对象的过程中的衰减量,将备选音量值减去该衰减量得到
第二与会对象预计可以听到的实际音量,根据该实际音量确定目标电子设备按照备选音量值对进行声音播放时干扰第二与会对象的概率值。
[0118]
示例性的,在根据实际音量确定目标电子设备按照备选音量值对进行声音播放时干扰第二与会对象的概率值时,可以将该实际音量与预设的影响音量进行比较,若实际音量小于影响音量,则可以确定干扰第二与会对象的概率值为第一概率值,若实际音量大于或等于影响音量,则确定干扰第二与会对象的概率值为第二概率值。其中,第一概率值小于概率阈值,第二概率值大于或等于概率阈值,影响音量可以为根据先验知识或实验确定出的会对人造成影响的音量。
[0119]
进一步的,在确定目标电子设备按照备选音量值进行声音播放时,干扰第二与会对象的概率值大于或等于概率阈值的情况下,可以降低备选音量值,其中降低后的备选音量值仍处于音量区间内,直至目标电子设备按照备选音量值进行声音播放时,干扰第二与会对象的概率小于概率阈值,将备选音量值作为所述音频参数中包括的音量值。
[0120]
在一些实施例中,因为通常导致用户无法听清的原因除了音量较小之外,还有可能是语速过快等原因,所以音频参数除了音量之外还可以包括语速等参数。
[0121]
作为一种示例,音频参数中的语速可以为根据第一与会对象的实际需求设置,通常可以为较低的语速,因为通常语速越低,越容易被听清。如此,目标电子设备基于语速对第二音频进行调整和播放时,若第二音频的语速较快,则可以降低第二音频的语速,使第一与会对象更容易听清目标电子设备播放的第二音频,从而加强第一与会对象的听感效果。
[0122]
在一些实施例中,在第一与会对象与发言对象为背对关系时,相比于面对关系,第一与会对象更加难以听清发言对象的发言声音。鉴于此,在根据第一音频的音量确定第一与会对象是否可以听清发言对象的发言声音之前,可以先执行如下步骤:
[0123]
确定第一与会对象与发言对象之间是否是背对关系,在第一与会对象与发言对象之间是背对关系的情况下,增大第一与会对象对应的第一音量阈值,如此,可以通过将第一音频的音量与增大后的音量阈值进行比较,来确定第一与会对象是否可以听清发言对象的发言声音,在确定第一音频的音量小于增大后的音量阈值的情况下,确定第一与会对象不能听清发言对象的发言声音。
[0124]
相应的,在上述步骤s32中,在确定第一音频的音量小于增大后的音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备。
[0125]
示例性的,在会议现场设置有图像采集设备的情况下,可以基于图像采集设备采集包含第一与会对象和发言对象的图像,将该图像发送至第一会议系统,第一会议系统基于图像分析技术对该图像进行分析,从而确定第一与会对象与发言对象之间是否是背对关系。
[0126]
示例性的,在确定出第一与会对象与发言对象之间是背对关系的情况下,可以获取预设的音量值,通过将第一与会对象对应的第一音量阈值与预设的音量值相加来实现对音量阈值的增大,将相加得到的音量值作为增大后的音量阈值。其中预设的音量值可以根据实际情况设置,例如可以为5分贝等。
[0127]
在第一与会对象与发言对象为背对关系时,通过将音量阈值进行增大,基于增大后的音量阈值可以更准确的判断出第一与会对象是否可以听清发言对象的发言声音。
[0128]
在一些实施例中,考虑到音量阈值设置可能存在不够准确的问题,使得基于第一
与会对象对应的第一音量阈值无法准确地识别出第一与会对象是否能够听清发言对象的发言声音。例如,由于第一音量阈值设置的较小,在第一与会对象无法听清发言声音的情况下,基于音量阈值却判断出第一与会对象能够听清。鉴于此,针对基于第一音量阈值无法准确地判断出第一与会对象是否能够听清发言对象的发言声音的情况,可以重新进行第一音量阈值的设置,以便提高识别的准确性。
[0129]
例如,若与会对象认为自己无法听清发言对象说话,但距离与其距离最小的电子设备并未识别出其不可以听清,则与会对象可以选择重新调节其对应的第一音量阈值。在进行第一音量阈值调节时,可以基于与该与会对象距离最小的电子设备播放不同音量的声音提供给该与会对象选择,直至选择出与会对象能听清的音量值,并将该音量值更新为该与会对象对应的最新的第一音量阈值,从而实现第一音量阈值的更新。
[0130]
在一些实施例中,考虑到会议中可能会同时存在多个发言对象,但是第一与会对象可能只想了解其中特定发言对象的发言内容。鉴于此,在上述步骤s31中基于n个电子设备中,与第一与会对象距离最小的第一电子设备采集发言对象的第一音频之前,还可以先执行如下步骤:
[0131]
在会议中同时存在m个发言对象的情况下,在与第一与会对象距离最小的第一电子设备中显示m个发言对象对应的标识信息,其中m为大于1的正整数;
[0132]
接收对第一发言对象对应的标识信息的第一输入,第一发言对象为m个发言对象中的任一对象;
[0133]
响应于第一输入,将第一发言对象作为目标发言对象。
[0134]
相应的,在s31中基于n个电子设备中,与第一与会对象距离最小的第一电子设备采集目标发言对象的声音。
[0135]
相应的,在s33中,基于目标电子设备获取目标发言对象的第二音频。
[0136]
通过上述方式,在有m个发言对象同时发言时,第一与会对象可以在第一电子设备中选择自己最感兴趣的发言对象作为目标发言对象,如此,第一电子设备只需判断第一与会对象是否能够听清目标发言对象的发言,并在无法听清是只针对目标发言对象的发言声音进行处理,从而实现针对性的语音处理。
[0137]
本技术实施例提供的语音信息处理方法,执行主体可以为语音信息处理装置。本技术实施例中以语音信息处理装置执行语音信息处理方法为例,说明本技术实施例提供的语音信息处理装置。
[0138]
参见图7,为本技术实施例提供的一种语音信息处理装置的结构意图,如图7所示,该装置可以包括如下模块:
[0139]
第一声音获取模块701,用于在n个电子设备连接至第一会议系统的情况下,针对第一会议系统中除发言对象之外的第一与会对象,基于n个电子设备中,与第一与会对象距离最小的第一电子设备采集发言对象的第一音频;
[0140]
目标设备确定模块702,用于在第一音频的音量小于第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备;
[0141]
第二声音获取模块703,用于基于目标电子设备获取发言对象的第二音频;
[0142]
播放模块704,用于基于目标电子设备对第二音频按照音频参数进行播放,音频参数包括音量值,音量值大于或等于第一音量阈值。
[0143]
在一些实施例中,装置还可以包括阈值设置模块(图中未示出);
[0144]
阈值设置模块可以包括:
[0145]
听力测试子模块,用于在发言声音的音量小于第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备之前,对第一与会对象进行听力测试,基于测试结果确定第一与会对象对应的第一音量;
[0146]
场景信息采集子模块,用于采集第一与会对象所处会议现场的场景信息;
[0147]
待增强音量确定子模块,用于根据场景信息,确定第一与会对象对应的待增强音量;
[0148]
阈值确定子模块,用于根据第一音量和待增强音量,确定第一与会对象对应的第一音量阈值。
[0149]
场景信息包括以下至少一项:会议现场中的人数、会议现场中基础设备的信息,其中基础设备的信息包括基础设备运行时产生的声音音量、第一与会对象与基础设备之间的距离。
[0150]
待增强音量确定子模块,用于:
[0151]
根据会议现场中的人数确定第一干扰音量;
[0152]
根据第一与会对象与基础设备之间的距离以及基础设备运行时产生的声音音量,确定基础设备对第一与会对象的第二干扰音量;
[0153]
根据第一干扰音量和第二干扰音量中的至少一项,确定第一与会对象对应的待增强音量。
[0154]
目标设备确定模块702,用于:
[0155]
获取第一与会对象的位姿信息以及第一与会对象所处会议现场的布局信息;
[0156]
根据位姿信息和布局信息确定目标对象相对于第一与会对象所处的方向,其中目标对象包括发言对象或会议内容展示设备;
[0157]
将n个电子设备中位于目标方向且与第一与会对象距离最小的电子设备确定为第一与会对象对应的目标电子设备。
[0158]
第二声音获取模块703,用于:
[0159]
基于目标电子设备接收第二电子设备采集的发言对象的第二音频,第二电子设备为n个电子设备中与发言对象距离最小的第二电子设备。
[0160]
装置还可以包括目标音量设置模块(图中未示出);
[0161]
目标音量设置模块可以包括:
[0162]
距离确定子模块,用于在基于目标电子设备对第二音频按照音频参数进行播放之前,获取目标电子设备与第一与会对象之间的距离;
[0163]
最小音量确定子模块,用于根据目标电子设备与第一与会对象之间的距离以及音量阈值,确定目标电子设备播放的第二音量阈值;
[0164]
音量区间确定子模块,用于根据第二音量阈值确定音量区间,音量区间的下限值大于或等于第二音量阈值;
[0165]
目标音量确定子模块,用于从音量区间中确定一个音量值作为所述音频参数中包括的音量值。
[0166]
目标音量确定子模块,用于:
[0167]
确定会议现场中与第一与会对象距离最小的第二与会对象;
[0168]
将音量区间中的任意一个音量值作为备选音量值,根据目标电子设备与第二与会对象之间的距离,确定目标电子设备按照备选音量值进行声音播放时,干扰第二与会对象的概率值;
[0169]
在目标电子设备按照备选音量值进行声音播放时,干扰第二与会对象的概率值小于预设概率阈值的情况下,将备选音量值确定为目标音量;
[0170]
在目标电子设备按照备选音量值进行声音播放时,干扰第二与会对象的概率值大于或等于概率阈值情况下,降低备选音量值,其中,降低后的备选音量值处于在音量区间内,直至目标电子设备按照备选音量值进行声音播放时,干扰第二与会对象的概率值小于概率阈值。
[0171]
装置还包括阈值调节模块(图中为示出),用于:
[0172]
在第一音频的音量小于第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备之前,确定第一与会对象与发言对象之间是否是背对关系;
[0173]
在第一与会对象与发言对象之间是背对关系的情况下,增大第一与会对象对应的第一音量阈值;
[0174]
相应的,目标设备确定模块702,用于:
[0175]
在第一音频的音量小于增大后的第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备。
[0176]
装置还包括:目标发言对象确定模块(图中未示出),用于:
[0177]
基于n个电子设备中与第一与会对象距离最小的第一电子设备采集发言对象的第一音频之前,在会议中同时存在m个发言对象的情况下,在与第一与会对象距离最小的第一电子设备中显示m个发言对象对应的标识信息,其中m为大于1的正整数;
[0178]
接收对第一发言对象对应的标识信息的第一输入,第一发言对象为m个发言对象中的任一对象;
[0179]
响应于第一输入,将第一发言对象作为目标发言对象;
[0180]
第一声音获取模块,用于:
[0181]
基于n个电子设备中,与第一与会对象距离最小的第一电子设备采集目标发言对象的声音。
[0182]
本技术实施例提供的一种语音信息处理装置,在n个电子设备连接至第一会议系统的情况下,针对第一会议系统中除发言对象之外的第一与会对象,基于n个电子设备中,与第一与会对象距离最小的第一电子设备采集发言对象的第一音频,并在第一音频的音量小于第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备,基于目标电子设备获取发言对象的第二音频,基于目标电子设备对第二音频按照音频参数进行播放,音频参数包括音量值,音量值大于或等于第一音量阈值。根据本实施例,在第一与会对象无法听清发言对象的发言声音的情况下,可以基于目标电子设备采用第一与会对象能够听清的目标音量对发言对象的发言声音进行播放,从而使得第一与会对象能够基于目标电子设备播放的声音,获取到发言对象的发言内容,解决了与会对象无法听清发言对象的发言内容的问题,进而可以保证与会对象在会议中能够获取到
完整的会议信息。
[0183]
本技术实施例中的语音信息处理装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
[0184]
本技术实施例中的语音信息处理装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
[0185]
本技术实施例提供的语音信息处理装置能够实现图3至图6的方法实施例实现的各个过程,为避免重复,这里不再赘述。
[0186]
可选地,如图8所示,本技术实施例还提供一种电子设备800,包括处理器801和存储器802,存储器802上存储有可在所述处理器801上运行的程序或指令,该程序或指令被处理器801执行时实现上述语音信息处理方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0187]
需要说明的是,本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0188]
图9为实现本技术实施例的一种电子设备的硬件结构示意图。
[0189]
该电子设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。
[0190]
本领域技术人员可以理解,电子设备900还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
[0191]
其中,网络模块902,用于与其他电子设备进行网络连接。
[0192]
处理器910,用于针对除发言对象之外的第一与会对象,基于其连接的n个电子设备中,与第一与会对象距离最小的第一电子设备采集发言对象的第一音频,在第一音频的音量小于第一与会对象对应的第一音量阈值的情况下,从n个电子设备中确定与第一与会对象对应的目标电子设备,基于目标电子设备获取发言对象的第二音频,基于目标电子设备对第二音频按照音频参数进行播放,音频参数包括音量值,音量值大于或等于第一音量阈值。
[0193]
在第一与会对象无法听清发言对象的发言声音的情况下,基于目标电子设备采用第一与会对象能够听清的目标音量对发言对象的发言声音进行播放,从而使得第一与会对
象能够基于目标电子设备播放的第二音频,进而获取到发言对象的发言内容,解决了与会对象无法听清发言对象的发言内容的问题,进而可以保证与会对象在会议中能够获取到完整的会议信息。
[0194]
应理解的是,本技术实施例中,输入单元904可以包括图形处理器(graphics processing unit,gpu)9041和麦克风9042,图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072中的至少一种。触控面板9071,也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
[0195]
存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器909可以包括易失性存储器或非易失性存储器,或者,存储器909可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only8e8ory,ro8)、可编程只读存储器(progra88able ro8,pro8)、可擦除可编程只读存储器(erasable pro8,epro8)、电可擦除可编程只读存储器(electrically epro8,eepro8)或闪存。易失性存储器可以是随机存取存储器(rando8 access 8e8ory,ra8),静态随机存取存储器(static ra8,sra8)、动态随机存取存储器(dyna8ic ra8,dra8)、同步动态随机存取存储器(synchronous dra8,sdra8)、双倍数据速率同步动态随机存取存储器(double data rate sdra8,ddrsdra8)、增强型同步动态随机存取存储器(enhanced sdra8,esdra8)、同步连接动态随机存取存储器(synch link dra8,sldra8)和直接内存总线随机存取存储器(direct ra8bus ra8,drra8)。本技术实施例中的存储器909包括但不限于这些和任意其它适合类型的存储器。
[0196]
处理器910可包括一个或多个处理单元;可选的,处理器910集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器910中。
[0197]
本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述语音信息处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0198]
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ro8、随机存取存储器ra8、磁碟或者光盘等。
[0199]
本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述语音信息处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0200]
应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0201]
本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述语音信息处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0202]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0203]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ro8/ra8、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0204]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
技术特征:
1.一种语音信息处理方法,其特征在于,包括:在n个电子设备连接至第一会议系统的情况下,针对所述第一会议系统中除发言对象之外的第一与会对象,基于n个所述电子设备中,与所述第一与会对象距离最小的第一电子设备采集所述发言对象的第一音频,其中n为大于1的正整数;在所述第一音频的音量小于所述第一与会对象对应的第一音量阈值的情况下,从n个所述电子设备中确定与所述第一与会对象对应的目标电子设备;基于所述目标电子设备获取所述发言对象的第二音频;基于所述目标电子设备对所述第二音频按照音频参数进行播放,所述音频参数包括音量值,所述音量值大于或等于所述第一音量阈值。2.根据权利要求1所述的方法,其特征在于,所述在所述第一音频的音量小于所述第一与会对象对应的第一音量阈值的情况下,从n个所述电子设备中确定与所述第一与会对象对应的目标电子设备之前,所述方法还包括:对所述第一与会对象进行听力测试,基于测试结果确定所述第一与会对象对应的第一音量;采集所述第一与会对象所处会议现场的场景信息;根据所述场景信息,确定所述第一与会对象对应的待增强音量;根据所述第一音量和所述待增强音量,确定所述第一与会对象对应的第一音量阈值。3.根据权利要求2所述的方法,其特征在于,所述场景信息包括以下至少一项:所述会议现场的人数、所述会议现场中基础设备的信息,其中所述基础设备的信息包括:所述基础设备运行时产生的声音音量、所述第一与会对象与所述基础设备之间的距离;所述根据所述场景信息,确定所述第一与会对象对应的待增强音量,包括:根据所述会议现场中的人数确定第一干扰音量;根据所述第一与会对象与所述基础设备之间的距离以及所述基础设备运行时产生的声音音量,确定所述基础设备对所述第一与会对象的第二干扰音量;根据所述第一干扰音量和所述第二干扰音量中的至少一项,确定所述第一与会对象对应的待增强音量。4.根据权利要求1-3任一项所述的方法,其特征在于,所述从n个所述电子设备中确定与所述第一与会对象对应的目标电子设备,包括:获取所述第一与会对象的位姿信息以及所述第一与会对象所处会议现场的布局信息;根据所述位姿信息和所述布局信息确定所述发言对象或会议内容展示设备相对于所述第一与会对象的方向;将所述n个电子设备中位于所述方向且与所述第一与会对象距离最小的电子设备确定为所述第一与会对象对应的目标电子设备。5.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述目标电子设备获取所述发言对象的第二音频,包括:基于所述目标电子设备接收第二电子设备采集的所述发言对象的第二音频,所述第二电子设备为n个所述电子设备中与所述发言对象距离最小的电子设备。6.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述目标电子设备对所述第二音频按照音频参数进行播放之前,所述方法还包括:
获取所述目标电子设备与所述第一与会对象之间的距离;根据所述目标电子设备与所述第一与会对象之间的距离以及所述音量阈值,确定所述目标电子设备播放的第二音量阈值;根据所述第二音量阈值确定音量区间,所述音量区间的下限值大于或等于所述第二音量阈值;从所述音量区间中确定一个音量值作为所述音频参数中包括的音量值。7.根据权利要求6所述的方法,其特征在于,所述从所述音量区间中确定一个音量值作为所述音频参数中包括的音量值,包括:确定会议现场中与所述第一与会对象距离最小的第二与会对象;将所述音量区间中的任意一个音量值作为备选音量值,根据所述目标电子设备与所述第二与会对象之间的距离,确定所述目标电子设备按照所述备选音量值进行声音播放时,干扰所述第二与会对象的概率值;在所述目标电子设备按照所述备选音量值进行声音播放时,干扰所述第二与会对象的概率值小于预设概率阈值的情况下,将所述备选音量值确定为目标音量;在所述目标电子设备按照所述备选音量值进行声音播放时,干扰所述第二与会对象的概率值大于或等于所述概率阈值的情况下,降低所述备选音量值,其中,降低后的备选音量值处于所述音量区间内,直至所述目标电子设备按照所述备选音量值进行声音播放时,干扰所述第二与会对象的概率值小于所述概率阈值。8.根据权利要求1-3任一项所述的方法,其特征在于,所述在所述第一音频的音量小于所述第一与会对象对应的第一音量阈值的情况下,从n个所述电子设备中确定与所述第一与会对象对应的目标电子设备之前,所述方法还包括:确定所述第一与会对象与所述发言对象之间是否是背对关系;在所述第一与会对象与所述发言对象之间是背对关系的情况下,增大所述第一与会对象对应的第一音量阈值;所述在所述第一音频的音量小于所述第一与会对象对应的第一音量阈值的情况下,从n个所述电子设备中确定与所述第一与会对象对应的目标电子设备,包括:在所述第一音频的音量小于增大后的所述第一与会对象对应的第一音量阈值的情况下,从n个所述电子设备中确定与所述第一与会对象对应的目标电子设备。9.根据权利要求1-3任一项所述的方法,其特征在于,所述基于n个所述电子设备中,与所述第一与会对象距离最小的第一电子设备采集所述发言对象的第一音频之前,所述方法还包括:在所述会议中同时存在m个发言对象的情况下,在与所述第一与会对象距离最小的第一电子设备中显示所述m个发言对象对应的标识信息,其中m为大于1的正整数;接收对第一发言对象对应的标识信息的第一输入,所述第一发言对象为所述m个发言对象中的任一对象;响应于所述第一输入,将所述第一发言对象确定为目标发言对象;所述基于n个所述电子设备中,与所述第一与会对象距离最小的第一电子设备采集所述发言对象的第一音频,包括:基于n个所述电子设备中,与所述第一与会对象距离最小的第一电子设备采集所述目
标发言对象的第一音频。10.一种语音信息处理装置,其特征在于,包括:第一声音获取模块,用于在n个电子设备连接至第一会议系统的情况下,针对所述第一会议系统中除发言对象之外的第一与会对象,基于n个所述电子设备中,与所述第一与会对象距离最小的第一电子设备采集所述发言对象的第一音频,其中n为大于1的正整数;目标设备确定模块,用于在所述第一音频的音量小于所述第一与会对象对应的第一音量阈值的情况下,从n个所述电子设备中确定与所述第一与会对象对应的目标电子设备;第二声音获取模块,用于基于所述目标电子设备获取所述发言对象的第二音频;播放模块,用于基于所述目标电子设备对所述第二音频按照音频参数进行播放,所述音频参数包括音量值,所述音量值大于或等于所述第一音量阈值。11.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器,所述存储器存储可在所述处理上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-9任意一项所述的语音信息处理方法的步骤。12.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-9任意一项所述的语音信息处理方法。
技术总结
本申请公开了一种语音信息处理方法、装置、电子设备及可读存储介质,属于语音处理技术领域。在N个电子设备连接至第一会议系统的情况下,针对第一会议系统中除发言对象之外的第一与会对象,基于N个电子设备中,与第一与会对象距离最小的第一电子设备采集发言对象的第一音频;在第一音频的音量小于第一与会对象对应的第一音量阈值的情况下,从N个电子设备中确定与第一与会对象对应的目标电子设备;基于目标电子设备获取发言对象的第二音频;基于目标电子设备对第一音频按照音频参数进行播放,音频参数包括音量值,音量值大于或等于第一音量阈值。一音量阈值。一音量阈值。
技术研发人员:蔡静洁
受保护的技术使用者:维沃移动通信有限公司
技术研发日:2023.04.27
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/