多音区语音识别方法、装置、车辆及存储介质与流程

未命名 09-29 阅读:117 评论:0


1.本公开涉及信息技术领域,尤其涉及一种多音区语音识别方法、装置、车辆及存储介质。


背景技术:

2.现在车载语音已经越来越普及,用户可使用车载语音助手,通过语音交互来实现导航、播放语音以及车辆控制等功能。
3.为满足用户的需求,车载语音助手已经可实现对车辆座舱内的用户的定向语音交互,以避免车辆座舱内其他位置的声音带来的干扰。但是,在车载语音助手与用户进行定向语音交互的过程中,如果用户移动至其他位置进行发声,车载语音助手则无法继续与用户进行语音交互,降低了用户的体验。


技术实现要素:

4.为了解决上述技术问题,本公开提供了一种多音区语音识别方法、装置、车辆及存储介质。
5.本公开实施例第一方面提供了一种多音区语音识别方法,该方法包括:
6.获取位于目标车辆的座舱内的用户发出的实时交互语音;
7.确定实时交互语音对应的第一来源音区;
8.在第一来源音区为目标音区的情况下,对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令,目标音区包括用户发出的唤醒语音对应的第二来源音区以及第二来源音区的相邻音区。
9.本公开实施例第二方面提供了一种多音区语音识别装置,该装置包括:
10.第一获取模块,用于获取位于目标车辆的座舱内的用户发出的实时交互语音;
11.第一确定模块,用于确定实时交互语音对应的第一来源音区;
12.识别模块,用于在第一来源音区为目标音区的情况下,对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令,目标音区包括用户发出的唤醒语音对应的第二来源音区以及第二来源音区的相邻音区。
13.本公开实施例第三方面提供了一种车辆,包括存储器和处理器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,实现第一方面的多音区语音识别方法。
14.本公开实施例第四方面提供了一种计算机可读存储介质,存储介质中存储有计算机程序,当计算机程序被处理器执行时,实现第一方面的多音区语音识别方法。
15.本公开实施例提供的技术方案与现有技术相比具有如下优点:
16.本公开实施例中,在获取到位于目标车辆的座舱内的用户发出的实时交互语音之后,可以确定实时交互语音对应的第一来源音区,如果第一来源音区为目标音区,则对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令,由于目标音区包括用户发出的唤醒语音对应的第二来源音区以及第二来源音区的相邻音区,因此,用户即可以在
唤醒语音对应的第二来源音区实现语音交互,也可以在第二来源音区的相邻音区实现语音交互,进而在车载语音助手与用户进行定向语音交互的过程中,即便用户从唤醒车载语音助手的音区移动到相邻音区,也可以正常与车载语音助手进行语音交互,提升了用户的体验。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
18.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是本公开实施例提供的一种多音区语音识别方法的车辆座舱的示意图;
20.图2是本公开实施例提供的一种多音区语音识别方法的流程图;
21.图3是本公开实施例提供的另一种多音区语音识别方法的流程图;
22.图4是本公开实施例提供的一种目标音区确认方法的流程图;
23.图5是本公开实施例提供的一种多音区语音识别装置的结构示意图;
24.图6是本公开实施例提供的一种车辆的结构示意图。
具体实施方式
25.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
26.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
27.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
28.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
29.本公开实施例提供的多音区语音识别方法,可以应用于一种车辆座舱中,为了使座舱中全体成员都能使用语音服务,在车辆座舱中可设置一个或多个麦克风,一个麦克风接收声音的范围叫做一个音区,一个音区可以对应一个或多个座位区域,麦克风可以按照座椅位置,将车内空间细分为多个独立音区,可以对每个音区独立采集语音信号,麦克风使得每个音区之间都具有足够的隔离度,可以隔离来自其他音区的声音,麦克风可以将采集
的语音信号发送至多音区语音识别装置,多音区语音识别装置可以对各个音区的语音信号进行处理,实现语音识别和语音交互,还可以将语音识别的结果发送到车机屏幕上,车机屏幕将结果进行显示。其中,麦克风主要由多个数字麦克风、一颗数字信号处理(digital signal processing,dsp)芯片以及一颗汽车音频总线(automotive audio bus,a2b)芯片组成。
30.例如,图1为本公开实施例提供的一种多音区语音识别方法的车辆座舱示意图,将座舱空间100按车头到车尾方向划分为六个音区,101为主驾音区,范围为主驾座椅区域;102为副驾音区,范围为副驾座椅区域;103为二排左音区,范围为第二排左边座椅区域;104为二排右音区,范围为第二排右边座椅区域;105为三排左音区,范围为第三排左边座椅区域;106为三排右音区,范围为第三排右边座椅区域,每个音区安装有对应收音范围的麦克风,六个音区可以实现独立拾音,且能够自动屏蔽其他音区的声源。例如,在某个音区内有人正在打电话,这时对于其他音区可以正常进行语音识别,不会受到干扰。107为中控台的车机屏幕,可以将语音识别的过程可视化。图1只是多音区语音识别方法的车辆座舱的示例性说明,而不是唯一说明。
31.相关技术为满足用户的需求,车载语音助手已经可实现对车辆座舱内的用户的定向语音交互,以避免车辆座舱内其他位置的声音带来的干扰。但是,在车载语音助手与用户进行定向语音交互的过程中,如果用户移动至其他位置进行发声,车载语音助手则无法继续与用户进行语音交互,降低了用户的体验。
32.针对相关技术在用户移动位置后无法进行语音交互方面存在的缺陷,本公开实施例提供了一种多音区语音识别方法、装置、车辆及存储介质,可以在车载语音助手与用户进行定向语音交互的过程中,即便用户从唤醒车载语音助手的音区移动到相邻音区,也可以正常与车载语音助手进行语音交互,提升了用户的体验。
33.为了更好的理解本公开实施例的发明构思,下面结合示例性的实施例对本公开实施例的技术方案进行说明。
34.图2是本公开实施例提供的一种多音区语音识别方法的流程图,该方法可以由设置于目标车辆内的多音区语音识别装置执行。如图2所示,本实施例提供的多音区语音识别方法包括如下步骤:
35.步骤201、获取位于目标车辆的座舱内的用户发出的实时交互语音。
36.本公开实施例中的实时交互语音可以理解为用户在当前时刻发出的交互语音。
37.本公开实施例中,在当前时刻下,位于目标车辆的座舱内的用户想要与目标车辆内的车载语音助手进行语音交互时,用户可以发出语音,多音区语音识别装置可以获取用户发出的语音。
38.可选的,目标车辆的麦克风采集座舱内的用户发出的实时交互语音,并将实时交互语音发送给目标车辆的多音区语音识别装置,使多音区语音识别装置可以获取用户发出的语音。
39.步骤202、确定实时交互语音对应的第一来源音区。
40.本公开实施例中,多音区语音识别装置接收到用户发出的实时交互语音后,可以确定实时交互语音对应的音区,并将实时交互语音对应的音区确定为第一来源音区。
41.本公开实施例中的第一来源音区可以理解为发出该实时交互语音的用户所处的
音区,由于一个音区对应一个麦克风接收声音的范围,即音区与麦克风是一一对应的,因此,可以通过接收用户发出的语音的麦克风的音区确定语音的第一来源音区。
42.具体的,多音区语音识别装置可以首先确定采集用户语音的麦克风,进而将采集用户语音的麦克风确定为目标麦克风,然后根据目标麦克风接收声音的范围确定目标麦克风所属的音区,将目标麦克风所属的音区确定为第一来源音区。
43.例如,在图1中,当实时交互语音从车辆座舱的主驾座椅区域发出时,多音区语音识别装置将主驾座椅区域所处的主驾音区确定为实时交互语音的音区,并将主驾音区确定为第一来源音区。这里仅是对确定第一来源音区的示例性说明,而不是唯一说明。
44.其中,每个音区可以具有一个唯一的音区标识,多音区语音识别装置可以预先存储有每个麦克风接收声音的范围对应的各个音区的音区标识,由此,当多音区语音识别装置确定目标麦克风之后,可以获取预先存储的目标麦克风对应的音区标识,进而获取到的音区标识对应的音区作为第一来源音区。
45.步骤203、在第一来源音区为目标音区的情况下,对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令,目标音区包括用户发出的唤醒语音对应的第二来源音区以及第二来源音区的相邻音区。
46.本公开实施例中的唤醒语音可以理解为用户唤醒多音区语音识别装置中的语音识别功能模块的问候语,其中,每个目标车辆对应特定的问候语,多音区语音识别装置在接收到用户的问候语之后,判断该问候语是否是该目标车辆的特定问候语,若是,开启语音识别功能模块,若不是,则无法开启语音识别功能模块,语音识别功能模块开启之后,用户可以与目标车辆进行语音交互。如果目标车辆没有接收到用户的唤醒语音,语音识别功能模块则无法开启,进而无法与用户进行语音交互。
47.本公开实施例中的第二来源音区可以理解为用户发出的唤醒语音对应的音区,第二来源音区的相邻音区可以包括位于第二来源音区的前后左右四个方向的音区。例如,在图1中,用户在第二排左边座椅区域对目标车辆发出唤醒语音,第二排左边座椅区域所处的二排左音区即为唤醒语音对应的音区,也就是第二来源音区,二排左音区的相邻音区包括主驾音区、二排右音区和三排左音区。这里仅是对第二来源音区和相邻音区的示例性说明,而不是唯一说明。
48.本公开实施例中,在第一来源音区为目标音区的情况下,多音区语音识别装置可以对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令。
49.具体的,多音区语音识别装置可以先对实时交互语音进行语音识别得到实时交互语音对应的语音文本,然后对语音文本进行语义识别得到实时交互语音对应的实时控制指令。
50.在本公开一些实施例中,目标车辆的多音区语音识别装置确定实时交互语音对应的第一来源音区后,可以进一步判断第一来源音区是否属于第二来源音区或者第二来源音区的相邻音区,若第一来源音区为第二来源音区或者第二来源音区的相邻音区,则对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令,进而可以与用户进行语音交互;若第一来源音区不属于第二来源音区或者第二来源音区的相邻音区,则不对实时交互语音进行语音识别。
51.由于音区可以具有一个唯一的音区标识,因此,判断第一来源音区是否属于第二
来源音区或者第二来源音区的相邻音区,可以将第一来源音区的音区标识与第二来源音区或者第二来源音区的相邻音区的音区标识进行比较,如果第一来源音区的音区标识与第二来源音区的音区标识相同或者第一来源音区的音区标识与第二来源音区的相邻音区的音区标识相同,则确定第一来源音区为目标音区,否则确定第一来源音区不是目标音区。
52.由此,在本公开实施例中,在获取到位于目标车辆的座舱内的用户发出的实时交互语音之后,可以确定实时交互语音对应的第一来源音区,如果第一来源音区为目标音区,则对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令,由于目标音区包括用户发出的唤醒语音对应的第二来源音区以及第二来源音区的相邻音区,因此,用户即可以在唤醒语音对应的第二来源音区实现语音交互,也可以在第二来源音区的相邻音区实现语音交互,进而在车载语音助手与用户进行定向语音交互的过程中,即便用户从唤醒车载语音助手的音区移动到相邻音区,也可以正常与车载语音助手进行语音交互,提升了用户的体验。
53.图3是本公开实施例提供的另一种多音区语音识别方法的流程图,该方法可以由设置于目标车辆内的多音区语音识别装置执行。如图3所示,本实施例提供的多音区语音识别方法包括如下步骤:
54.步骤301、获取位于目标车辆的座舱内的用户发出的实时交互语音。
55.步骤302、确定实时交互语音对应的第一来源音区。
56.步骤303、在第一来源音区为目标音区的情况下,对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令。
57.本公开实施例中的步骤301-303可以参考上述步骤210-203,这里不再赘述。
58.步骤304、判断实时控制指令是否为完整控制指令。
59.本公开实施例中的完整控制指令可以理解为车辆能够执行至少一个具体动作的指令,至少包括指令的操作方式和指令的操作对象,即可以告诉多音区语音识别装置,以何种方式对操作对象执行相应操作。
60.非完整控制指令可以理解为车辆无法执行一个具体动作的指令,非完整控制指令缺少指令的操作方式和指令的操作对象中的至少一个。
61.例如,“播放热榜音乐”为一条指令,操作方式为“播放”,播放对象为“热榜音乐”,该指令为一条完整控制指令,多音区语音识别装置能够基于该条指令,执行播放热榜音乐的操作;
[0062]“播放”为一条非完整控制指令,其缺少操作对象,多音区语音识别装置基于该条指令,无法确定要具体执行的对象。
[0063]
这里仅是对完整控制指令和非完整控制指令的示例性说明,而不是唯一说明。
[0064]
本公开实施例中,多音区语音识别装置在得到实时交互语音对应的实时控制指令后,可以判断实时控制指令是否为完整控制指令。
[0065]
具体的,多音区语音识别装置可以通过判断实时控制指令中是否包括操作方式和操作对象,若实时控制指令中的操作方式和操作对象都存在,则确定该实时控制指令为完整控制指令;若实时控制指令中的操作方式和操作对象都不存在,或者只存在操作方式,或者只存在操作对象,则确定该实时控制指令为非完整控制指令。
[0066]
步骤305、若实时控制指令为完整控制指令,执行实时控制指令。
[0067]
本公开实施例中,若实时控制指令为完整控制指令,则目标车辆的多音区语音识别装置执行实时控制指令。
[0068]
本公开实施例,通过获取位于目标车辆的座舱内的用户发出的实时交互语音;确定实时交互语音对应的第一来源音区;在第一来源音区为目标音区的情况下,对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令;判断实时控制指令是否为完整控制指令;若实时控制指令为完整控制指令,执行实时控制指令,可以在车载语音助手与用户进行定向语音交互的过程中,即便用户从唤醒车载语音助手的音区移动到相邻音区,也可以正常与车载语音助手进行语音交互,并可保证语音交互的控制指令为完整、不间断的指令,提高了用户体验。
[0069]
在本公开的一些实施例中,在判断实时控制指令是否为完整控制指令之后,若实时控制指令不是完整控制指令,则多音区语音识别装置可以查询存储的指令中是否存在历史非完整控制指令,若查询到存在历史非完整控制指令,则将实时控制指令与历史非完整控制指令合并,得到合并控制指令;若查询到不存在历史非完整控制指令,将实时控制指令存储为历史非完整控制指令。
[0070]
具体的,历史非完整控制指令可以基于来源于目标音区的至少一条历史交互语音生成,至少一条历史交互语音可以理解为用户发出的与实时交互语音连续的交互语音。
[0071]
需要说明的是,历史非完整控制指令是基于目标音区的交互语音生成的。
[0072]
在一些实施例中,多音区语音识别装置可以基于实时控制指令的开始时间点,在多音区语音识别装置中存储的指令中,确认实时控制指令的开始时间点与存储的指令的结束时间点的时间差小于等于预设时间阈值的指令,若存储的指令中存在实时控制指令的开始时间点与存储的指令的结束时间点的时间差小于等于预设时间阈值的指令,则将该指令确定为该实时控制指令的历史非完整指令。这里的预设时间阈值可以根据需要自行设置,这里不作限制。
[0073]
具体的,可以通过语音活动检测(voice activity detection,vad)确定指令的开始时间点和结束时间点,语音活动检测是一种语音识别技术,其应用程序可以集成在多音区语音识别装置中,可以准确定位出指令的开始时间点和结束时间点,并将指令的开始时间点和结束时间点上报给多音区语音识别装置。
[0074]
具体的,可以根据实时控制指令的开始时间点与非完整控制指令的结束时间点的时间差与预设时间阈值的比较结果来确定该非完整控制指令是否为用户发出的与实时交互语音连续的交互语音生成的历史非完整控制指令,若实时控制指令的开始时间点与非完整控制指令的结束时间点的时间差小于等于预设时间阈值,则将该非完整控制指令确定为实时控制指令对应的历史非完整控制指令,这里的预设时间阈值可以根据需要自行设置,这里不作限制。
[0075]
例如,在图1中,“播放热榜音乐”为一条完整控制指令,用户在主驾座椅区域说了第一条交互语音“播放”,对应音区为主驾音区,接着将主驾座椅躺倒到第二排左边座椅区域后,在预设时间阈值内继续说了第二条交互语音“热榜音乐”,对应音区为二排左音区,则主驾音区为第一来源音区,可以理解,第一条交互语音“播放”为与第二条交互语音“热榜音乐”连续的交互语音,生成的指令“播放”为“热榜音乐”指令的历史非完整控制指令。
[0076]
多音区语音识别装置接收到实时控制指令“播放”后,判断“播放”不是完整控制指
令,然后查询存储的指令中是否存在历史非完整控制指令,若“播放”的开始时间点与存储的非完整控制指令的结束时间点的时间差大于预设时间阈值,则确定存储的指令中不存在“播放”的历史非完整控制指令,并将实时控制指令“播放”确定为历史非完整控制指令并进行存储。
[0077]
当多音区语音识别装置接收到实时控制指令“热榜音乐”后,判断“热榜音乐”不是完整控制指令,然后查询存储的指令中是否存在历史非完整控制指令,由于存储的非完整控制指令“播放”的第一结束时间点与“热榜音乐”的第二开始时间点的时间差小于等于预设时间阈值,确定“播放”为“热榜音乐”的历史非完整控制指令,则将实时控制指令“热榜音乐”与历史非完整控制指令“播放”按照时间的先后顺序进行合并,得到的合并控制指令为“播放热榜音乐”。这里仅是对实时控制指令对应的历史非完整控制指令的示例性说明,而不是唯一说明。
[0078]
在一些实施例中,多音区语音识别装置在得到合并控制指令后,可以判断合并控制指令是否为完整控制指令,若合并控制指令为完整控制指令,则执行合并控制指令。若合并控制指令不是完整控制指令,则可以将合并控制指令存储为新的历史非完整控制指令。
[0079]
本公开实施例,多音区语音识别装置在判断实时控制指令是否为完整控制指令之后,若实时控制指令不是完整控制指令,则多音区语音识别装置可以查询存储的指令中是否存在历史非完整控制指令,若查询到存在历史非完整控制指令,则将实时控制指令与历史非完整控制指令合并,得到合并控制指令,并进一步判断合并控制指令是否为完整控制指令,若合并控制指令为完整控制指令,则执行合并控制指令,若合并控制指令不是完整控制指令,则可以将合并控制指令存储为新的历史非完整控制指令;若查询到存储的指令中不存在历史非完整控制指令,则将实时控制指令存储为历史非完整控制指令,通过对实时控制指令的多级判断,进一步保证语音交互的控制指令为完整、不间断的指令,提高了用户体验。
[0080]
图4是本公开实施例提供的一种目标音区确认方法的流程图,该方法可以由设置于目标车辆内的多音区语音识别装置执行,该方法可以在确认第一来源音区是否为第一来源音区之前执行,如图4所示,本实施例提供的目标音区确认方法包括如下步骤:
[0081]
步骤401、获取用户发出的唤醒语音。
[0082]
本公开实施例中,目标车辆的麦克风采集座舱内的用户发出的唤醒语音,并将唤醒语音发送给目标车辆的多音区语音识别装置。
[0083]
步骤402、确定唤醒语音对应的第二来源音区。
[0084]
本公开实施例中,目标车辆的多音区语音识别装置接收到用户发出的唤醒语音后,确定唤醒语音对应的音区,并将唤醒语音对应的音区确定为第二来源音区。
[0085]
步骤403、基于第二来源音区和第二来源音区的相邻音区,确定目标音区。
[0086]
本公开实施例中,目标车辆的多音区语音识别装置将第二来源音区和第二来源音区的相邻音区,确定为目标音区。
[0087]
本公开实施例,在获取到用户发出的唤醒语音之后,确定唤醒语音对应的第二来源音区,基于第二来源音区和第二来源音区的相邻音区,确定目标音区,可以精准地确定目标音区,使多音区语音识别更加准确。
[0088]
在本公开另一些实施例中,基于第二来源音区和第二来源音区的相邻音区,确定
目标音区,可以包括如下步骤4031-4033:
[0089]
步骤4031、接收音区修正数据。
[0090]
本公开实施例中,第二来源音区的相邻音区可以理解为对第二来源音区进行音区修正后的音区,音区修正可以理解为对音区的位置进行修正。
[0091]
目标车辆可以在每排座椅所属音区的前面布置至少一个车机屏幕,或者在每个音区的前排座椅靠背后部布置车机屏幕,车机屏幕可以显示所处音区的语音识别的指令和结果,方便用户与车辆的语音交互,当座椅躺倒或侧脸说话导致人的头部和臀部分离时,基于唤醒语音所属音区确定的第二来源音区会与实际需求不相符,使音区对应的车机屏幕显示的指令不在说话人的前方,例如,用户坐在主驾座椅上,并将主驾座椅躺倒至二排左,此时用户进行语音交互时,二排左音区的麦克风会采集到用户的语音,并将语音显示在二排所属音区的车机屏幕或者主驾座椅靠背后部的车机屏幕上,造成主驾座椅上的用户很难看到车机屏幕上显示的语音指令。因此,有必要对第二来源音区进行音区修正,使第二来源音区内车机屏幕显示的指令始终处于说话人的前方,符合实际使用需求,从而确定第二来源音区的相邻音区。
[0092]
本公开实施例中的音区修正数据可以包括座舱内的图像数据、座椅压力数据和座椅位姿数据中的至少一种。
[0093]
其中,图像数据可以理解为目标车辆中的摄像头发送给多音区语音识别装置的图像数据,具体的,目标车辆可以在每排座椅所属音区的前面布置至少一个摄像头,或者在每个音区的前排座椅靠背后部布置摄像头,或者在座舱的最前方布置一个摄像头,使摄像头可以拍摄到目标车辆座舱内部任意一个音区的图像,摄像头将拍摄到的图像转换为图像数据后,将图像数据发送给多音区语音识别装置。
[0094]
座椅压力数据可以理解为座椅表面的压力,可以通过座椅内部的压力传感器获得,座椅位姿数据可以包括车辆从车头到车尾的纵向方向的座椅靠背角度。
[0095]
步骤4032、基于音区修正数据,在第二来源音区的相邻音区中确定修正音区。
[0096]
本公开实施例中,音区的位置可以按照音区座椅的位置来划分,以三排座椅车辆为例,音区的排位置按照从车头到车尾的方向包括一排、二排和三排,相同排位置的音区的预设音区修正系数相同,一排的第一预设音区修正系数大于二排的第二预设音区修正系数,二排的第二预设音区修正系数大于三排的第三预设音区修正系数,其中,预设音区修正系数可以理解为对音区修正的权重大小,本实施例中的每排座椅对音区修正的权重大小可以理解为根据实际应用的场景次数总结得出,假设每排有两个座椅,一排的一个座椅的位置为第一位置,另一个座椅的位置为第二位置,二排的一个座椅的位置为第三位置,另一个座椅的位置为第四位置,三排的一个座椅的位置为第五位置,另一个座椅的位置为第六位置。
[0097]
在一些实施例中,可以基于座椅压力数据,对第二来源音区进行音区修正。
[0098]
可选的,当第二来源音区的座椅的压力大于预设压力阈值,其他任意位置的座椅的压力小于预设压力阈值时,对第二来源音区不进行修正。
[0099]
可选的,当第二来源音区的位置为一排中的第一位置,第一位置的座椅的压力小于预设压力阈值时,若一排中的第二位置的座椅的压力大于等于预设压力阈值,其余座椅的压力小于预设压力阈值,确定第二位置的音区为修正音区,例如,当第二来源音区的位置
为主驾区域,主驾座椅压力小于预设压力阈值时,若副驾座椅压力大于等于预设压力阈值,其余座椅压力小于预设压力阈值时,确定副驾位置的音区为修正音区;
[0100]
可选的,若二排和三排的任意位置的座椅的压力大于等于预设压力阈值,其余座椅的压力小于预设压力阈值,对第二来源音区不进行修正。
[0101]
可选的,当第二来源音区的位置为二排中的第三位置,第三位置的座椅的压力小于预设压力阈值时,若一排的第一位置的座椅的压力大于等于预设压力阈值,其余座椅的压力小于预设压力阈值,确定第一位置为修正音区,例如,第二来源音区的位置为二排左区域,二排左区域的座椅压力小于预设压力阈值,若主驾座椅压力大于等于预设压力阈值,其余座椅的压力小于预设压力阈值,确定主驾位置的音区为修正音区;若二排的第四位置的座椅的压力大于等于预设压力阈值,其余座椅的压力小于预设压力阈值,确定第四位置的音区为修正音区;
[0102]
可选的,若第四位置和三排中的任意位置的座椅的压力大于等于预设压力阈值,其余座椅的压力小于预设压力阈值,确定第三位置的音区为修正音区。
[0103]
可选的,当第二来源音区的位置为三排中的第五位置,第五位置的座椅的压力小于预设压力阈值时,若二排中的第四位置的座椅的压力大于等于预设压力阈值,其余座椅的表面压力小于预设压力阈值,确定第四位置的音区为修正音区。
[0104]
在又一些实施例中,可以基于座椅压力数据和座椅位姿数据,对第二来源音区进行修正。
[0105]
可选的,当第二来源音区的位置为二排中的第三位置,第三位置的座椅的压力小于预设压力阈值时,若第三位置对应的前排位置的座椅的压力和二排中的第四位置的座椅的压力均大于等于预设压力阈值,其余座椅的压力小于预设压力阈值,前排位置的座椅靠背角度大于等于预设角度阈值,确定前排位置的音区为修正音区。例如,当第二来源音区的位置为二排左区域,二排左区域的座椅压力小于预设压力阈值时,若主驾座椅压力和二排右的座椅压力均大于等于预设压力阈值,其余座椅的压力小于预设压力阈值,确定主驾位置的音区为修正音区。此时的场景为主驾座椅躺倒到二排左,用户在二排左区域说话,二排右区域有人,第二来源音区为二排左,通过音区修正后,将主驾位置的音区确定为最终的第二来源音区。
[0106]
可选的,当第二来源音区的位置为三排中的第五位置,第五位置的座椅的压力小于预设压力阈值时,若第五位置对应的前排位置的座椅的压力和后排位置的座椅的压力均大于等于预设压力阈值,其余座椅的压力小于预设压力阈值,前排位置的座椅靠背角度大于等于预设角度阈值,确定前排位置的音区为修正音区。
[0107]
本公开实施例中的预设压力阈值和预设角度阈值可以根据需要设置,这里不作具体限制,当座椅的压力大于等于预设压力阈值时,可以认为该座椅上边有人,当座椅的压力小于预设压力阈值时,可以认为该座椅上边没人;当座椅靠背角度大于等于预设角度阈值时,可以认为该座椅靠背向后排区域倾斜,当座椅靠背角度小于预设角度阈值时,可以认为该座椅靠背向所处区域倾斜。
[0108]
在另一些实施例中,可以基于图像数据,对第二来源音区进行音区修正:
[0109]
可选的,对图像中位于该第二来源音区对应的座椅范围内的人像进行检测,如果检测到图像中该座椅范围内有一个人头,则判断该人的坐姿,如果坐姿为人头在该座椅区
域对应的音区,但身体在其他音区,这里的身体为人体除人头之外的其他部分,则将身体的位置所处的音区作为修正后的第二来源音区,如果坐姿为人头和身体均在该座椅区域对应的音区,则无需修正;如果检测到图像中该座椅范围内的有两个人头,则无需修正。
[0110]
在又一些实施例中,可以基于座椅数据和图像数据,对第二来源音区进行修正:
[0111]
可选的,多音区语音识别装置可以同时获取座椅数据和图像数据,也可以在基于座椅数据修正第二来源音区之后,再获取图像数据。多音区语音识别装置可以先基于座椅数据对第二来源音区进行修正,得到第一次确认的第二来源音区,然后通过分析图像数据,判断第一次确认的第二来源音区是否有人,若第一次确认的第二来源音区有人,则不再进行修正,将该第一次确认的第二来源音区确定为最终的第二来源音区;若第一次确认的第二来源音区没人,则将第一次确认之前的第二来源音区确定为最终的第二来源音区。
[0112]
步骤4033、将第二来源音区和修正音区作为目标音区。
[0113]
本公开实施例中,在对第二来源音区进行音区修正,得到第二来源音区的修正音区之后,目标车辆的多音区识别装置可以将第二来源音区和修正音区作为目标音区。
[0114]
本公开实施例,通过接收音区修正数据;基于音区修正数据,在第二来源音区的相邻音区中确定修正音区;将第二来源音区和修正音区作为目标音区,可以精准地确定目标音区,使多音区语音识别更加准确。
[0115]
图5是本公开实施例提供的一种多音区语音识别装置的结构示意图,该装置可以被理解为上述目标车辆的部分功能模块。如图5所示,该多音区语音识别装置500包括:
[0116]
第一获取模块501,用于获取位于目标车辆的座舱内的用户发出的实时交互语音;
[0117]
第一确定模块502,用于确定实时交互语音对应的第一来源音区;
[0118]
识别模块503,用于在第一来源音区为目标音区的情况下,对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令,目标音区包括用户发出的唤醒语音对应的第二来源音区以及第二来源音区的相邻音区。
[0119]
本公开实施例,在第一获取模块获取到位于目标车辆的座舱内的用户发出的实时交互语音之后,第一确定模块可以确定实时交互语音对应的第一来源音区,如果第一来源音区为目标音区,则识别模块对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令,由于目标音区包括用户发出的唤醒语音对应的第二来源音区以及第二来源音区的相邻音区,因此,用户即可以在唤醒语音对应的第二来源音区实现语音交互,也可以在第二来源音区的相邻音区实现语音交互,进而在车载语音助手与用户进行定向语音交互的过程中,即便用户从唤醒车载语音助手的音区移动到相邻音区,也可以正常与车载语音助手进行语音交互,提升了用户的体验。
[0120]
可选的,上述多音区语音识别装置500还包括:
[0121]
第一判断模块,用于判断实时控制指令是否为完整控制指令;
[0122]
查询模块,用于若实时控制指令不是完整控制指令,查询是否存在历史非完整控制指令,历史非完整控制指令基于来源于目标音区的至少一条历史交互语音生成,至少一条历史交互语音为用户发出的与实时交互语音连续的交互语音;
[0123]
合并模块,用于若查询到存在历史非完整控制指令,将实时控制指令与历史非完整控制指令合并,得到合并控制指令。
[0124]
可选的,上述多音区语音识别装置500还包括:
[0125]
第二判断模块,用于判断合并控制指令是否为完整控制指令;
[0126]
第一执行模块,用于若合并控制指令为完整控制指令,执行合并控制指令;
[0127]
第一存储模块,用于若合并控制指令不是完整控制指令,将合并控制指令存储为新的历史非完整控制指令。
[0128]
可选的,上述多音区语音识别装置500还包括:
[0129]
第二存储模块,用于若查询到不存在历史非完整控制指令,将实时控制指令存储为历史非完整控制指令。
[0130]
可选的,上述多音区语音识别装置500还包括:
[0131]
第二执行模块,用于若实时控制指令为完整控制指令,执行实时控制指令。
[0132]
可选的,上述多音区语音识别装置500还包括:
[0133]
第二获取模块,用于获取用户发出的唤醒语音;
[0134]
第二确定模块,用于确定唤醒语音对应的第二来源音区;
[0135]
第三确定模块,用于基于第二来源音区和第二来源音区的相邻音区,确定目标音区。
[0136]
可选的,上述第三确定模块包括:
[0137]
接收子模块,用于接收音区修正数据;
[0138]
第一确定子模块,用于基于音区修正数据,在第二来源音区的相邻音区中确定修正音区;
[0139]
第二确定子模块,用于将第二来源音区和修正音区作为目标音区;
[0140]
其中,音区修正数据包括座舱内的图像数据、座椅压力数据和座椅位姿数据中的至少一种。
[0141]
本实施例提供的多音区语音识别装置能够执行上述任一实施例所述的方法,其执行方式和有益效果类似,在这里不再赘述。
[0142]
图6示出了本公开实施例提供的一种车辆的结构示意图。
[0143]
如图6所示,该车辆可以包括处理器601以及存储有计算机程序指令的存储器602。
[0144]
具体的,上述处理器601可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0145]
存储器602可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器602可以包括硬盘驱动器(hard disk drive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,usb)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。在特定实施例中,存储器602包括只读存储器(read-only memory,rom)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmable rom,prom)、可擦除prom(electrical programmable rom,eprom)、电可擦除prom(electrically erasable programmable rom,eeprom)、电可改写rom(electrically alterable rom,earom)或闪存,或者两个或及其以上这些的组合。
[0146]
处理器601通过读取并执行存储器602中存储的计算机程序指令,以执行本公开实
施例所提供的多音区语音识别方法的步骤。
[0147]
在一个示例中,该车辆还可包括收发器603和总线604。其中,如图6所示,处理器601、存储器602和收发器603通过总线604连接并完成相互间的通信。
[0148]
总线604包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(accelerated graphics port,agp)或其他图形总线、增强工业标准架构(extended industry standard architecture,eisa)总线、前端总线(front side bus,fsb)、超传输(hyper transport,ht)互连、工业标准架构(industrial standard architecture,isa)总线、无限带宽互连、低引脚数(low pin count,lpc)总线、存储器总线、微信道架构(micro channel architecture,mca)总线、外围控件互连(peripheral component interconnect,pci)总线、pci-express(pci-x)总线、串行高级技术附件(serial advanced technology attachment,sata)总线、视频电子标准协会局部(video electronics standards association local bus,vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线604可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
[0149]
进一步的,车辆还可以包括人机交互设备,如车机屏幕,其可以通过总线和处理器通信,人机交互设备可以将语音控制指令和对应的执行结果展示给用户,使语音交互可视化,提高用户的语音交互体验。
[0150]
本公开实施例还提供了一种计算机可读存储介质,该存储介质可以存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开实施例所提供的多音区语音识别方法,其执行方式和有益效果类似,在这里不再赘述。
[0151]
上述的存储介质可以例如包括计算机程序指令的存储器602,上述指令可由多音区语音识别装置的处理器601执行以完成本公开实施例所提供的多音区语音识别方法。
[0152]
上述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0153]
上述计算机程序可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0154]
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种多音区语音识别方法,其特征在于,包括:获取位于目标车辆的座舱内的用户发出的实时交互语音;确定所述实时交互语音对应的第一来源音区;在所述第一来源音区为目标音区的情况下,对所述实时交互语音进行语音识别,得到所述实时交互语音对应的实时控制指令,所述目标音区包括所述用户发出的唤醒语音对应的第二来源音区以及所述第二来源音区的相邻音区。2.根据权利要求1所述的方法,其特征在于,在所述对所述实时交互语音进行语音识别,得到所述实时交互语音对应的实时控制指令之后,所述方法还包括:判断所述实时控制指令是否为完整控制指令;若所述实时控制指令不是完整控制指令,查询是否存在历史非完整控制指令,所述历史非完整控制指令基于来源于所述目标音区的至少一条历史交互语音生成,所述至少一条历史交互语音为所述用户发出的与所述实时交互语音连续的交互语音;若查询到存在所述历史非完整控制指令,将所述实时控制指令与所述历史非完整控制指令合并,得到合并控制指令。3.根据权利要求2所述的方法,其特征在于,在所述将所述实时控制指令与所述历史非完整控制指令合并,得到合并控制指令之后,所述方法还包括:判断所述合并控制指令是否为完整控制指令;若所述合并控制指令为完整控制指令,执行所述合并控制指令;若所述合并控制指令不是完整控制指令,将所述合并控制指令存储为新的历史非完整控制指令。4.根据权利要求2所述的方法,其特征在于,在所述查询是否存在历史非完整控制指令之后,所述方法还包括:若查询到不存在所述历史非完整控制指令,将所述实时控制指令存储为所述历史非完整控制指令。5.根据权利要求2所述的方法,其特征在于,在所述判断所述实时控制指令是否为完整控制指令之后,所述方法还包括:若所述实时控制指令为完整控制指令,执行所述实时控制指令。6.根据权利要求1所述的方法,其特征在于,还包括:获取所述用户发出的所述唤醒语音;确定所述唤醒语音对应的第二来源音区;基于所述第二来源音区和所述第二来源音区的相邻音区,确定所述目标音区。7.根据权利要求6所述的方法,其特征在于,所述基于所述第二来源音区和所述第二来源音区的相邻音区,确定所述目标音区,包括:接收音区修正数据;基于所述音区修正数据,在所述第二来源音区的相邻音区中确定修正音区;将所述第二来源音区和所述修正音区作为所述目标音区;其中,所述音区修正数据包括所述座舱内的图像数据、座椅压力数据和座椅位姿数据中的至少一种。8.一种多音区语音识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取位于目标车辆的座舱内的用户发出的实时交互语音;第一确定模块,用于确定所述实时交互语音对应的第一来源音区;识别模块,用于在所述第一来源音区为目标音区的情况下,对所述实时交互语音进行语音识别,得到所述实时交互语音对应的实时控制指令,所述目标音区包括所述用户发出的唤醒语音对应的第二来源音区以及所述第二来源音区的相邻音区。9.一种车辆,其特征在于,所述车辆包括:存储器和处理器,其中,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1-7中任一项所述的多音区语音识别方法。10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的多音区语音识别方法。

技术总结
本公开涉及多音区语音识别方法、装置、车辆及存储介质。本公开实施例,在获取到位于目标车辆的座舱内的用户发出的实时交互语音之后,可以确定实时交互语音对应的第一来源音区,如果第一来源音区为目标音区,则对实时交互语音进行语音识别,得到实时交互语音对应的实时控制指令,由于目标音区包括用户发出的唤醒语音对应的第二来源音区以及第二来源音区的相邻音区,因此,用户即可以在唤醒语音对应的第二来源音区实现语音交互,也可以在第二来源音区的相邻音区实现语音交互,进而在车载语音助手与用户进行定向语音交互的过程中,即便用户从唤醒车载语音助手的音区移动到相邻音区,也可以正常与车载语音助手进行语音交互,提升了用户的体验。提升了用户的体验。提升了用户的体验。


技术研发人员:池军
受保护的技术使用者:北京罗克维尔斯科技有限公司
技术研发日:2022.03.16
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐