神经网络模型的训练方法及电子设备和存储介质与流程

未命名 08-29 阅读:182 评论:0


1.本发明属于语音识别技术领域,尤其涉及一种神经网络模型的训练方法及电子设备和存储介质。


背景技术:

2.相似的现有技术有基于时域端到端的音源分离方案、基于波束成形的多通道语音分离方案以及基于传统语音技术的语音分离方案。目前基于时域端到端的神经网络方案主要是应用在单通道的语音分离中,这些被分离的语音包含有人声与人声之间的语音分离、有人声与背景噪声(非人声)之间的语音分离、也有特殊音源之间(如乐器声、警报声、开关门声音等)的语音分离。而这些神经网络的结构,基本由卷积神经网络cnn(convolutional neural network)、循环神经网络rnn(recurrent neural networks)模块组成,cnn用于对语音特征的解析与还原,而rnn则用于构建语音在时序上的关系。在多通道语音分离的方案中,常常利用了麦克风阵列相比于单麦在相位上的丰富信息,结合成熟的波束成形技术,实现特定方位的语音增强。而借助于神经网络的技术,将不同空间位置的声源作为标签,将经过波束成形之后的语音作为输入信息,进而开展网络训练。当然,作为标签的音频以及作为输入的音频,其处理方式可以在时域进行,同样也可以在频域进行,两者只是在适配网络模型的时候会产生效果的差异,但整体方案上并没有差别,都是波束成形与神经网络nn(neural networks)相结合的方式。传统的语音分离技术,由于其成熟得早以及较nn相对更低的算力,因此在语音交互的产品中被首先落地应用。常见的用于语音交互(分离)的算法主要有波束成形bf(beamforming)、盲源分离bss(blind source separation)、语音后处理等,波束成形常常用在麦克风阵列的场景,通过麦克风之间的相位差来进行特定角度的语音增强与抑制;而bss常用于分布式的麦克风布局中,通过能量与语音的统计学差异来对混合的语音进行分离。
3.基于时域端到端的音源分离方案该方案核心的技术要点是基于多尺度卷积神经网络的语音分离算法,其主要的步骤分为:第一,将混合音频利用相关的编码器在时域进行特征提取操作;第二,利用带门控线性单元的卷积、深度可分离的卷积、时间卷积网络这些模块要素来构成网络结构,将第一步中的输入送入网络;第三,将网络的输出,配合第一步所使用的编码器进行反向构建时域音频,最终达到语音分离的效果。基于波束成形的多通道语音分离方案这类方案相比于“基于时域端到端的音源分离方案”的核心区别在于,它将传统的信号处理与神经网络方案相融合,在这类方案中,首先,依据多通道的布局来设计波束成形的增强方向;然后,将多通道的输入音频转换到时频域,利用网络很强的空间构建能力将不同方向波束的滤波器信息学得,如不同方向目标语音的存在概率、每一帧不同频点中目标语音的掩码等;第三步,将上述第二步中的滤波器信息应用到传统的bf中,进而达到更好的波束成形效果。基于传统语音技术的语音分离方案这类方案的特点是:传统的语音增强、语音分离技术是提前做好模型的假设,在此基础上进行公式推演,进而得出在给定的麦克风布局下,其相应的语音分离的计算方式。常见的算法如bf、bss都是在基于预设的模
型假设、统计特征的前提下,对某一类应用场景的公式推演、论证再应用。
4.发明人发现:在上述提供的技术中由于神经网络中关于特征的编码、解码通常是经验所得,因此单纯依靠网络实现语音分离,会导致在部分场景下的音频,分离不干净或者分离度过高,这样会使得音频质量被破坏,不利于后续的语音唤醒、语音识别。其次由于网络训练需要一定的轮数,因此一旦训练完成,相关的分离效果基本确定,因此也就对应于相关的分离效果较难通过一些参数去调整。另外传统方案基于某类模型假设,如果模型假设过于复杂,可能不存在解析,即无法通过公式的形式来一步步推演从输入到输出的整个过程,受限的模型假设很难适配复杂的车载应用场景。现有的神经网络模型无法灵活地应对不同的应用场景,同时训练难度也大。


技术实现要素:

5.本发明实施例旨在至少解决上述技术问题之一。
6.第一方面,本发明实施例提供一种神经网络模型的训练方法,包括:采集声场信息,对所述声场信息设计不同音区对应的房间脉冲响应;根据所述声场信息中不同音区对应的房间脉冲响应构建标签数据集和语音数据集;基于所述标签数据集和所述语音数据集对所述神经网络模型进行训练。
7.第二方面,本发明实施例提供一种语音交互方法,包括:获取多通道采集的音频数据,将所述音频数据输入至上述方法训练后的神经网络模型,通过所述神经网络模型将所述音频数据进行分离,得到语音数据和属性信息;对所述语音数据和所述属性信息进行传统信号处理,得到不同音区对应的分离音频;将所述不同音区对应的分离音频发送至车载语音交互系统,所述车载语音交互系统根据服务请求进行与所述服务请求对应的操作。
8.第三方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项神经网络模型的训练方法。
9.第四方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项神经网络模型的训练方法。
10.第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项神经网络模型的训练方法。
11.本发明实施例通过设计不同音区对应的房间脉冲响应来构建用于训练神经网络模型的标签数据集和语音数据集,训练完成的神经网络模型能够灵活地应对不同的应用场景,可实现无人干预的一体化训练、测试系统,可极大地减少人力的投入,进而带来人效比的提升。
附图说明
12.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域
普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
13.图1为本发明的神经网络模型的训练方法的一实施例的流程图;
14.图2为本发明的一种语音交互方法的一实施例的流程图;
15.图3为本发明的一种语音交互方法的前排双音区交互主视示意图;
16.图4为本发明的一种语音交互方法的前排双音区交互俯视示意图;
17.图5为本发明的一种语音交互方法的双音区双麦阵列房间脉冲响应设计示意图;
18.图6为本发明的一种语音交互方法的整体的设计意图;
19.图7为本发明一实施例提供的一种神经网络模型训练方法及语音交互方法的整体实现流程图;
20.图8为本发明的电子设备的一实施例的结构示意图。
具体实施方式
21.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
22.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
23.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
24.在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
25.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
26.本发明实施例提供一种神经网络模型的训练方法,该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等,本发明对此不作限定。
27.请参考图1,其示出了本发明一实施例提供的一种神经网络模型的训练方法。
28.如图1所示,在步骤101中,采集声场信息,对所述声场信息设计不同音区对应的房间脉冲响应;
29.在步骤102中,根据所述声场信息中不同音区对应的房间脉冲响应构建标签数据集和语音数据集;
30.在步骤103中,基于所述标签数据集和所述语音数据集对所述神经网络模型进行训练。
31.在本实施例中,对于步骤101,采集声场信息,声场信息包含麦克风3d信息、声源3d信息、车内尺寸3d信息。通常车厂会提供精准的车内麦克风的三维坐标信息(笛卡尔坐标系下的x,y,z值),此处记为麦克风3d信息;另外,由于车载在模型设计的时候,也会放置假人的位置,因此也可以提供假人正常坐姿、座椅正常位置时的人嘴的三维坐标信息,此处记为声源3d信息;最后,车内尺寸的长宽高作为车内尺寸3d信息。对采集完成后的各类信息设计不同音区对应的房间脉冲响应rir(room impulse response),房间脉冲响应表征了声源到麦克风之间的传递函数,即记录了在空间不同位置处,声源传播到麦克风处的差异性。以主驾前排双音区为例,如果需要分离主驾的语音与副驾的语音,则在设计对应rir的时候,主驾的声源位置可在主驾区域遍历;副驾的声源位置可在副驾区域遍历。
32.之后,对于步骤102,根据声场信息中不同音区对应的房间脉冲响应来构建标签数据集和语音数据集,签数据集和语音数据集用作神经网络模型的训练。声场信息中不同音区对应的房间脉冲响应通过构建训练数据模块来构建标签数据集和语音数据集,构建训练数据模块为神经网络nn(neural networks)训练提供标签数据(label)和混合输入数据(mix)。标签数据label为单通道无混响的人声数据a,与上述主驾区域的rir进行卷积之后形成带混响的主驾数据b1,与上述副驾区域的rir进行卷积后形成带混响的副驾数据b2,b1与b2按照一定的能量强弱关系混合形成混合数据c,最后叠加上真实的车载噪声数据,形成最终的数据mix。根据神经网络的训练规则与方式,主驾有主驾的label,副驾有副驾的label,输入共用mix。
33.最后,对于步骤103,利用构建完成的标签数据集和语音数据集来对神经网络模型进行训练,神经网络则依据主驾label、副驾label、mix数据来训练网络,网络采用常规的编码(encoder)-时序建模-解码(decoder)结构。
34.本技术实施例的方法通过设计不同音区对应的房间脉冲响应来构建用于训练神经网络模型的标签数据集和语音数据集,训练完成的神经网络模型能够灵活地应对不同的应用场景,可实现无人干预的一体化训练、测试系统,可极大地减少人力的投入,进而带来人效比的提升。
35.在一些可选的实施例中,通过单通道无混响语音、主副驾脉冲响应集合以及真实噪声集合来构建标签数据集和语音数据集,例如,即通过单通道无混响语音、主副驾rir集合、真实噪声集合来构建网络所需要的label数据集与mix数据集。
36.在一些可选的实施例中,利用编码器从输入的语音中提取特征信息;利用循环神经网络基于提取的特征信息构建时间序列上的特征信息;利用解码器将时间序列上的特征信息恢复到分离后的语音。训练出分离之后的语音供传统语音信号处理模块使用。
37.需要说明的是,本技术的核心特点在于将车载的声场信息与神经网络紧密结合,
其核心的模块为“声场信息采集模块+rir设计模块”,考虑到不同车型具有不同的声场信息,因此专一的rir构建方式能够带来网络更好的分离效果;另一方面,rir的设计也可以灵活的进行改变,在不同的区域划分不同的目标音区,能够达到多样的效果;最后,由于像麦克风信息、声源(假人人嘴信息)、车内空间尺寸信息可以直接从车厂的3d图纸获取,也为后面的一键式网络训练提供了可能。
38.再请参考图2,其示出了本发明提供的一种语音交互方法。
39.如图2所示,在步骤201中,获取多通道采集的音频数据,将所述音频数据输入至上述方法训练后的神经网络模型,通过所述神经网络模型将所述音频数据进行分离,得到语音数据和属性信息;
40.在步骤202中,对所述语音数据和所述属性信息进行传统信号处理,得到不同音区对应的分离音频;
41.在步骤203中,将所述不同音区对应的分离音频发送至车载语音交互系统,所述车载语音交互系统根据服务请求进行与所述服务请求对应的操作。
42.在本实施例中,对于步骤201,获取多通道采集的音频数据,通过利用多通道麦克风设备来采集音频数据,音频数据都是经过麦克风设备回声消除处理之后的音频数据,每一个通道的音频对应一个麦克风。将采集后的音频数据输入至训练后的神经网络模型,通过神经网络模型将该音频数据进行分离,分离后得到语音数据和属性信息。根据车内麦克风布局的个数,将多路麦克风采集到的音频作为整个语音交互系统的输入。在常规的车载应用中会存在回声消除模块,该模块用于消除喇叭的本机播放声音,在本技术中直接送入混合语音的通道数等于实际车内麦克风的个数。将音频先送入神经网络模型,估计出分离后的语音及相关必要信息(如时频域掩码、时频域滤波器系数等)。
43.之后,对于步骤202,对语音数据和属性信息进行传统信号处理,得到不同音区对应的分离音频,例如,将神经网络模型输出的语音数据和属性信息输入至传统信号处理模块,利用传统信号处理辅助其分离;神经网络估计出分离后的语音及相关必要信息(如时频域掩码、时频域滤波器系数等)输入至传统信号处理模块,得到不同音区对应的分离之后的音频。传统信号处理与神经网络相结合,输出不同音区的语音,如在双音区下,分别输出分离后的主驾语音与副驾语音。如果是四音区,即分离出主驾、副驾、主驾后排、副驾后排各自的语音,其他多音区的需求以此类推。
44.最后,对于步骤203,将不同音区对应的分离音频发送至车载语音交互系统,车载语音交互系统根据服务请求进行与服务请求对应的操作。例如,将不同音区对应的分离音频送入语音交互系统,依据唤醒结果、识别结果、声源定位结果来进一步服务上层应用,实现不同的车机交互功能。语音交互系统主要是处理不同音区的语音内容,其主要包含关键词唤醒、指令的识别、声源的定位等,再结合上层应用的逻辑,实现更加丰富的人机交互的功能。
45.本技术实施例的方法通过将神经网络模型出色的建模特性与传统网络的高度语音保真性相融合,保证了后续语音交互系统的唤醒率与识别率。
46.在一些可选的实施例中,基于语音交互系统启动将训练完成的神经网络模型导入至语音交互系统中,并对该神经网络模型进行初始化;对神经网络模型初始化后将语音交互系统采集到的多通道音频数据输入至该神经网络模型,利用神经网络模型对采集的多通
道音频数据进行处理,其中多通道音频数据在麦克风设备采集时进行回声消除处理,输入至神经网络模型的多通道音频数据已经是经过回声消除处理的。获取神经网络模型的输出结果,该神经网络模型的输出结果为音频数据中的语音数据和属性信息,每一通道的语音数据和属性信息对应每一通道的音频数据,其中音频数据中的语音数据和属性信息包括频域掩码、时频域滤波器系数。
47.在一些可选的实施例中,利用车载语音交互系统对不同音区对应的分离音频进行处理,并获取车载语音交互系统处理后的结果,其中处理结果包括唤醒结果、识别结果、声源定位结果。将不同音区对应的分离音频送入语音交互系统,依据唤醒结果、识别结果、声源定位结果来进一步服务上层应用,实现不同的车机交互功能。
48.需要说明的是,发明人在实现本技术的过程中还采用过以下替代方案,代替部分技术的内容1,针对rir的生成方式,本专利所采用的方式为利用学术界比较公认的镜像法来仿真生成对应的rir,即在给定相关的车身尺寸信息、麦克风信息、声源运动区域信息,就可以生成对应的rir;但作为可替代的方案,也可在实车上直接采集声源处的音频与麦克风处的音频,通过算法来计算出更加真实的rir。优点:rir更加接近真实场景,nn训练后的效果理想;缺点:依赖于实车,而一般车厂只在接近量产阶段才有实车;另外,录制音频需要额外耗费人力、物力与财力。
49.替代的部分技术内容2,针对声场信息采集,本专利方案是通过厂商的3d图纸来提供;但作为备选方案,也可基于实车进行测量,来获取相应的尺寸信息。优点:能够直观地去判定rir的设计是否合理,避免rir的区域超过实际乘客体验的区域。缺点:不具备后期一键式的网络训练与测试,即过程中需要人力的干预。
50.需要说明的是,本技术还提供一种备选方案,在备选方案中核心的差别在于图6中的“声场信息采集模块+rir设计模块”,在这个备选版本中,我们只需要采集这类信息“i:麦克风3d信息”,即声源信息以及车内尺寸信息无需采集,而是通过估计的方式去设定声源信息以及车内尺寸信息,比如依据车型大小a级、b级、c级车等,依据轿车、suv、mpv、跑车等,来估计设定好车内尺寸的信息。优点:一定程度上,网络训练出来的结果具备更好的泛化能力,即整体的语音分离效果会更稳定。缺点:1)声源3d信息、车内尺寸信息需要人工手动去选择,无法做到自动化;2)更好的泛化也就意味着在特定的车型上无法做到完美得适配,性能不能到达到最优。
51.请参考图3,其出示了本发明一实施例提供的一种语音交互方法的前排双音区交互主视示意图。
52.如图3所示,图3为车载双音区下采用bf方案的效果图,ma1表示为车内前排顶部的麦克风阵列(双麦),红星表示目标声源(图中为主驾),黑色加号为干扰信号(图中为副驾),当然目标路也可为副驾,同时干扰为主驾。beam1表示主驾波束成形后的语音增强区域,beam2表示副驾波束成形后的语音增强区域,由此可见不管波束如何设计,总会存在一定的盲区,如上图1中间部分的扇形,其无法对主驾或副驾的声音产生很好的分离效果。
53.请参考图4,其出示了本发明一实施例提供的一种语音交互方法的前排双音区交互俯视示意图。
54.如图4所示,图4为当麦克风布局在前排左右两侧时候的效果图,mic1、mic2分别表示两颗单麦(为说明问题,麦克风并非左右对称,但在实际车型中,通常是左右对称位置布
局),红星(内部标1)表示为目标声源(主驾正常坐姿),红星(内部标2)表示为目标声源(主驾右侧身前倾的坐姿),黑色加号表示干扰信号(副驾正常坐姿位置)。此时传统的bf已经失效,因为两麦克风之前的间距过大,一颗在主驾左侧,一颗在副驾前方,而此时应用传统的bss方案时,由于bss在模型假设的时候对目标语音的能量较敏感,很容易导致红星2的位置的语音被分离为副驾的语音,进而影响后续的声源定位与识别。
55.请参考图5,其出示了本发明一实施例提供的一种语音交互方法的双音区双麦阵列房间脉冲响应设计示意图。
56.如图5所示,图5为俯视图下麦克风与声源之间的相对位置关系,为分离出主驾的声音,我们划定了主驾rir的区域,如图5中红色心型所在的虚线框内;以此类推,黑色加号所在的区域为副驾rir的设计区域,通过在两个空间区域中分别遍历并造出对应的rir,用于后续的训练数据构造。主驾rir集合记录了主驾声源与两麦克风之间的声波衰减特征,副驾rir集合则记录了副驾声源与两麦克风之间的声波衰减特征。针对双音区分布式麦克风、多音区等,都可以此类推。
57.请参考图6,其出示了本发明一实施例提供的一种语音交互方法的整体的设计意图。
58.如图6所示,混合语音输入:根据车内麦克风布局的个数,将多路麦克风采集到的音频作为整个语音交互系统的输入。由于本专利侧重描述语音分离的新方案,因此在常规的车载应用中会存在回声消除模块,该模块用于消除喇叭的本机播放声音,在此专利方案中隐去了该模块,即送入该方案的混合语音的通道数等于实际车内麦克风的个数。
59.声场信息采集模块:通常车厂会提供精准的车内麦克风的三维坐标信息(笛卡尔坐标系下的x,y,z值),此处记为第i类信息;另外,由于车载在模型设计的时候,也会放置假人的位置,因此也可以提供假人正常坐姿、座椅正常位置时的人嘴的三维坐标信息,此处记为第ii类信息;最后,车内尺寸的长宽高作为第iii类需要采集的信息。
60.rir设计模块:rir,全名为房间脉冲响应,表征了声源到麦克风之间的传递函数,即记录了在空间不同位置处,声源传播到麦克风处的差异性。以主驾前排双音区为例,如果需要分离主驾的语音与副驾的语音,则在设计对应rir的时候,主驾的声源位置可在主驾区域遍历;副驾的声源位置可在副驾区域遍历,如图3或图4中的zone1区域为主驾的rir集合,zone2区域为副驾的rir集合。这两个集合在构建训练数据的时候会用到。
61.构建训练数据模块:该模块为nn训练提供标签数据(label)和混合输入数据(mix)。label数据为单通道无混响的人声数据a,与上述主驾区域的rir进行卷积之后形成带混响的主驾数据b1,与上述副驾区域的rir进行卷积后形成带混响的副驾数据b2,b1与b2按照一定的能量强弱关系混合形成混合数据c,最后叠加上真实的车载噪声数据,形成最终的数据mix。根据神经网络的训练规则与方式,主驾有主驾的label,副驾有副驾的label,输入共用mix。
62.神经网络模块:神经网络则依据主驾label、副驾label、mix数据来训练网络,网络采用常规的编码(encoder)-时序建模-解码(decoder)结构,训练出分离之后的语音,供传统语音信号处理模块使用。
63.传统信号处理模块:图6中的

表示将nn与传统模块相结合,nn提供网络学习后的分离音频供传统算法融合,一般地,nn网络可以提供不同音区的频域掩码、或是不同音频的
空间滤波器系数等,来准确地指导传统方案如bf、bss等进行分离,弥补传统方案在空间语音建模时的简易性。
64.分离音频输出:传统信号处理与nn相结合,输出不同音区的语音,如在双音区下,分别输出分离后的主驾语音与副驾语音。如果是四音区,即分离出主驾、副驾、主驾后排、副驾后排各自的语音,其他多音区的需求以此类推。
65.语音交互系统:语音交互系统主要是处理不同音区的语音内容,其主要包含关键词唤醒、指令的识别、声源的定位等,再结合上层应用的逻辑,实现更加丰富的人机交互的功能。
66.请参考图7,其出示了本发明的神经网络模型的训练方法的整体实现流程图。
67.如图7所示,由于传统信号处理与nn相结合的方案,通常需要训练好模型,再导入到传统信号处理中进行辅助分离,因此上述流程图也分成了两部分part1(部分1)与part2(部分2)。下面分别对part1与part2的流程进行阐述。
68.part1:网络训练阶段(基于声场信息的nn网络训练)
69.步骤1:声场信息采集
70.采集指定车型的三类信息,i:麦克风3d信息;ii:声源3d信息;iii车内尺寸3d信息。
71.步骤2:设计不同音区rir
72.步骤3:构建训练模型
73.即通过单通道无混响语音、主副驾rir集合、真实噪声集合来构建网络所需要的label数据集与mix数据集。详细的方式在图3解释时已经给出。
74.步骤4:确定网络结构
75.明确网络采用encoder-rnn-decoder的结构,encoder阶段从输入的语音中提取特征信息,rnn阶段构建时间序列上的特征信息,decoder将时间序列上的特征信息恢复到分离后的语音。
76.步骤5:网络训练
77.依据label、mix、nn结构训练网络模型,直至收敛。
78.步骤6:输出网络模型
79.输出最终的网络模型参数。
80.part2:传统信号处理+nn融合阶段
81.步骤1:多通道音频采集
82.默认输入经过回声消除之后的音频数据,即几个麦克风对应几通道的音频。
83.步骤2:导入神经网络模型
84.将训练好的网络模型导入,并完成相关的网络初始化工作。
85.步骤3:传统信号处理+nn
86.将步骤1中的音频先送入nn,估计出分离后的语音及相关必要信息(如时频域掩码、时频域滤波器系数等);将上述信息送入传统信号处理,辅助其分离。
87.步骤4:输出分离之后音频
88.输出不同音区对应的分离之后的音频。
89.步骤5:语音交互系统处理
90.将不同音区对应的分离音频送入语音交互系统,依据唤醒结果、识别结果、声源定位结果来进一步服务上层应用,实现不同的车机交互功能。
91.本技术中的基于声场信息的神经网络:
92.1)声场i、ii、iii三类数据,使得nn网络能够有针对性地适应不同的车型尺寸、不同的麦克风布局以及不同乘客的坐姿要求。相比于更加泛化地学习车内不同声源与麦克风之间的rir,在明确了车内声场信息之后,能够让网络学得更准确。
93.2)因为声场i、ii、iii三类数据是可以从车厂的3d数据模型中导出,因此也为后期进一步的模型预训练提供了可能,即网络结构成熟之后,后期不需要人为的介入,就可以输出初版的网络模型,这对于方案应用来说,是有巨大的价值的。
94.动态灵活的rir设计:
95.1)依据用户的需求,我们可以灵活多变的设计rir的范围,比如以双音区双麦阵列为例(双麦位于车内前排阅读灯位置),当乘客存在前倾至麦克风前方位置时,可将rir的区域扩展至麦克风前方;当需要一定程度抑制后排的干扰时,也可将后排的rir考虑进网络训练中。
96.2)rir的灵活设计,能够改善在临界区域的分离度,如针对图1中描述的bf的劣势,将左右两块区域分别划分为主驾rir与副驾rir,通过网络的建模,能够有更高的空间特征的分辨率,进而改善临界区域的分离效果。
97.传统信号处理与nn相融合:
98.1)将nn出色的建模特性与传统网络的高度语音保真性相融合,保证了后续语音交互系统的唤醒率与识别率。
99.2)传统信号处理部分参数的可解释性也方便整体方案可在一定的数据集上进行调整,进而获得最佳的效果。
100.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
101.在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项神经网络模型的训练方法。
102.在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项神经网络模型的训练方法。
103.在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能
够执行神经网络模型的训练方法。
104.图8是本技术另一实施例提供的执行神经网络模型的训练方法的电子设备的硬件结构示意图,如图8所示,该设备包括:
105.一个或多个处理器810以及存储器820,图8中以一个处理器810为例。
106.执行神经网络模型的训练方法的设备还可以包括:输入装置830和输出装置840。
107.处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。
108.存储器820作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本技术实施例中的神经网络模型的训练方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例神经网络模型的训练方法。
109.存储器820可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据神经网络模型的训练设备的使用所创建的数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器820可选包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至神经网络模型的训练设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
110.输入装置830可接收输入的数字或字符信息,以及产生与神经网络模型的训练设备的用户设置以及功能控制有关的信号。输出装置840可包括显示屏等显示设备。
111.所述一个或者多个模块存储在所述存储器820中,当被所述一个或者多个处理器810执行时,执行上述任意方法实施例中的神经网络模型的训练方法。
112.上述产品可执行本技术实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例所提供的方法。
113.本技术实施例的电子设备以多种形式存在,包括但不限于:
114.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
115.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。
116.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
117.(4)其他具有数据交互功能的机载电子装置,例如安装上车辆上的车机装置。
118.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
119.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术
方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
120.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征:
1.一种神经网络模型的训练方法,包括:采集声场信息,对所述声场信息设计不同音区对应的房间脉冲响应;根据所述声场信息中不同音区对应的房间脉冲响应构建标签数据集和语音数据集;基于所述标签数据集和所述语音数据集对所述神经网络模型进行训练。2.根据权利要求1所述的方法,其中,所述根据所述声场信息中不同音区对应的脉冲响应构建标签数据集和语音数据集包括:通过单通道无混响语音、主副驾脉冲响应集合以及真实噪声集合来构建所述标签数据集和所述语音数据集。3.根据权利要求1所述的方法,其中,所述神经网络模型包括编码器、循环神经网络和解码器,构建所述神经网络模型包括:利用所述编码器从输入的语音中提取特征信息;利用所述循环神经网络基于提取的所述特征信息构建时间序列上的特征信息;利用所述解码器将时间序列上的特征信息恢复到分离后的语音。4.根据权利要求3所述的方法,其中,所述声场信息包括麦克风3d信息、声源3d信息和车内尺寸3d信息。5.一种语音交互方法,包括:获取多通道采集的音频数据,将所述音频数据输入至根据权利要求1-4中任一项所述的方法训练后的神经网络模型,通过所述神经网络模型将所述音频数据进行分离,得到语音数据和属性信息;对所述语音数据和所述属性信息进行传统信号处理,得到不同音区对应的分离音频;将所述不同音区对应的分离音频发送至车载语音交互系统,所述车载语音交互系统根据服务请求进行与所述服务请求对应的操作。6.根据权利要求5所述的方法,其中,所述获取多通道采集的音频数据,将所述音频数据输入至训练后的神经网络模型包括:导入训练完成的神经网络模型,并对所述神经网络模型初始化;将所述多通道采集的音频数据输入至所述神经网络模型,其中,所述多通道采集的音频数据为经过回声消除之后的音频数据。7.根据权利要求5所述的方法,其中,所述通过所述神经网络模型将所述音频数据进行分离,得到语音数据和属性信息包括:获取所述神经网络模型输出的音频数据中的所述语音数据和所述属性信息,其中,所述语音数据和所述属性信息包括频域掩码和时频域滤波器系数。8.根据权利要求5所述的方法,其中,所述将所述不同音区对应的分离音频发送至车载语音交互系统包括:利用所述车载语音交互系统对所述不同音区对应的分离音频进行处理得到处理结果,其中,所述处理结果包括唤醒结果、识别结果、声源定位结果。9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

技术总结
本发明公开一种神经网络模型的训练方法及电子设备和存储介质,其中方法包括:采集声场信息,对所述声场信息设计不同音区对应的房间脉冲响应;根据所述声场信息中不同音区对应的房间脉冲响应构建标签数据集和语音数据集;基于所述标签数据集和所述语音数据集对所述神经网络模型进行训练。本发明实施例通过设计不同音区对应的房间脉冲响应来构建用于训练神经网络模型的标签数据集和语音数据集,训练完成的神经网络模型能够灵活地应对不同的应用场景,可实现无人干预的一体化训练、测试系统,可极大地减少人力的投入,进而带来人效比的提升。的提升。的提升。


技术研发人员:徐超
受保护的技术使用者:思必驰科技股份有限公司
技术研发日:2023.04.20
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐