模型的融合方法、装置和计算机可读存储介质与流程

未命名 08-29 阅读:83 评论:0


1.本发明涉及机器学习领域,特别涉及一种模型的融合方法、装置和计算机可读存储介质。


背景技术:

2.在相关技术中,通过对采用不同训练方式得到的模型进行融合,使得模型有潜力获得进一步的性能提升。模型融合技术主要分为以下两类。
3.1)基于模型筛选的方法:该方法旨在利用置信度等评价指标,从不同asr模型的识别结果中筛选最优的一个作为最终识别结果。
4.2)基于特征融合的方法:该方法通过将不同模型的隐层特征进行融合,获得统一特征表示,然后利用训练数据对融合的模型进行微调,实现模型的融合。


技术实现要素:

5.发明人经过分析后发现,在基于模型筛选的方法中,需要将每条音频同时通过两个模型进行计算,加大了模型推理计算的成本。同时,模型融合的效果受置信度评价指标的设计效果影响很大。因为,实际上,对于部分样本而言,并非置信度越高,准确率就越高。因此,基于模型筛选的方法难以获得最优的识别结果。在基于特征融合的方法中,依然需要将每条音频同时通过两个模型进行隐层特征的计算,因此,加大了模型推理计算的成本,使得计算效率较低。
6.本发明实施例所要解决的一个技术问题是:如何高效、准确地对模型进行融合。
7.根据本发明一些实施例的第一个方面,提供一种模型的融合方法,包括:根据来自第一模型的第一参数矩阵和来自第二模型的第二参数矩阵,确定对齐参数,其中,第一模型和第二模型具有相同的模型结构、但通过不同的方式训练得到,第一参数矩阵和第二参数矩阵分别为第一模型和第二模型中相同参数的值构成的矩阵;利用对齐参数对第一参数矩阵进行调整,获得第三参数矩阵;根据第二参数矩阵和第三参数矩阵,确定第三模型,其中,第三模型具有模型结构。
8.在一些实施例中,对齐参数用于将第一模型和第二模型进行对齐、并且具有最小的对齐损失。
9.在一些实施例中,根据来自第一模型的第一参数矩阵和来自第二模型的第二参数矩阵,确定对齐参数包括:确定第一参数矩阵和第二参数矩阵之间的距离矩阵;基于距离矩阵,确定对齐参数。
10.在一些实施例中,对齐参数为对齐矩阵,并且基于距离矩阵,确定对齐参数包括:以令所述距离矩阵和所述对齐矩阵的相似度最低为目标,以第一参数矩阵对应的各个参数的重要性符合预设分布为约束条件,确定对齐矩阵。
11.在一些实施例中,距离矩阵和所述对齐矩阵的相似度通过所述距离矩阵和所述对齐矩阵的内积表示。
12.在一些实施例中,约束条件为对齐参数与参考向量的乘积中的各个元素、以及对齐参数的转置与参考向量的乘积中的各个元素符合目标分布,其中,参考向量为元素值均为相同数值的向量。
13.在一些实施例中,目标分布为均匀分布。
14.在一些实施例中,第一参数矩阵和第二参数矩阵为同一层的参数的值构成的矩阵。
15.在一些实施例中,利用对齐参数对第一参数矩阵进行调整,获得第三参数矩阵包括:根据第一参数矩阵对应的层的上一层的对齐参数以及第一参数矩阵,确定中间矩阵;根据第一参数矩阵对应的层的对齐参数以及中间矩阵,确定第三参数矩阵。
16.在一些实施例中,根据第一参数矩阵对应的层的上一层的对齐参数以及第一参数矩阵,确定中间矩阵包括:确定第一参数矩阵对应的层的上一层的对齐参数以及第一参数矩阵的第一乘积;根据第一乘积与第一参数矩阵对应的层的输入维度数的商确定中间矩阵。
17.在一些实施例中,根据第一参数矩阵对应的层的对齐参数以及中间矩阵,确定第三参数矩阵包括:确定第一参数矩阵对应的层的对齐参数的转置与中间矩阵的第二乘积;根据第二乘积与第一参数矩阵对应的层的输出维度数的商确定第三参数矩阵。
18.在一些实施例中,根据第二参数矩阵和第三参数矩阵,确定具有模型结构的第三模型包括:根据第二参数矩阵和第三参数矩阵的平均值,确定具有模型结构的第三模型。
19.在一些实施例中,根据第二参数矩阵和第三参数矩阵,确定具有模型结构的第三模型包括:根据第二参数矩阵和第三参数矩阵,确定初始的第三模型;利用训练数据,对初始的第三模型进行训练。
20.在一些实施例中,训练数据用于训练第一模型、第二模型中的至少一个。
21.在一些实施例中,第一模型为监督训练模型,第二模型为自监督训练模型;或者,第一模型为自监督训练模型,第二模型为监督训练模型。
22.在一些实施例中,第一模型和第二模型为语音识别模型。
23.根据本发明一些实施例的第二个方面,提供一种模型的融合装置,包括:对齐参数确定模块,被配置为根据来自第一模型的第一参数矩阵和来自第二模型的第二参数矩阵,确定对齐参数,其中,第一模型和第二模型具有相同的模型结构、但通过不同的方式训练得到,第一参数矩阵和第二参数矩阵分别为第一模型和第二模型中相同参数的值构成的矩阵;调整模块,被配置为利用对齐参数对第一参数矩阵进行调整,获得第三参数矩阵;模型确定模块,被配置为根据第二参数矩阵和第三参数矩阵,确定第三模型,其中,第三模型具有模型结构。
24.根据本发明一些实施例的第三个方面,提供一种模型的融合装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种模型的融合方法。
25.根据本发明一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意一种模型的融合方法。
26.上述发明中的一些实施例具有如下优点或有益效果。本发明的实施例利用第一模型和第二模型中的相同参数的值,确定对齐参数,并基于对齐参数对第一模型进行调整,再
利用调整后的第一模型和第二模型的参数值确定第三模型中参数的值。从而,可以基于对齐的模型进行模型的融合,使得融合后的模型兼有不同训练方式的优点,提高了模型的性能。并且,上述实施例的推理计算成本较低,具有较高的计算效率。
27.通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
29.图1示出了根据本发明一些实施例的模型的融合方法的流程示意图。
30.图2示出了根据本发明另一些实施例的模型融合方法的流程示意图。
31.图3示出了根据本发明一些实施例的模型的融合装置的结构示意图。
32.图4示出了根据本发明另一些实施例的模型的融合装置的结构示意图。
33.图5示出了根据本发明又一些实施例的模型的融合装置的结构示意图。
具体实施方式
34.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
35.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
36.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
37.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
38.在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
39.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
40.本发明的实施例对第一模型和第二模型进行融合,以获得第三模型。第一模型和第二模型具有相同的模型结构、但通过不同的方式训练得到,即二者有相同的参数、但是参数的值可能不同,即,两个模型在测试集上的识别能力上往往具有一定的差异。
41.第三模型与第一模型和第二模型也具有相同的模型结构。
42.在一些实施例中,第一模型为监督训练模型,第二模型为自监督训练模型;或者,第一模型为自监督训练模型,第二模型为监督训练模型。通常情况下,采用大量的标注数据
训练获得的全监督模型,在相同领域的测试集上能够获得很好识别效果;同时,由于自监督训练模型(或称为预训练模型)能够利用大量的无标注数据进行模型训练,因此通常体现出更好的泛化能力。因此,在存在大量标注训练数据的情况下,通过对全监督训练和预训练模型进行融合,有潜力使得融合后的模型获得进一步的性能提升。
43.下面参考图1描述本发明模型的融合方法的实施例。
44.图1示出了根据本发明一些实施例的模型的融合方法的流程示意图。如图1所示,该实施例的模型的融合方法包括步骤s102~s106。
45.在步骤s102中,根据来自第一模型的第一参数矩阵和来自第二模型的第二参数矩阵,确定对齐参数。
46.第一参数矩阵和第二参数矩阵分别为第一模型和第二模型中相同参数的值构成的矩阵。在一些实施例中,第一参数矩阵和第二参数矩阵为同一层的参数的值构成的矩阵。例如,均为第l层的参数的值构成的矩阵。由于第一模型和第二模型的结构相同,因此,第一参数矩阵和第二参数矩阵的结构也是相同的。
47.在一些实施例中,对齐参数用于将所述第一模型和所述第二模型进行对齐、并且具有最小的对齐损失。对齐损失反映了对齐过程对被调整的模型所造成的影响,即,尽量以最小的调整程度,对两个模型进行对齐。
48.在一些实施例中,可以基于最优传输的思想确定对齐参数。例如,确定第一参数矩阵和第二参数矩阵之间的最优传输矩阵。最优传输矩阵是利用最优传输思想实现第一参数矩阵到第二参数矩阵的变换所对应的矩阵。
49.将最优传输理解为搬货过程,使得在区域1摆放的多个货物一定到区域2,但是货物之间的摆放方式、相对位置可能会发生变化。在搬运的过程中可以考虑两个维度的因素,一个维度可以理解为每次搬货的数量,另外一个维度可以理解为每次搬货的位置。通过最优传输来找到一种搬运的策略,使得搬运的损失最小化。在本发明的实施例中,搬运的“货”是模型的参数,此时,符合最优传输的搬运策略表明对第一模型进行调整、使其接近第二模型并且调整的损失最小。
50.在一些实施例中,可以参考参数的相似度来衡量第一模型和第二模型之间的搬运损失。即,确定第一参数矩阵和第二参数矩阵之间的距离矩阵;基于距离矩阵,确定对齐参数。距离矩阵例如为距离矩阵。第一参数矩阵和第二参数矩阵之间的距离矩阵表示搬运的距离,也就是第一参数矩阵和第二参数矩阵之间的相似度,相似度越高,说明搬运损失越小。从而,通过参考距离矩阵确定对齐参数,能够准确地衡量第一模型和第二模型之间的映射关系,利用对齐参数对其中一个模型进行调整,可以将其与另一个矩阵进行软对齐。
51.在一些实施例中,对齐参数为对齐矩阵。在确定对齐矩阵时,以令所述距离矩阵和所述对齐矩阵的相似度最低为目标,例如以令距离矩阵和对齐矩阵的内积(即弗罗贝尼乌斯frobenius内积)最小化为目标。内积反映了矩阵之间的相似程度,两个矩阵越相似,内积越大;反之,两个矩阵的相似程度越低,内积越小。从而,以对齐参数尽量远离矩阵之间的距离为目标,使得对齐损失尽量小。
52.在进行上述计算时,以第一参数矩阵对应的各个参数(同样也是第二参数矩阵对应的各个参数)的重要性符合预设分布为约束条件,确定所述对齐矩阵。从而,可以根据对各个参数的重要性的要求,来确定对齐参数。
53.例如,以对齐参数与参考向量的乘积中的各个元素、以及对齐参数的转置与参考向量的乘积中的各个元素符合目标分布为约束条件,确定对齐矩阵。参考向量为元素值均为相同数值的向量。
54.上述最小化目标可以参考公式(1)。
[0055][0056]
在公式(1)中,loss表示损失值,计算的目的是使得loss最小化;t表示对齐参数,例如最优传输矩阵;d表示第一参数矩阵和第二参数矩阵之间的距离矩阵,例如二者之间的欧氏距离矩阵;《t,d》f表示计算t和d的frobenius内积;min表示最小化,min下方的t表示求t的值。由于距离矩阵是通过两个模型的参数值直接计算获得的,是一个固定值。因此最小化结果只由搬运矩阵t来决定。
[0057]
在一些实施例中,参考向量为元素值均为相同数值的向量,例如均为1的向量(全1向量)。在全1向量为列向量的情况下,对齐参数与全1向量的乘积表示对齐参数的每一行的和构成的向量,对齐参数的转置与全1向量的乘积表示对齐参数的每一列的和构成的向量。从而,对齐矩阵的每一行的和以及每一列的和均符合目标分布。由于对齐矩阵是对模型的参数进行的调整,因此其行和列与模型的参数对应。对齐矩阵的每一行的和以及每一列的和均符合目标分布,即表明了模型中参数的重要性的分布。
[0058]
在一些实施例中,目标分布为均匀分布。从而,第一参数矩阵和第二参数矩阵对应的各个参数的重要性是相等的。在对参数的重要性有其他要求的情况下,本领域技术人员也可以使用其他分布作为目标分布。
[0059]
在步骤s104中,利用对齐参数对第一参数矩阵进行调整,获得第三参数矩阵。
[0060]
从而,使得第一模型的参数的属性与第二模型的参数的属性尽量对应。
[0061]
在步骤s106中,根据所述第二参数矩阵和所述第三参数矩阵,确定第三模型,其中,第三模型具有模型结构。
[0062]
在一些实施例中,根据第二参数矩阵和第三参数矩阵的平均值,确定具有模型结构的第三模型。例如,可以直接将第二参数矩阵和第三参数矩阵的平均值中的各个元素,确定为第三模型中该元素对应的参数的值;或者,对第二参数矩阵和第三参数矩阵的平均值进行进一步变换,将该变换结果中的各个元素确定为第三模型中该元素对应的参数的值。
[0063]
虽然第一参数矩阵和第二参数矩阵中,相同位置上的元素对应同一种参数,但是通过不同的方式进行训练后,相同参数可能产生了不同的含义,第一模型和第二模型的参数之间并不存在一一对应的关系。如果直接将不同方式训练得到的、同一参数的数值进行平均,无法获得很好的融合效果,甚至会破坏两个模型已经训练好的参数。而上述实施例基于对齐参数对其中一个模型进行了调整,从而在此基础上进行的平均是有意义的,能够使得融合的模型具有更好的性能。
[0064]
此外,在确定了第三模型的参数的值之后,还可以对第三模型进行微调,以得到最终的训练结果。在一些实施例中,根据第二参数矩阵和第三参数矩阵,确定初始的第三模型;利用训练数据,对初始的第三模型进行训练。训练数据可以是用于训练第一模型的训练数据、或者用于训练第二模型的训练数据。从而,可以进一步提高第三模型的预测准确性。
[0065]
上述实施例利用第一模型和第二模型中的相同参数的值,确定对齐参数,并基于
对齐参数对第一模型进行调整,再利用调整后的第一模型和第二模型的参数值确定第三模型中参数的值。从而,可以基于对齐的模型进行模型的融合,使得融合后的模型兼有不同训练方式的优点,提高了模型的性能。并且,上述实施例的推理计算成本较低,具有较高的计算效率。
[0066]
在一些实施例中,可以以模型的层为单位计算对齐参数、并进行融合,即,第一参数矩阵和第二参数矩阵为同一层的参数的值构成的矩阵。例如,可以逐一计算每一层的对齐参数、并对第一模型的每一层的参数进行调整;或者,也可以计算部分层的对齐参数,并对这些部分层的参数进行调整。下面参考图2示例性地描述对第一模型和第二模型的某一层进行调整的实施例。
[0067]
图2示出了根据本发明另一些实施例的模型融合方法的流程示意图。如图2所示,该实施例的模型融合方法包括步骤s202~s206。
[0068]
在该实施例中,设存在模型记模型和均由l层网络组成,第l层的权重参数分别为和其中l∈[1,2,

l],n
l
和m
l
分别为该层权重的输入和输出维度,且上一层的输出维度为下一层输入维度。在一些实施例中,模型中的卷积核权重参数和偏置项权重参数均转为二维参数,以便于计算。
[0069]
在步骤s202中,根据第一模型的第l层参数对应的第一参数矩阵以及第二模型的第l层参数对应的第二参数矩阵确定第l层的对齐参数t
l

[0070]
例如,基于公式(2)计算对齐参数。
[0071][0072]
公式(2)的各参数的含义可以参考公式(1),这里不再赘述。上角标l表示层数,即t
l
为第l层的对齐矩阵,d
l
为和之间的距离。
[0073]
在步骤s204中,根据第l-1层的对齐参数t
l-1
以及第一参数矩阵确定中间矩阵。
[0074]
中间矩阵表示对第一模型的第l层的输入参数进行对齐。
[0075]
在一些实施例中,确定第一参数矩阵对应的层的上一层的对齐参数以及第一参数矩阵的第一乘积;根据第一乘积与第一参数矩阵对应的层的输入维度数的商确定中间矩阵。
[0076]
例如,可以参考公式(3)计算中间矩阵
[0077][0078]
在步骤s206中,根据第l层的对齐参数t
l
以及中间矩阵,确定第三参数矩阵。
[0079]
从而,可以对齐输出参数。
[0080]
在一些实施例中,确定第一参数矩阵对应的层的对齐参数的转置与中间矩阵的第二乘积;根据第二乘积与第一参数矩阵对应的层的输出维度数的商确定第三参数矩阵。
[0081]
例如,可以参考公式(4)计算第三参数矩阵。
[0082][0083]
通过上述实施例,可以从输入和输出两个方面,令第一模型对齐第二模型,从而使得二者的对齐程度更准确,进一步提升了融合后的模型的性能。
[0084]
对于第一模型和第二模型的多个层(例如每一层),都可以参照上述实施例处理,这里不再赘述。根据多个层对应的第三参数矩阵,可以确定第三模型中多个层的参数值。
[0085]
本发明的实施例可以应用于语音识别模型,即,第一模型和第二模型为语音识别模型。下面以第一模型为监督训练模型(又称为监督学习模型)、第二模型为自监督训练模型(又称为自监督学习模型)为例,示例性地描述模型融合的过程。
[0086]
设训练数据集记为d={xi,yi|i∈[1,n]},其中xi为第i个训练数据样本的音频特征矩阵,yi为音频特征xi对应的文本标注结果,n为训练数据集中有标注样本的数量。有标注训练数据集例如可以使用1000小时英文开源librispeech数据集,音频采样率例如为16khz。本发明的一些实施例所使用的音频特征矩阵为80维梅尔谱特征,其中每一帧的时长为25ms,步长为10ms。
[0087]
对于自监督模型,可以使用自监督学习框架ufo(unified feature optimization,联合特征优化)模型。该模型由2个卷积神经网络(convolutional neural network,简称:cnn),12个conformer(卷积增强的变形器,变形器为transformer)模块组成。该模型的训练数据为1000小时librispeech的音频文件,其中,标注文本不参与模型预训练。在该预训练模型的基础上,利用标注数据集d进行微调,获得自监督asr模型
[0088]
对于监督模型,构建与自监督学习模型相同的网络结构并随机初始化所有模型参数,利用与自监督模型相同的标注数据和微调策略,进行模型训练,获得获得监督asr模型
[0089]
然后,基于前述实施例的方法对和进行融合,获得模型
[0090]
接下来,利用训练数据d,对平均后的模型进行微调训练至收敛,最终获得融合的模型。在微调过程中,梯度反向传播可以采用adam(adaptive moment estimation,自适应矩估计)优化算法,其中adam采用热身策略,其学习率峰值为0.001,热身策略步长为5000步。
[0091]
一个示例性的实验结果如下表1所示,从实验结果可以看出,相比于现有自监督学习方法,采用监督学习模型与自监督方法,在开源librispeech数据集的clean和other测试集上,均能够获得明显的提升。
[0092]
表1
[0093]
[0094][0095]
下面参考图3描述本发明模型的融合装置的实施例。
[0096]
图3示出了根据本发明一些实施例的模型的融合装置的结构示意图。如图3所示,该实施例的模型的融合装置30包括:对齐参数确定模块310,被配置为根据来自第一模型的第一参数矩阵和来自第二模型的第二参数矩阵,确定对齐参数,其中,第一模型和第二模型具有相同的模型结构、但通过不同的方式训练得到,第一参数矩阵和第二参数矩阵分别为第一模型和第二模型中相同参数的值构成的矩阵;调整模块320,被配置为利用对齐参数对第一参数矩阵进行调整,获得第三参数矩阵;模型确定模块330,被配置为根据第二参数矩阵和第三参数矩阵,确定第三模型,其中,第三模型具有模型结构。
[0097]
在一些实施例中,对齐参数用于将第一模型和第二模型进行对齐、并且具有最小的对齐损失。
[0098]
在一些实施例中,对齐参数确定模块310进一步被配置为确定第一参数矩阵和第二参数矩阵之间的距离矩阵;基于距离矩阵,确定对齐参数。
[0099]
在一些实施例中,对齐参数确定模块310进一步被配置为以令所述距离矩阵和所述对齐矩阵的相似度最低为目标,以第一参数矩阵对应的各个参数的重要性符合预设分布为约束条件,确定对齐矩阵。
[0100]
在一些实施例中,距离矩阵和所述对齐矩阵的相似度通过所述距离矩阵和所述对齐矩阵的内积表示。
[0101]
在一些实施例中,约束条件为对齐参数与参考向量的乘积中的各个元素、以及对齐参数的转置与参考向量的乘积中的各个元素符合目标分布,其中,参考向量为元素值均为相同数值的向量。
[0102]
在一些实施例中,目标分布为均匀分布。
[0103]
在一些实施例中,第一参数矩阵和第二参数矩阵为同一层的参数的值构成的矩阵。
[0104]
在一些实施例中,调整模块320进一步被配置为根据第一参数矩阵对应的层的上一层的对齐参数以及第一参数矩阵,确定中间矩阵;根据第一参数矩阵对应的层的对齐参数以及中间矩阵,确定第三参数矩阵。
[0105]
在一些实施例中,调整模块320进一步被配置为确定第一参数矩阵对应的层的上
一层的对齐参数以及第一参数矩阵的第一乘积;根据第一乘积与第一参数矩阵对应的层的输入维度数的商确定中间矩阵。
[0106]
在一些实施例中,调整模块320进一步被配置为确定第一参数矩阵对应的层的对齐参数的转置与中间矩阵的第二乘积;根据第二乘积与第一参数矩阵对应的层的输出维度数的商确定第三参数矩阵。
[0107]
在一些实施例中,模型确定模块330进一步被配置为根据第二参数矩阵和第三参数矩阵的平均值,确定具有模型结构的第三模型。
[0108]
在一些实施例中,模型确定模块330进一步被配置为根据第二参数矩阵和第三参数矩阵,确定初始的第三模型;利用训练数据,对初始的第三模型进行训练。
[0109]
在一些实施例中,训练数据用于训练第一模型、第二模型中的至少一个。
[0110]
在一些实施例中,第一模型为监督训练模型,第二模型为自监督训练模型;或者,第一模型为自监督训练模型,第二模型为监督训练模型。
[0111]
在一些实施例中,第一模型和第二模型为语音识别模型。
[0112]
图4示出了根据本发明另一些实施例的模型的融合装置的结构示意图。如图4所示,该实施例的模型的融合装置40包括:存储器410以及耦接至该存储器410的处理器420,处理器420被配置为基于存储在存储器410中的指令,执行前述任意一个实施例中的模型的融合方法。
[0113]
其中,存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(boot loader)以及其他程序等。
[0114]
图5示出了根据本发明又一些实施例的模型的融合装置的结构示意图。如图5所示,该实施例的模型的融合装置50包括:存储器510以及处理器520,还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530,540,550以及存储器510和处理器520之间例如可以通过总线560连接。其中,输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口550为sd卡、u盘等外置存储设备提供连接接口。
[0115]
本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种模型的融合方法。
[0116]
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0117]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0118]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0119]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0120]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种模型的融合方法,包括:根据来自第一模型的第一参数矩阵和来自第二模型的第二参数矩阵,确定对齐参数,其中,所述第一模型和第二模型具有相同的模型结构、但通过不同的方式训练得到,所述第一参数矩阵和第二参数矩阵分别为所述第一模型和所述第二模型中相同参数的值构成的矩阵;利用所述对齐参数对所述第一参数矩阵进行调整,获得第三参数矩阵;根据所述第二参数矩阵和所述第三参数矩阵,确定第三模型,其中,所述第三模型具有所述模型结构。2.根据权利要求1所述的融合方法,其中,所述对齐参数用于将所述第一模型和所述第二模型进行对齐、并且具有最小的对齐损失。3.根据权利要求1所述的融合方法,其中,所述根据来自第一模型的第一参数矩阵和来自第二模型的第二参数矩阵,确定对齐参数包括:确定所述第一参数矩阵和所述第二参数矩阵之间的距离矩阵;基于所述距离矩阵,确定所述对齐参数。4.根据权利要求3所述的融合方法,其中,所述对齐参数为对齐矩阵,并且所述基于所述距离矩阵,确定所述对齐参数包括:以令所述距离矩阵和所述对齐矩阵的相似度最低为目标,以所述第一参数矩阵对应的各个参数的重要性符合预设分布为约束条件,确定所述对齐矩阵。5.根据权利要求4所述的融合方法,其中,所述距离矩阵和所述对齐矩阵的相似度通过所述距离矩阵和所述对齐矩阵的内积表示。6.根据权利要求4所述的融合方法,其中,所述约束条件为所述对齐参数与参考向量的乘积中的各个元素、以及所述对齐参数的转置与所述参考向量的乘积中的各个元素符合目标分布,其中,所述参考向量为元素值均为相同数值的向量。7.根据权利要求6所述的融合方法,其中,所述目标分布为均匀分布。8.根据权利要求1~7中任一项所述的融合方法,其中,所述第一参数矩阵和所述第二参数矩阵为同一层的参数的值构成的矩阵。9.根据权利要求8所述的融合方法,其中,所述利用所述对齐参数对所述第一参数矩阵进行调整,获得第三参数矩阵包括:根据所述第一参数矩阵对应的层的上一层的对齐参数以及所述第一参数矩阵,确定中间矩阵;根据所述第一参数矩阵对应的层的对齐参数以及所述中间矩阵,确定所述第三参数矩阵。10.根据权利要求9所述的融合方法,其中,所述根据所述第一参数矩阵对应的层的上一层的对齐参数以及所述第一参数矩阵,确定中间矩阵包括:确定所述第一参数矩阵对应的层的上一层的对齐参数以及所述第一参数矩阵的第一乘积;根据所述第一乘积与所述第一参数矩阵对应的层的输入维度数的商确定所述中间矩阵。11.根据权利要求9所述的融合方法,其中,所述根据所述第一参数矩阵对应的层的对
齐参数以及所述中间矩阵,确定所述第三参数矩阵包括:确定所述第一参数矩阵对应的层的对齐参数的转置与所述中间矩阵的第二乘积;根据所述第二乘积与所述第一参数矩阵对应的层的输出维度数的商确定所述第三参数矩阵。12.根据权利要求1~7中任一项所述的融合方法,其中,所述根据所述第二参数矩阵和所述第三参数矩阵,确定具有所述模型结构的第三模型包括:根据所述第二参数矩阵和所述第三参数矩阵的平均值,确定具有所述模型结构的第三模型。13.根据权利要求1~7中任一项所述的融合方法,其中,所述根据所述第二参数矩阵和所述第三参数矩阵,确定具有所述模型结构的第三模型包括:根据所述第二参数矩阵和所述第三参数矩阵,确定初始的第三模型;利用训练数据,对所述初始的第三模型进行训练。14.根据权利要求1~7中任一项所述的融合方法,其中,所述训练数据用于训练所述第一模型、所述第二模型中的至少一个。15.根据权利要求1所述的融合方法,其中:所述第一模型为监督训练模型,所述第二模型为自监督训练模型;或者,所述第一模型为自监督训练模型,所述第二模型为监督训练模型。16.根据权利要求1~7中任一项所述的融合方法,其中,所述第一模型和所述第二模型为语音识别模型。17.一种模型的融合装置,包括:对齐参数确定模块,被配置为根据来自第一模型的第一参数矩阵和来自第二模型的第二参数矩阵,确定对齐参数,其中,所述第一模型和第二模型具有相同的模型结构、但通过不同的方式训练得到,所述第一参数矩阵和第二参数矩阵分别为所述第一模型和所述第二模型中相同参数的值构成的矩阵;调整模块,被配置为利用所述对齐参数对所述第一参数矩阵进行调整,获得第三参数矩阵;模型确定模块,被配置为根据所述第二参数矩阵和所述第三参数矩阵,确定第三模型,其中,所述第三模型具有所述模型结构。18.一种模型的融合装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1~16中任一项所述的模型的融合方法。19.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1~16中任一项所述的模型的融合方法。

技术总结
本发明公开了一种模型的融合方法、装置和计算机可读存储介质,涉及机器学习领域。模型的融合方法包括:根据来自第一模型的第一参数矩阵和来自第二模型的第二参数矩阵,确定对齐参数,其中,第一模型和第二模型具有相同的模型结构、但通过不同的方式训练得到,第一参数矩阵和第二参数矩阵分别为第一模型和第二模型中相同参数的值构成的矩阵;利用对齐参数对第一参数矩阵进行调整,获得第三参数矩阵;根据第二参数矩阵和第三参数矩阵,确定第三模型,其中,第三模型具有模型结构。从而,可以基于对齐的模型进行模型的融合,使得融合后的模型兼有不同训练方式的优点,提高了模型的性能。并且,推理计算成本较低,具有较高的计算效率。率。率。


技术研发人员:付立 范璐 吴友政 何晓冬
受保护的技术使用者:京东科技信息技术有限公司
技术研发日:2023.06.01
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐