图像描述生成模型训练、图像描述生成方法及装置与流程
未命名
09-23
阅读:73
评论:0
1.本发明涉及多模态技术领域,尤其涉及一种图像描述生成模型训练、图像描述生成方法及装置。
背景技术:
2.图像描述生成是将一张图像转换为文字描述的技术。它通常使用深度学习模型来实现,这些模型可以从输入的图像中提取特征,并将其转换为自然语言文本。
3.在图像描述生成中,常用的模型通常基于cnn-rnn的编码器-解码器框架和基于attention的编码器-解码器框架构建得到。然而,基于cnn-rnn的编码器-解码器框架构建得到的模型对于长句子的生成效果较差,基于attention的编码器-解码器框架构建得到的模型所生成的描述文本粒度较粗,即生成的描述文本忽略了图像中的细节信息。
技术实现要素:
4.本发明提供一种图像描述生成模型训练、图像描述生成方法及装置,用以解决现有技术中对于长句子的生成效果较差或生成的描述文本粒度较粗的缺陷。
5.本发明提供一种图像描述生成模型训练方法,包括:
6.确定样本描述图像对应的样本条件标签;所述样本条件标签包括所述样本描述图像的期望描述信息;
7.冻结已有的图像描述生成模型的编码层参数和解码层参数,基于所述样本描述图像以及所述样本条件标签对所述已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型。
8.根据本发明提供的一种图像描述生成模型训练方法,所述基于所述样本描述图像以及所述样本条件标签对所述已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型,包括:
9.对所述样本描述图像进行特征编码,得到样本描述图像特征;
10.对所述样本条件标签进行特征编码,得到样本条件标签特征;
11.基于所述样本描述图像特征以及所述样本条件标签特征,对所述已有的图像描述生成模型的其它层进行训练,得到所述图像描述生成模型。
12.根据本发明提供的一种图像描述生成模型训练方法,所述对所述样本条件标签进行特征编码,得到样本条件标签编码特征,包括:
13.将所述样本条件标签输入至轻量级网络,由所述轻量级网络对所述样本条件标签进行特征编码,得到样本条件标签特征对应的自适应系数,并将所述自适应系数输入至所述已有的图像描述生成模型的归一化层,以指导所述归一化层的映射参数;
14.或,
15.将所述样本条件标签输入至在所述已有的图像描述生成模型中增置的注意力模块,由所述注意力模块对所述样本条件标签进行特征编码,得到所述样本条件标签编码特
征。
16.根据本发明提供的一种图像描述生成模型训练方法,所述对所述样本条件标签进行编码,之前还包括:
17.将离散的样本条件标签转换为连续的高维向量。
18.根据本发明提供的一种图像描述生成模型训练方法,所述期望描述信息包括类别描述信息、色彩描述信息、前景描述信息以及背景描述信息中的至少一种。
19.本发明还提供一种图像描述生成方法,包括:
20.确定待描述图像以及对应的条件标签;所述条件标签包括所述待描述图像的期望描述信息;
21.将所述待描述图像以及所述条件标签输入至图像描述生成模型,得到所述图像描述生成模型输出的图像描述文本;
22.所述图像描述生成模型基于如上所述的图像描述生成模型训练方法训练得到。
23.本发明还提供一种图像描述生成模型训练装置,包括:
24.第一确定单元,用于确定样本描述图像对应的样本条件标签;所述样本条件标签包括所述样本描述图像的期望描述信息;
25.模型训练单元,用于冻结已有的图像描述生成模型的编码层参数和解码层参数,基于所述样本描述图像以及所述样本条件标签对所述已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型。
26.本发明还提供一种图像描述生成装置,包括:
27.第二确定单元,用于确定待描述图像以及对应的条件标签;所述条件标签包括所述待描述图像的期望描述信息;
28.图像描述单元,用于将所述待描述图像以及所述条件标签输入至图像描述生成模型,得到所述图像描述生成模型输出的图像描述文本;
29.所述图像描述生成模型基于如上所述的图像描述生成模型训练方法训练得到。
30.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述图像描述生成模型训练方法或实现如上述任一种所述图像描述生成方法。
31.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像描述生成模型训练方法或实现如上述任一种所述图像描述生成方法。
32.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像描述生成模型训练方法或实现如上述任一种所述图像描述生成方法。
33.本发明提供的图像描述生成模型训练、图像描述生成方法及装置,通过样本条件标签指导已有的图像描述生成模型学习从样本描述图像中提取期望描述信息,从而使得训练得到的图像描述生成模型能够精准生成与期望描述信息匹配的细粒度图像描述文本。此外,本发明实施例冻结已有的图像描述生成模型的编码层参数和解码层参数,从而可以减少模型训练的参数量,加快模型的收敛速度,降低了模型的训练成本。
附图说明
34.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1是本发明提供的图像描述生成模型训练方法的流程示意图;
36.图2是本发明提供的mlp的结构示意图;
37.图3是本发明提供的lformer的结构示意图;
38.图4是本发明提供的样本条件标签编码方法的流程示意图;
39.图5是本发明提供的又一样本条件标签编码方法的流程示意图;
40.图6是本发明提供的图像描述生成方法的流程示意图;
41.图7是本发明提供的待描述图像示意图;
42.图8是本发明提供的又一待描述图像示意图;
43.图9是本发明提供的图像描述生成模型训练装置的结构示意图;
44.图10是本发明提供的图像描述生成装置的结构示意图;
45.图11是本发明提供的电子设备的结构示意图。
具体实施方式
46.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.在图像描述生成任务中,基于cnn-rnn的编码器-解码器框架构建得到的模型,缺点体现在处理固定长度向量时的局限性。rnn会造成长程梯度消失的问题,虽然lstm有门控结构,但是随着目前任务理解和难度的升级,对于长句子的生成效果不理想。
48.基于attention的编码器-解码器框架构建得到的模型,由于多模态的图像描述生成任务普遍存在着模态隔阂的问题,使得生成描述文本的能力有限。此外,由于数据集本身的文本图像对单一,进而导致生成的描述文本为粗粒度文本。
49.再有,虽然采用目前主流的大规模视觉和语言模型能够解决上述问题,但上述大规模视觉和语言模型训练的成本较高。
50.对此,本发明提供一种图像描述生成模型训练方法。图1是本发明提供的图像描述生成模型训练方法的流程示意图,如图1所示,该方法包括如下步骤:
51.步骤110、确定样本描述图像对应的样本条件标签;样本条件标签包括样本描述图像的期望描述信息。
52.具体地,样本描述图像即用于训练图像描述生成模型的图像,样本描述图像可以从多种来源获取,例如可以从公开数据集(如coco2014)、本地数据集或互联网上获取样本描述图像。
53.此外,样本条件标签包括样本描述图像的期望描述信息,期望描述信息指样本描述图像的倾向描述信息,期望描述信息可以包括类别描述信息、色彩描述信息、前景描述信
息、背景描述信息等。其中,类别描述信息用于描述样本描述图像中的信息类别,如人物、动物等,色彩描述信息用于描述样本描述图像中的色彩信息,如衣服颜色、帽子颜色等,前景描述信息用于描述样本图像中的前景信息,如样本描述图像的前景包括人、车、动物等,背景描述信息用于描述样本图像中的背景信息,如样本描述图像的背景包括天空、草地、建筑物等。可以理解的是,样本条件标签包括样本描述图像的期望描述信息,即不同样本描述图像对应的样本条件标签不同。
54.可选地,可以通过人工确定样本描述图像的样本条件标签,也可以通过对样本描述图像进行图像分割确定样本条件标签中的前景描述信息和背景表述信息,通过对样本描述图像进行目标检测确定样本条件标签中的类别描述信息,通过对上述前景描述信息、背景描述信息和类别描述信息对应的区域进行颜色识别,确定样本条件标签中的色彩描述信息。
55.步骤120、冻结已有的图像描述生成模型的编码层参数和解码层参数,基于样本描述图像以及样本条件标签对已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型。
56.具体地,已有的图像描述生成模型可以理解为是现有技术中的图像描述生成模型,如已有的图像描述生成模型可以是基于cnn-rnn的编码器-解码器模型,也可以是基于attention的编码器-解码器模型。
57.考虑到已有的图像描述生成模型包含大量的参数,若将编码层和解码层与其它层一起进行训练,则对内存、通讯、调优等方面都带来了挑战。对此,本发明实施例冻结已有的图像描述生成模型的编码层参数和解码层参数,即将编码层与解码层设置为不可训练状态,对其它层进行训练,从而可以减少模型训练的参数量,加快模型的收敛速度,降低了模型的训练成本。
58.此外,样本条件标签包括样本描述图像的期望描述信息,从而样本条件标签可以指导已有的图像描述生成模型学习从样本描述图像中提取期望描述信息,进而使得生成的样本图像描述文本与期望描述信息匹配。例如,样本描述图像a对应的内容为女孩与狗在沙滩上,若期望生成的样本图像描述文本突出对目标的描述,则可以在样本条件标签中添加目标信息。
59.由此可见,样本条件标签可以对样本描述图像中的期望描述信息进行增强,进而使得生成的样本图像描述文本能够与期望描述信息匹配。
60.此外,图像描述模型可以看作是视觉模型,而图像描述模型生成描述文本的过程又需要对视觉模型进行语言训练,视觉模型的视觉训练与语言模型的语言训练之间存在模态隔阂,导致已有的图像描述模型不能精准生成对应的描述文本。然而,本发明实施例通过引入样本条件标签,引导已有的图像描述生成模型进行语言训练,使得得到的图像描述生成模型精准生成与期望描述信息匹配的细粒度图像描述文本。
61.本发明实施例提供的图像描述生成模型训练方法,通过样本条件标签指导已有的图像描述生成模型学习从样本描述图像中提取期望描述信息,从而使得训练得到的图像描述生成模型能够精准生成与期望描述信息匹配的细粒度图像描述文本。此外,本发明实施例冻结已有的图像描述生成模型的编码层参数和解码层参数,从而可以减少模型训练的参数量,加快模型的收敛速度,降低了模型的训练成本。
62.基于上述实施例,基于样本描述图像以及样本条件标签对已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型,包括:
63.对样本描述图像进行特征编码,得到样本描述图像特征;
64.对样本条件标签进行特征编码,得到样本条件标签特征;
65.基于样本描述图像特征以及样本条件标签特征,对已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型。
66.具体地,对样本描述图像进行特征编码,是将样本描述图像转换为数值型特征的过程,从而得到样本描述图像特征。其中,可以基于已有的图像描述生成模型中的编码层对样本描述图像进行特征编码,得到样本描述图像特征。
67.同理,对样本条件标签进行特征编码,是将样本条件标签转换为数值型特征的过程,从而得到样本条件标签特征。其中,可以在已有的图像描述生成模型中增置注意力模块,由注意力模块对样本条件标签进行特征编码,也可以基于另一个网络(如轻量级网络)对样本条件标签进行特征编码,本发明实施例对此不作具体限定。
68.在得到样本描述图像特征以及样本条件标签特征后,基于样本描述图像特征以及样本条件标签特征,对已有的图像描述生成模型的其它层进行训练,从而使得得到图像描述生成模型能够精准生成与期望描述信息匹配的细粒度图像描述文本。
69.基于上述任一实施例,对样本条件标签进行特征编码,得到样本条件标签编码特征,包括:
70.将样本条件标签输入至轻量级网络,由轻量级网络对样本条件标签进行特征编码,得到样本条件标签特征对应的自适应系数,并将自适应系数输入至已有的图像描述生成模型的归一化层,以指导归一化层的映射参数;
71.或,
72.将样本条件标签输入至在已有的图像描述生成模型中增置的注意力模块,由注意力模块对样本条件标签进行特征编码,得到样本条件标签编码特征。
73.具体地,轻量级网络可以包括mlp(multilayer perceptron)、lformer(lightweight transformer),其中mlp的结构如图2所示,lformer的结构如图3所示。自适应系数可以包括scaling系数、shift系数、gate系数等。采用轻量级网络对样本条件标签进行特征编码能够在保持模型精度的前提下,减少模型参数量和复杂度,从而提高计算效率和推理速度。
74.如图4所示,基于label embedder将离散的样本条件标签(dog)转换为连续的高维向量(label dense向量),并将该向量经过轻量级网络(lformer)得到scaling系数、shift系数和gate系数控制activation tensors,即利用样本条件标签中的期望描述信息指导归一化层(layer norm)层的映射参数。
75.在对样本条件标签进行特征编码时,还可以在已有的图像描述生成模型中增置注意力模块,由注意力模块对样本条件标签进行特征编码,得到样本条件标签编码特征。如图5所示,在已有的图像描述生成模型的encoder中增加注意力模块(cross attention),样本条件标签直接通过label embedder编码于cross attention。
76.基于上述任一实施例,对样本条件标签进行编码,之前还包括:
77.将离散的样本条件标签转换为连续的高维向量。
78.在一些具体实施方式中,可以对样本条件标签进行label embedder,以将连续的样本条件标签转换成连续的高维向量(label dense向量),从而实现将以离散值表示的样本条件标签嵌入到连续的高维空间中,便于模型进行计算。
79.基于上述任一实施例,期望描述信息包括类别描述信息、色彩描述信息、前景描述信息以及背景描述信息中的至少一种。
80.具体地,类别描述信息用于描述样本描述图像中的信息类别,如人物、动物等,色彩描述信息用于描述样本描述图像中的色彩信息,如衣服颜色、帽子颜色等,前景描述信息用于描述样本图像中的前景信息,如样本描述图像的前景包括人、车、动物等,背景描述信息用于描述样本图像中的背景信息,如样本描述图像的背景包括天空、草地、建筑物等。
81.基于上述任一实施例,本发明还提供一种图像描述生成模型训练方法,该方法包括:
82.获取图像-文本对数据集,在数据集中增加图像中期望的category信息。以coco2014 caption数据集为例,可根据coco2014 instance标注,对coco2014 caption数据集中增加期望的样本条件标签。
83.例如,可以对数据集进行如下标注:
84.{"caption":"a woman wearing a net on her head cutting a cake.","image":"val2014/coco_val2014_000000522418.jpg","image_id":"coco_522418","category_id":1,"name":"person","new_cat_id_map":0}
85.其中,"caption"对应的内容是对图像的描述;"image"是图像路径;"image_id"是由图像名称得到的;"category_id"是增加的category信息类别id;"name"是增加的条件标签信息;"new_cat_id_map"是重新编码后的类别id(由于coco2014标注的category_id不连续,所以此处需要重新编码)。
86.从上述标注中读取到"new_cat_id_map",并通过label embedder将条件标签的类别id转换成label dense向量。其中,label embedder包括dropout+embedding layer。
87.将label dense向量输入轻量级网络得到scaling系数、shift系数和gate系数,以指导归一化层的映射参数。或者,在已有的图像描述生成模型中增加cross attention,样本条件标签直接通过label embedder编码于cross attention。
88.冻结已有的图像描述生成模型中的编码层参数和解码层参数,基于编码后的样本条件标签以及编码后的样本描述图像训练其它层,得到图像描述生成模型。
89.基于上述任一实施例,图6是本发明提供的图像描述生成方法的流程示意图,如图6所示,该方法包括如下步骤:
90.步骤610、确定待描述图像以及对应的条件标签;条件标签包括待描述图像的期望描述信息;
91.步骤620、将待描述图像以及条件标签输入至图像描述生成模型,得到图像描述生成模型输出的图像描述文本;
92.图像描述生成模型基于如上任一实施例所述的图像描述生成模型训练方法训练得到。
93.具体地,待描述图像指需要生成图像描述文本的图像,条件标签包括待描述图像的期望描述信息。期望描述信息指待描述图像的倾向描述信息,期望描述信息可以包括类
别描述信息、色彩描述信息、前景描述信息、背景描述信息等。
94.由于图像描述生成模型是基于如上任一实施例所述的图像描述生成模型训练方法训练得到的,从而图像描述生成模型能够精准生成与期望描述信息匹配的细粒度图像描述文本,即将待描述图像以及条件标签输入至图像描述生成模型后,能够得到与期望描述信息匹配的细粒度图像描述文本。
95.经过实验,本发明实施例提供的图像描述生成模型相较于现有技术中的图像描述生成模型,不仅可以降低训练成本,而且能够提高文本描述能力。表1为本发明实施例提供的模型与现有技术模型的指标对照表,如表1所示,ours为本发明实施例提供的图像描述生成方法,enc-dec和blip均为现有技术提高的图像描述生成方法,ours的trained params小于enc-dec和blip的trained params,表明本发明实施例提供的图像描述生成方法能够降低训练成本;ours的bleu@4优于blip的bleu@4,ours的cider均优于enc-dec和blip对应的cider,表明本发明实施例提供的图像描述生成方法能够提高文本描述能力。
96.表1
[0097][0098]
此外,如图7所示,待描述图像内容为“一位女士坐在海滩上,身边有一只金色的狗”,若采用现有的图像描述生成方法,则得到的图像描述文本为“a woman sitting on the beach with a dog”,若采用本发明实施例的图像描述生成方法,则得到的图像描述文本为“awoman sitting on the beach with a golden dog”。如图8所示,待描述图像内容为“一位红头发的女士正在看那里”,若采用现有的图像描述生成方法,则得到的图像描述文本为“awoman is looking there”,若采用本发明实施例的图像描述生成方法,则得到的图像描述文本为“awoman with red hair is looking there”。
[0099]
由此可见,本发明实施例提供的图像描述生成方法,能够根据条件标签中的期望描述信息倾向性地描述图像内容,得到与期望描述信息匹配的细粒度图像描述文本。
[0100]
下面对本发明提供的图像描述生成模型训练装置进行描述,下文描述的图像描述生成模型训练装置与上文描述的图像描述生成模型训练方法可相互对应参照。
[0101]
基于上述任一实施例,本发明还提供一种图像描述生成模型训练装置,如图9所示,该装置包括:
[0102]
第一确定单元910,用于确定样本描述图像对应的样本条件标签;样本条件标签包括样本描述图像的期望描述信息;
[0103]
模型训练单元920,用于冻结已有的图像描述生成模型的编码层参数和解码层参数,基于样本描述图像以及样本条件标签对已有的图像描述生成模型的其它层进行训练,
得到图像描述生成模型。
[0104]
下面对本发明提供的图像描述生成装置进行描述,下文描述的图像描述生成装置与上文描述的图像描述生成方法可相互对应参照。
[0105]
基于上述任一实施例,本发明还提供一种图像描述生成装置,如图10所示,该装置包括:
[0106]
第二确定单元1010,用于确定待描述图像以及对应的条件标签;条件标签包括待描述图像的期望描述信息;
[0107]
图像描述单元1020,用于将待描述图像以及条件标签输入至图像描述生成模型,得到图像描述生成模型输出的图像描述文本;
[0108]
图像描述生成模型基于如上任一实施例所述的图像描述生成模型训练方法训练得到。
[0109]
图11是本发明提供的电子设备的结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1110、存储器(memory)1120、通信接口(communications interface)1130和通信总线1140,其中,处理器1110,存储器1120,通信接口1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1120中的逻辑指令,以执行图像描述生成模型训练方法,该方法包括:确定样本描述图像对应的样本条件标签;所述样本条件标签包括所述样本描述图像的期望描述信息;冻结已有的图像描述生成模型的编码层参数和解码层参数,基于所述样本描述图像以及所述样本条件标签对所述已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型。
[0110]
或,以执行图像描述生成方法,该方法包括:确定待描述图像以及对应的条件标签;所述条件标签包括所述待描述图像的期望描述信息;将所述待描述图像以及所述条件标签输入至图像描述生成模型,得到所述图像描述生成模型输出的图像描述文本;所述图像描述生成模型基于如上所述的图像描述生成模型训练方法训练得到。
[0111]
此外,上述的存储器1120中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0112]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的图像描述生成模型训练方法,该方法包括:确定样本描述图像对应的样本条件标签;所述样本条件标签包括所述样本描述图像的期望描述信息;冻结已有的图像描述生成模型的编码层参数和解码层参数,基于所述样本描述图像以及所述样本条件标签对所述已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型。
[0113]
或,以执行图像描述生成方法,该方法包括:确定待描述图像以及对应的条件标
签;所述条件标签包括所述待描述图像的期望描述信息;将所述待描述图像以及所述条件标签输入至图像描述生成模型,得到所述图像描述生成模型输出的图像描述文本;所述图像描述生成模型基于如上所述的图像描述生成模型训练方法训练得到。
[0114]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的图像描述生成模型训练方法,该方法包括:确定样本描述图像对应的样本条件标签;所述样本条件标签包括所述样本描述图像的期望描述信息;冻结已有的图像描述生成模型的编码层参数和解码层参数,基于所述样本描述图像以及所述样本条件标签对所述已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型。
[0115]
或,以执行图像描述生成方法,该方法包括:确定待描述图像以及对应的条件标签;所述条件标签包括所述待描述图像的期望描述信息;将所述待描述图像以及所述条件标签输入至图像描述生成模型,得到所述图像描述生成模型输出的图像描述文本;所述图像描述生成模型基于如上所述的图像描述生成模型训练方法训练得到。
[0116]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0117]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0118]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种图像描述生成模型训练方法,其特征在于,包括:确定样本描述图像对应的样本条件标签;所述样本条件标签包括所述样本描述图像的期望描述信息;冻结已有的图像描述生成模型的编码层参数和解码层参数,基于所述样本描述图像以及所述样本条件标签对所述已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型。2.根据权利要求1所述的图像描述生成模型训练方法,其特征在于,所述基于所述样本描述图像以及所述样本条件标签对所述已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型,包括:对所述样本描述图像进行特征编码,得到样本描述图像特征;对所述样本条件标签进行特征编码,得到样本条件标签特征;基于所述样本描述图像特征以及所述样本条件标签特征,对所述已有的图像描述生成模型的其它层进行训练,得到所述图像描述生成模型。3.根据权利要求2所述的图像描述生成模型训练方法,其特征在于,所述对所述样本条件标签进行特征编码,得到样本条件标签编码特征,包括:将所述样本条件标签输入至轻量级网络,由所述轻量级网络对所述样本条件标签进行特征编码,得到样本条件标签特征对应的自适应系数,并将所述自适应系数输入至所述已有的图像描述生成模型的归一化层,以指导所述归一化层的映射参数;或,将所述样本条件标签输入至在所述已有的图像描述生成模型中增置的注意力模块,由所述注意力模块对所述样本条件标签进行特征编码,得到所述样本条件标签编码特征。4.根据权利要求2所述的图像描述生成模型训练方法,其特征在于,所述对所述样本条件标签进行编码,之前还包括:将离散的样本条件标签转换为连续的高维向量。5.根据权利要求1至4任一项所述的图像描述生成模型训练方法,其特征在于,所述期望描述信息包括类别描述信息、色彩描述信息、前景描述信息以及背景描述信息中的至少一种。6.一种图像描述生成方法,其特征在于,包括:确定待描述图像以及对应的条件标签;所述条件标签包括所述待描述图像的期望描述信息;将所述待描述图像以及所述条件标签输入至图像描述生成模型,得到所述图像描述生成模型输出的图像描述文本;所述图像描述生成模型基于权利要求1至5任一项所述的图像描述生成模型训练方法训练得到。7.一种图像描述生成模型训练装置,其特征在于,包括:第一确定单元,用于确定样本描述图像对应的样本条件标签;所述样本条件标签包括所述样本描述图像的期望描述信息;模型训练单元,用于冻结已有的图像描述生成模型的编码层参数和解码层参数,基于所述样本描述图像以及所述样本条件标签对所述已有的图像描述生成模型的其它层进行
训练,得到图像描述生成模型。8.一种图像描述生成装置,其特征在于,包括:第二确定单元,用于确定待描述图像以及对应的条件标签;所述条件标签包括所述待描述图像的期望描述信息;图像描述单元,用于将所述待描述图像以及所述条件标签输入至图像描述生成模型,得到所述图像描述生成模型输出的图像描述文本;所述图像描述生成模型基于权利要求1至5任一项所述的图像描述生成模型训练方法训练得到。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述图像描述生成模型训练方法,或实现如权利要求6所述图像描述生成方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述图像描述生成模型训练方法,或实现如权利要求6所述图像描述生成方法。
技术总结
本发明提供一种图像描述生成模型训练、图像描述生成方法及装置,所述方法包括:确定样本描述图像对应的样本条件标签;样本条件标签包括样本描述图像的期望描述信息;冻结已有的图像描述生成模型的编码层参数和解码层参数,基于样本描述图像以及样本条件标签对已有的图像描述生成模型的其它层进行训练,得到图像描述生成模型。本发明训练得到的图像描述生成模型不仅能够精准生成与期望描述信息匹配的细粒度图像描述文本,而且可以减少模型训练的参数量,加快模型的收敛速度,降低了模型的训练成本。练成本。练成本。
技术研发人员:请求不公布姓名
受保护的技术使用者:上海壁仞智能科技有限公司
技术研发日:2023.06.13
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/