一种基于局部多尺度重建的掩码图像生成算法的制作方法
未命名
09-03
阅读:207
评论:0

1.本发明涉及图像生成技术领域,具体为一种基于局部多尺度重建的掩码图像生成算法。
背景技术:
2.最近几年,掩码图像生成算法在自监督视觉上取得很多成就,掩码图像生成通过掩码一部分输入图像,根据未掩码部分的图像预测信号,信号包含归一化像素、离散token、深度特征和hog特征等。mae采用了非对称编码器-解码器策略,其中昂贵的编码器只操作很少的可见补丁,轻量级解码器将所有补丁作为预测的输入。greenmim将非对称编码-解码器策略扩展到分层vision transformer。这些算法都在下游任务中取得优异的成绩,但是这些模型都有着计算量巨大、训练过程慢的问题。同时,这些算法也仅仅致力于加速编码层面,未考虑到分层的表示学习。
3.其中掩码图像生成算法通过掩码一部分图像,根据未掩码根据未掩码部分的图像预测信号,信号包含归一化像素、离散token、深度特征和hog特征。目前主流的算法主要采用非对称编码器-解码器策略,在下游任务上取得优异的成绩。但是这些模型都有着计算量巨大、训练过程慢的问题。此外,这些算法也仅仅致力于加速编码层面,未考虑到分层的表示学习。近些年,多尺度的特征提取网络逐渐成为一种新的范式,能很好的融合多尺度的语义信息,同时局部的多尺度重建不会增加新的计算负担,因此局部的多尺度重建可以在掩码图像重建任务中拥有更好的精度和速度。
4.综上所述,本发明通过设计一种基于局部多尺度重建的掩码图像生成算法来解决存在的问题。
技术实现要素:
5.针对现阶段掩码图像生成算法的缺陷,本发明提供一种基于局部多尺度重建的掩码图像生成算法,分层级的进行重建任务,下层和上层分别重建细尺度和粗尺度的监督,多层级的重建网络能更好的重建信号,每个层级解码部分使用小编码器进行局部重建不会增加计算负担。同时监督下层和上层也加速整个网络学习过程。
6.为实现上述目的,本发明提供如下技术方案:
7.一种基于局部多尺度重建的掩码图像生成算法,包括以下步骤:
8.步骤s1,数据构建、数据预处理:图像生成算法的开源数据集主要是imagenet、ade20k和coco dataset,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致;
9.步骤s2,图像编码器模块:首先对输入数据生成随机掩码,以非掩码区域的图像作为网络的输入,利用vision transformer网络对非掩码的图像进行特征提取,提取多尺度的网络特征;
10.步骤s3,图像解码模块:图像解码器输入是编码器输出的特征和输入数据生成的
随机掩码,解码器模块包含transformer模块、反卷积和多层感知机,解码器的结果与原图进行hog特征提取后的结果进行损失计算;
11.步骤s4,局部多尺度重建:利用局部多尺度重建的思想,对图像进行逐步的重建,具体做法是对编码器提取的4个不同维度的特征都进行解码并与原图的hog特征进行损失计算,最终得到完整的图像。
12.作为本发明优选的方案,步骤s1中的将输入的图像都进行尺寸归一化,统一为224*224的大小,并对数据进行均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]的正则化处理,处理完成后送入vision transformer网络进行特征提取。
[0013]
作为本发明优选的方案,步骤s2中首先对输入数据生成随机掩码,将图片划分成无重叠的区域,再将未被掩码的图片区域作为vision transformer网络的输入,进行特征提取,得到4个维度的特征图。
[0014]
作为本发明优选的方案,步骤s3中图像解码器模块解码器模块,输入是编码器输出的特征和输入数据生成的随机掩码,解码器模块包含小transformer模块(局部重建)、反卷积和多层感知机,解码器的结果与原图进行hog特征提取后的结果进行损失计算。
[0015]
作为本发明优选的方案,步骤s4中利用局部多尺度重建的思想,对图像进行逐步的重建,具体做法是首先使用hog算法对原始图像进行特征提取,得到真实值yi;
[0016]
其次是对于第i(i=1,2,3,4)层,解码器的输入为未掩码图像的特征图xi和掩码图像的token:其中表示第i层的共享可学习向量,m∈{0,1}表示图像是否掩码,0为非掩码,1为掩码,表示第i层第j个掩码;
[0017]
解码器的输出可表示为与特征图xi的大小相同,当解码器预测的输出与特征图xi有不同尺度时,使用反卷积或者池化运算重新缩放预测使其与真实值yi相同大小,依次对四个不同维度的特征都进行解码预测并与原图的hog特征真实值yi进行损失计算,最终得到完整的图像
[0018]
其中依次对四个不同维度的特征都进行解码预测并与原图的hog特征真实值yi进行损失计算,训练损失是在所选层上的重建损失的加权之和,具体可以表示为式(1):
[0019][0020]
其中是选择的层,wi是每个局部损失的系数,ni是每一层patch的数量,g(
·
)表示高斯损失函数。
[0021]
与现有技术相比,本发明的有益效果是:
[0022]
1、本发明中,通过设计一种基于局部多尺度重建的掩码图像生成算法,下层和上层分别重建细尺度和粗尺度的监督,细尺度监督通常包含低级别语义信息(角、纹理等),粗尺度监督包含高级别语义信息(部分或整体输入形状),多层级的重建网络能更好的重建信号,同时监督下层和上层也加速整个网络学习过程,此外,每个层级解码部分使用小编码器进行局部重建不会增加计算负担。同时监督下层和上层也加速整个网络学习过程,从而在开源数据集上掩码图像生成算法中在不缺失精度的前提下,算法速度提升3至6倍。
附图说明
[0023]
图1为本发明vision transformer图像编码器示意图;
[0024]
图2为本发明解码器模块示意图;
[0025]
图3为本发明局部多尺度重建及监督模块示意图;
[0026]
图4为本发明整体网络架构示意图。
具体实施方式
[0027]
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0028]
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
[0029]
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件,本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0030]
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同,本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明,本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0031]
请参阅图1-4,本发明提供一种技术方案:
[0032]
步骤s1、数据构建、数据预处理:
[0033]
图像生成算法的开源数据集主要是imagenet、ade20k和coco dataset,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致;
[0034]
步骤s2、图像编码模块:
[0035]
将输入的图像都进行尺寸归一化,统一为224*224的大小,并对数据进行均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]的正则化处理,再对输入数据生成随机掩码,将图片划分成无重叠的区域,再将未被掩码的图片区域作为vision transformer网络的输入,进行特征提取,得到4个维度的特征图,具体见图1。
[0036]
步骤s3、图像解码模块:
[0037]
图像解码器的输入是编码器输出的特征和输入数据生成的随机掩码,解码器模块包含小transformer模块(局部重建)、反卷积和多层感知机,解码器的结果与原图进行hog特征提取后的结果进行损失计算。解码器见图2。
[0038]
步骤s4、局部多尺度重建:
[0039]
利用局部多尺度重建的思想,对图像进行逐步的重建,具体做法是首先使用hog算法对原始图像进行特征提取,得到真实值yi。其次是对于第i(i=1,2,3,4)层,解码器的输
入为未掩码图像的特征图xi和掩码图像的token:其中表示第i层的共享可学习向量,m∈{0,1}表示图像是否掩码,0为非掩码,1为掩码,表示第i层第j个掩码。解码器的输出可表示为与特征图xi的大小相同,当解码器预测的输出与特征图xi有不同尺度时,使用反卷积或者池化运算重新缩放预测使其与真实值yi相同大小。依次对四个不同维度的特征都进行解码预测并与原图的hog特征真实值yi进行损失计算,训练损失是在所选层上的重建损失的加权之和,具体可以表示为式(1):
[0040][0041]
其中是选择的层,wi是每个局部损失的系数,ni[0042]
是每一层patch的数量,g(
·
)表示高斯损失函数。
[0043]
局部多尺度重建架构图见图3,整体网络架构图见图4。
[0044]
实施案例
[0045]
一种基于局部多尺度重建的掩码图像生成算法具体实施分为以下部分:
[0046]
step1:数据准备
[0047]
图像生成算法的开源数据集主要是imagenet、ade20k和coco dataset,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致;
[0048]
step2:训练阶段
[0049]
将输入的图像都进行尺寸归一化,统一为224*224的大小,并对数据进行均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]的正则化处理,再对输入数据生成随机掩码,将图片划分成无重叠的区域,再将未被掩码的图片区域作为vision transformer网络的输入,进行特征提取,得到4个维度的特征图。利用局部多尺度重建的思想,对图像进行逐步的重建,具体做法是首先使用hog算法对原始图像进行特征提取,得到真实值yi。其次是对于第i(i=1,2,3,4)层,解码器的输入为未掩码图像的特征图xi和掩码图像的token:其中表示第i层的共享可学习向量,m∈{0,1}表示图像是否掩码,0为非掩码,1为掩码,表示第i层第j个掩码。解码器的输出可表示为与特征图xi的大小相同,当解码器预测的输出与特征图xi有不同尺度时,使用反卷积或者池化运算重新缩放预测使其与真实值yi相同大小。依次对四个不同维度的特征都进行解码预测并与原图的hog特征真实值yi进行损失计算,最终得到完整的图像。
[0050]
step3:测试阶段
[0051]
输入测试图片,送入网络进行推理,将得到的多尺度特征图与原始图片hog特征计算损失,重建得到完整的图像,即得到最终精度。
[0052]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于局部多尺度重建的掩码图像生成算法,包括以下步骤:步骤s1,数据构建、数据预处理:图像生成算法的开源数据集主要是imagenet、ade20k和coco dataset,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致;步骤s2,图像编码器模块:首先对输入数据生成随机掩码,以非掩码区域的图像作为网络的输入,利用vision transformer网络对非掩码的图像进行特征提取,提取多尺度的网络特征;步骤s3,图像解码模块:图像解码器输入是编码器输出的特征和输入数据生成的随机掩码,解码器模块包含transformer模块、反卷积和多层感知机,解码器的结果与原图进行hog特征提取后的结果进行损失计算;步骤s4,局部多尺度重建:利用局部多尺度重建的思想,对图像进行逐步的重建,具体做法是对编码器提取的4个不同维度的特征都进行解码并与原图的hog特征进行损失计算,最终得到完整的图像。2.根据权利要求1所述的一种基于局部多尺度重建的掩码图像生成算法,其特征在于,步骤s1中的将输入的图像都进行尺寸归一化,统一为224*224的大小,并对数据进行均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]的正则化处理,处理完成后送入vision transformer网络进行特征提取。3.根据权利要求1所述的一种基于局部多尺度重建的掩码图像生成算法,其特征在于,步骤s2中首先对输入数据生成随机掩码,将图片划分成无重叠的区域,再将未被掩码的图片区域作为vision transformer网络的输入,进行特征提取,得到4个维度的特征图。4.根据权利要求1所述的一种基于局部多尺度重建的掩码图像生成算法,其特征在于,步骤s3中图像解码器模块解码器模块,输入是编码器输出的特征和输入数据生成的随机掩码,解码器模块包含小transformer模块(局部重建)、反卷积和多层感知机,解码器的结果与原图进行hog特征提取后的结果进行损失计算。5.根据权利要求1所述的一种基于局部多尺度重建的掩码图像生成算法,其特征在于,步骤s4中利用局部多尺度重建的思想,对图像进行逐步的重建,具体做法是首先使用hog算法对原始图像进行特征提取,得到真实值y
i
;其次是对于第i(i=1,2,3,4)层,解码器的输入为未掩码图像的特征图x
i
和掩码图像的token:其中表示第i层的共享可学习向量,m∈{0,1}表示图像是否掩码,0为非掩码,1为掩码,表示第i层第j个掩码;解码器的输出可表示为与特征图x
i
的大小相同,当解码器预测的输出与特征图x
i
有不同尺度时,使用反卷积或者池化运算重新缩放预测使其与真实值y
i
相同大小,依次对四个不同维度的特征都进行解码预测并与原图的hog特征真实值y
i
进行损失计算,最终得到完整的图像其中依次对四个不同维度的特征都进行解码预测并与原图的hog特征真实值y
i
进行损失计算,训练损失是在所选层上的重建损失的加权之和,具体可以表示为式(1):
其中是选择的层,w
i
是每个局部损失的系数,n
i
是每一层patch的数量,g(
·
)表示高斯损失函数。
技术总结
本发明涉及图像生成技术领域,尤其为通过设计一种基于局部多尺度重建的掩码图像生成算法,其步骤具体如下:步骤S1,数据构建、数据预处理;步骤S2,图像编码器模块;步骤S3,图像解码模块;步骤S4,局部多尺度重建,本发明通过设计下层和上层分别重建细尺度和粗尺度的监督,细尺度监督通常包含低级别语义信息(角、纹理等),粗尺度监督包含高级别语义信息(部分或整体输入形状),多层级的重建网络能更好的重建信号,同时监督下层和上层也加速整个网络学习过程,此外,每个层级解码部分使用小编码器进行局部重建不会增加计算负担,同时监督下层和上层也加速整个网络学习过程。和上层也加速整个网络学习过程。和上层也加速整个网络学习过程。
技术研发人员:张正卿 胡超 邬伟杰 黄家耀 赖盛鑫 朱力强
受保护的技术使用者:联通(上海)产业互联网有限公司
技术研发日:2023.06.26
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/