一种生成对抗网络的变视角图像生成方法及系统
未命名
08-02
阅读:68
评论:0

1.本发明属于图像生成领域,更具体地,涉及一种基于生成对抗网络的变视角图像生成方法及系统。
背景技术:
2.图像生成技术作为计算机视觉领域的核心任务,可以生成众多以假乱真的图像,可以为目标检测、语义分割等领域提供更多的样本,以支撑起算法模型性能的提升。在军事领域中,例如飞行器制导任务,需要算法准确的识别目标。但通常情况下,由于特定目标的图像采集较为困难以及打击目标是非配合的状态,使得含有打击目标的图像样本数较少,角度也较为单一。而图像生成技术可以生成更多的样本以提供给目标检测模型进行学习训练,从而提高识别准确率。因此,图像生成技术具有广泛的应用前景。
3.然而,已有的基于生成对抗网络的多视角图像方法生成的图像均缺少一定的纹理细节信息,生成的图像不够逼真,从而导致后续目标检测识别等任务的识别准确率降低。
技术实现要素:
4.针对现有技术的以上缺陷或改进需求,本发明提供了一种基于生成对抗网络的变视角图像生成方法及系统,由此解决现有的多视角图像方法生成的图像缺少纹理细节信息从而导致后续目标检测识别等任务的识别准确率降低的问题。
5.为实现上述目的,按照本发明的第一方面,提供了一种基于生成对抗网络的变视角图像生成方法,包括:
6.s1,对包括原始视角图像ia和目标视角真实图像a的多视角图像对中的a进行语义分割,得到对应的语义分割图sg;
7.s2,构建生成网络;所述生成网络包括级联的:
8.一级生成网络,包括多个级联的空间特征残差模块rsb;每个rsb包括多个级联的组合,每个组合包括相互连接的空间特征转换模块sft与卷积层;首个rsb用于根据输入的拼接特征和公共语义特征进行目标视觉特征提取,其它rsb用于将前一级rsb输出的目标视觉特征作为输入特征h,并根据h与所述公共语义特征进行目标视觉特征提取;最后一级rsb输出最终的目标视觉特征图ig`;所述sft用于对公共语义特征分别进行卷积处理得到缩放特征矩阵t和平移特征矩阵s,将拼接特征与t进行点乘得到的中间结果与s进行对应元素的加法操作,得到输出的目标视觉特征;所述公共语义特征为对sg进行特征提取得到,所述拼接特征为将ia与sg拼接得到;
9.二级生成网络,包括相互级联的空洞卷积多尺度特征提取模块ams和多通道注意力mca;所述ams包括n个不同膨胀率的空洞卷积组合,用于分别根据ig`和sg生成对应的n张不同感受野的特征图;所述mca用于对将所述n张不同感受野的特征图拼接得到的多尺度特征图h`进行处理得到目标视角生成图像ig``;
10.s3,以ig``与a的相似度最高为目标,训练所述生成网络;
11.s4,将待转换的原始视角图像和目标视角图像语义分割图输入至训练好的生成网络,得到转换后的目标视角生成图像。
12.按照本发明的第二方面,提供了一种基于生成对抗网络的变视角图像生成装置,包括:
13.第一处理模块,用于对包括原始视角图像ia和目标视角真实图像a的多视角图像对中的a进行语义分割,得到对应的语义分割图sg;
14.第二处理模块,用于构建生成网络;所述生成网络包括级联的:
15.一级生成网络,包括多个级联的空间特征残差模块rsb;每个rsb包括多个级联的组合,每个组合包括相互连接的空间特征转换模块sft与卷积层;首个rsb用于根据输入的拼接特征和公共语义特征进行目标视觉特征提取,其它rsb用于将前一级rsb输出的目标视觉特征作为输入特征h,并根据h与所述公共语义特征进行目标视觉特征提取;最后一级rsb输出最终的目标视觉特征图ig`;所述sft用于对公共语义特征分别进行卷积处理得到缩放特征矩阵t和平移特征矩阵s,将拼接特征与t进行点乘得到的中间结果与s进行对应元素的加法操作,得到输出的目标视觉特征;所述公共语义特征为对sg进行特征提取得到,所述拼接特征为将ia与sg拼接得到;
16.二级生成网络,包括相互级联的空洞卷积多尺度特征提取模块ams和多通道注意力mca;所述ams包括n个不同膨胀率的空洞卷积组合,用于分别根据ig`和sg生成对应的n张不同感受野的特征图;所述mca用于对将所述n张不同感受野的特征图拼接得到的多尺度特征图h`进行处理得到目标视角下的生成图像ig``并输入;
17.第三处理模块,用于以ig``与a的相似度最高为目标,训练所述生成网络;
18.第四处理模块,用于将待转换的原始视角图像和目标视角图像语义分割图输入至训练好的生成网络,得到转换后的目标视角下的生成图像。
19.按照本发明的第三方面,提供了一种基于生成对抗网络的变视角图像生成系统,包括:计算机可读存储介质和处理器;
20.所述计算机可读存储介质用于存储可执行指令;
21.所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面所述的方法。
22.按照本发明的第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如第一方面所述的方法。
23.总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
24.本发明提供的基于生成对抗网络的变视角图像生成方法,利用级联生成网络来生成更精细化的目标视角的图像。其中,一级生成网络中加入空间特征转换模块对公共语义特征进行转换,使得生成器获得更多关于目标视角的语义信息,二级生成网络中加入多尺度通道注意力模块获得不同通道的注意力权重图,生成更具细节纹理的目标视角图像,具体体现在:
25.1、本发明加入了空洞卷积多尺度特征提取模块,在不降低图像分辨率的前提下,提取出图像多个尺度的特征,从而最大程度地保留原始图像上的细节信息,以增强生成图
像的真实感。
26.2、本发明加入空间特征转换模块,更加充分的利用了输入网络中的目标视角的语义分割图的语义信息,有利于生成器生成更加真实目标视角的图像。
27.3、本发明采用了级联生成网络的形式,在一级生成网络生成图像后,将其输入到由多尺度多通道注意力模块构成的二级生成网络中,得到各通道的注意力权重图,与中间结果相乘,并得到最终的生成图像。
28.综上,本发明提供的方法,能够通过少量的真实样本数据,生成多个视角下的样本数据,增加目标检测识别网络的训练样本数,提高整个目标检测识别任务的检测率。
附图说明
29.图1为本发明实施例提供的基于生成对抗网络的变视角图像生成方法流程图;
30.图2为本发明实施例提供的生成网络的结构示意图;
31.图3为本发明实施例提供的空间特征残差模块的结构示意图;
32.图4为本发明实施例提供的空间特征转换模块的结构示意图;
33.图5为本发明实施例提供的多尺度通道注意力模块的结构示意图;
34.图6中的(a)、(b)、(c)、(d)、(f)分别为本发明实施例提供的原始视角图、一级生成图像、最终生成图、真实图像、目标视觉真实图像的语义分割图。
具体实施方式
35.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
36.本发明实施例提供一种基于生成对抗网络的变视角图像生成方法,如图1所示,包括:训练阶段s1-s3及应用阶段s4;
37.训练阶段:
38.s1,对包括原始视角图像ia和目标视角真实图像a的多视角图像对中的a进行语义分割,得到对应的语义分割图sg;
39.具体地,选用公开的数据集中的多视角图像对;或者,通过采集获得足量的图像序列,然后对图像序列进行抽帧处理,然后处理成多个视角一一对应的图像对。
40.进一步地,步骤s1之前,还包括:
41.对所述多视角图像对进行预处理,以调整使其分辨率和长宽比例。
42.例如,对所述多视角图像对中的图像对进行预处理,对矩形图像(即原始视角图像ia和目标视角真实图像a)进行中心裁剪,使其变成长宽比例为1:1,分辨率为256x 256的图像。
43.然后,对图像转换对中的图像分别进行语义分割,得到其对应的分割图,将得到的四张图像组成“原始视角图像i
a-目标视角真实图像-a原始视角图像语义分割图-目标视角图像语义分割图s
g”的图像组。
44.s2,构建生成网络;如图2所示,所述生成网络包括级联的一级生成网络和二级生
成网络;
45.一级生成网络,包括多个级联的空间特征残差模块rsb;每个rsb包括多个级联的组合,每个组合包括相互连接的空间特征转换模块sft与卷积层;首个rsb用于根据输入的拼接特征和公共语义特征进行目标视觉特征提取,其它rsb用于将前一级rsb输出的目标视觉特征作为输入特征h,并根据h与所述公共语义特征进行目标视觉特征提取;最后一级rsb输出最终的目标视觉特征图ig`;所述sft用于对公共语义特征分别进行卷积处理得到缩放特征矩阵t和平移特征矩阵s,将拼接特征与t进行点乘得到的中间结果与s进行对应元素的加法操作,得到输出的目标视觉特征;所述公共语义特征为对sg进行特征提取得到,所述拼接特征为将ia与sg拼接得到;
46.二级生成网络包括相互级联的空洞卷积多尺度特征提取模块ams和多通道注意力mca;所述ams包括n个不同膨胀率的空洞卷积组合,用于分别根据ig`和sg生成对应的n张不同感受野的特征图;所述mca用于对将所述n张不同感受野的特征图拼接得到的多尺度特征图h`进行处理得到目标视角生成图像ig``。
47.具体地,一级生成网络通过空间特征转换模块,提取目标视角图像语义分割图的特征作为公共语义特征,并与原始特征(即将ia和sg拼接得到的拼接特征)相结合,以生成更具有纹理特征的图像。二级生成通过多尺度通道注意力模块,提取出各个通道的注意力权重图,生成更精细化的图像。
48.进一步地,所述mca用于对h`进行双路卷积处理,以分别将h`的多尺度特征映射到m个维度的中间生成图像和m个维度的注意力权重;并分别将所述m个维度的注意力权重与所述m个维度的中间生成图像进行一一点乘后,进行对应元素的加法操作,得到ig``。
49.具体地,采用空间特征转换模块代替传统主干网络中的卷积模块,空间转换模块的优势在于可以对公共语义特征进行各个方向和尺度的转换,使得生成网络拥有更多目标视角的语义信息,从而生成更具有空间纹理的图像。除此之外,采用级联生成网络的形式,在一级生成网络得到生成图像的基础上,将图像输入到由多尺度通道注意力模块的构成的二级生成网络中,得到更加精细化的注意力权重图和中间结果,得到最后更具有细节信息的目标视角图像。
50.1)空间特征转换模块
51.rsb模块的网络结构如图3所示,sft模块的网络结构如图4所示,对公共语义特征分别通过两个由三个卷积层组成的卷积模块的进行学习,从而得到缩放特征矩阵(scaling,s)和平移特征矩阵(translation,t)。输入特征h与sft模块得到的缩放特征进行点乘,得到相应的中间结果,再将中间结果与sft模块得到的平移特征进行对应元素的加法操作。经过缩放和平移操作后的输入特征矩阵,会得到相同尺度下目标视角的特征,在后续的特征提取的过程中,可以很好的利用通过sft模块送进来的语义信息,从而生成更加真实的目标视角下的图像。
52.设整个公共语义特征为κ,对κ进行操作ω,得到缩放特征矩阵s和平移特征矩阵t,输入特征为x,输出特征为y,则相应的转换关系如下式所示:
53.(s,t)=ω(κ)
54.y=s
⊙
x+t
55.sft模块的输入是公共语义特征κ和输入特征x,将上述的sft模块与resnet的残差
连接思想相结合,用sft模块取代res block中的卷积模块,得到ressft block.输入图像经过由多个ressft block组成的生成器后,提取出原始视角下的场景和目标视角下的前背景信息,经过一个解码器-编码器的结构,生成出目标视角下的图像。
56.2)空洞多尺度通道注意力模块amsmca
57.amsmca由空洞卷积多尺度特征提取和多通道注意力生成两部分构成,即amsmca包括ams模块和mca模块,ams及mca的结构如图5所示。
58.(a)空洞卷积多尺度特征提取模块
59.空洞卷积多尺度(atrous multi scale,ams)特征提取模块结构是一种由多个不同膨胀率的空洞卷积组合而成的特征图结构。该结构将不同感受野的特征图进行拼接,得到了一个具有多个不同感受野的特征图。
60.输出特征图由五个部分组成。第一部分是原始特征维度,其感受野为1x 1。第二部分是经过3x 3卷积核,膨胀率r=1得到的普通卷积,其感受野大小为3x 3。第三部分是经过两个3x 3普通卷积组得到的特征图。第四部分是经过3x 3,r=1和3x 3,r=2混合空洞卷积组得到的特征图,其感受野大小为7x 7。第五部分是经过3x 3,r=1和3x 3,r=3混合空洞卷积组得到的特征图,其感受野大小为9x 9。输入特征图经过ams模块后,就可以得到五个不同感受野大小的特征图组合。这有利于综合不同尺度上的信息,从而获得完整、实时、准确的目标信息和场景信息,并且可以在复杂背景下有效地完成多视角图像生成的任务,提高图像生成的质量。
61.设输入特征图为f
in
,输出特征图为f
out
,则其关系如下式所示:
62.f
out
=concat(f
in
,f
3x3
,f
5x5
,f
7x7
,f
9x9
)
63.(b)多通道注意力生成
64.在之前的多视角图像转换的任务中,目标视角的图像往往是在三通道或单通道的空间中生成,这些通道数的特征选择生成无法对整个多视角转换的复杂场景进行建模。在多通道注意力生成模块,将多尺度特征提取模块所提取处理出来的多尺度特征,经过两路网络,并通过相应的m个卷积核数的卷积操作,将多尺度特征映射到m个维度的中间生成图像和m个维度的注意力权重在生成中间生成图像时,将多尺度输入特征h'通过m个卷积核然后紧接着一个tanh(
·
)的非线性激活函数。在生成注意力权重时,将h'通过m个卷积核然后对每个通道的注意力权重执行softmax(
·
)归一化操作。其数学表达式如下式所示:
[0065][0066][0067]
s3,判别网络以ig``与a的相似度最高为目标,训练所述生成网络。
[0068]
具体地,如图2所示,通过判别网络d,用训练集图像对搭建的生成网络进行训练,得到相应的生成网络参数,保存好生成效果较佳的权重文件。
[0069]
应用阶段:
[0070]
s4,将待转换的原始视角图像和目标视角图像语义分割图输入至训练好的生成网
络,得到转换后的目标视角生成图像。
[0071]
具体地,所述应用阶段包括步骤:
[0072]
s41,将原始视角的图像和目标视角的分割图用训练好的生成网络模型处理。得到一张与原始视角相同分辨率(例如:256x 256)的一级生成图像(即最后一级rsb输出最终的目标视觉特征图ig`)。
[0073]
s42,将一级生成图像送入到二级生成网络模型中,得到各个通道的注意力权重图,将中间生成特征与注意力权重图相乘,得到最终的生成图像(即目标视角生成图像ig``)。
[0074]
进一步地,所述训练中采用的损失函数如下式所示:
[0075]
总损失
total
:
[0076][0077]
其中,λ1,λ2,λ3是惩罚因子,都取值为1.
[0078]
1)生成对抗损失:
[0079]
l
cgan
=l
cgan
(ia,i'g)+λ`l
cgan
(ia,i"g)
[0080]
其中,λ`取值为1。
cgan
(ia,i'g),
cgan
(ia,i"g)的计算公式如下:
[0081][0082][0083]
其中,ia是原始视角图像,i'g是一级生成图像,i"g是最终的生成图像。
[0084]
2)像素级约束损失:
[0085]
在整个生成网络中,其生成的目标视角的图像有一级生成网络输出i'g,以及经过amsmca模块之后的最终目标视角的输出图像i"g,两个输出图像对应的真实图像是ig,则可以对图像对[ig,i'g]和[ig,i"g]在像素级欧式空间计算l1距离,作为约束指导生成网络的学习迭代,其中图像对[ig,i'g]的l1距离
l1
(ig,i'g)的计算公式如下式所示:
[0086][0087]
同理可得,图像对[ig,i"g]的l1距离
l1
(ig,i"g),图像对[sg,s'g]的l1距离
l1
(sg,s'g),图像对[sg,s"g]的l1距离
l1
(sg,s"g)如下式所示:
[0088][0089][0090][0091]
总的像素级约束损失
l1
如下:
[0092]
l
l1
=λ1`l
l1
(ig,i'g)+λ2`l
l1
(ig,i"g)+λ3`l
l1
(sg,s'g)+λ4`l
l1
(sg,s"g)
[0093]
其中,λ1`为100,λ2`为200,λ3`为1,λ4`为2。
[0094]
3)全变差正则化损失
[0095]
为了让最终生成的图像i"g看起来更加的平滑,对生成的i"g计算全变差损失l
tv
,其实质就是对生成的图像在宽和高方向求偏导,然后得到偏导之和,设图像的宽的方向为
x,高方向为y,则全变差损失l
tv
的计算公式如下式所示:
[0096][0097]
其中,m是生成图像的总行数,n是生成图像的总列数,i是当前行数,j是当前列数,gray
(i,j)
表示生成图像i"g中i行j列的灰度值。
[0098]
下面以一个具体的例子对本发明提供的方法进行进一步说明。
[0099]
1、训练阶段
[0100]
1.1样本生成
[0101]
样本分为训练样本和测试样本,获得训练样本主要过程如下:
[0102]
选取的实验数据集为可见光公开数据集cvusa。cvusa数据集由北卡罗来纳大学教堂山分校的研究人员创建。该数据集包含大量的航拍图像和街景图像对,为多视角图像生成提供了具有挑战性的场景。总共有44416组图像对,其中35532组作为训练数据,8884组作为测试数据。
[0103]
1.2图像预处理
[0104]
在得到原始训练数据后,需要对进行预处理,使其能够满足网络的输入条件。在本章实验中,对数据进行裁剪,使其最终的图像分辨率为符合网络的输入约束,为256x 256,具体的处理步骤如下:
[0105]
(1)对矩形图像进行中心裁剪,使其变成长宽比例为1:1的图像。
[0106]
(2)对第一步处理得到的图像进行降采样处理,统一变成256x 256的分辨率。经过两个步骤处理后,可以得到一个保留了原图像大部分场景的训练数据集。
[0107]
(3)对数据集中的每个场景的不同角度进行两两组合,得到35532组训练数据,8884组测试数据。
[0108]
(4)对第三步得到的图像对,进行语义分割,得到其对应的分割图,将得到的四张图像组成“原始视角图像-目标视角真实图像-原始视角图像语义分割图-目标视角图像语义分割图”的图像组。
[0109]
1.3网络搭建
[0110]
本方法是一种通用方法,生成网络包括含有空间特征转换模块的一级生成网络,含有多尺度通道注意力模块的二级生成网络。生成网络的结构可以选用常用的编码器-解码器结构。优选地,本例采用了9个ressft block组成的一级生成器。采用以空洞卷积多尺度通道注意力模块。整体的网络结构如图3所示。
[0111]
1.4损失函数设计和网络训练
[0112]
网络的训练过程和损失函数如下所述:
[0113]
网络训练中的损失由生成对抗损失l
cgan
、像素级约束损失l
l1
、全变差正则化损失l
tv
构成。总损失由三部分加权构成。
[0114]
总损失l
total
:
[0115][0116]
其中,λ1,λ2,λ3是惩罚因子,都取值为1.
[0117]
1)生成对抗损失:
[0118]
l
cgan
=l
cgan
(ia,i'g)+λl
cgan
(ia,i"g)
[0119]
其中,λ取值为1。l
cgan
(ia,i'g),l
cgan
(ia,i"g)的计算公式如下:
[0120][0121][0122]
其中,ia是原始视角图像,i'g是一级生成图像,i"g是最终的生成图像。
[0123]
2)像素级约束损失:
[0124]
在整个生成网络中,其生成的目标视角的图像有一级生成网络输出i'g,以及经过ams、mca模块之后的最终目标视角的输出图像i"g,两个输出图像对应的真实图像是ig,则可以对图像对[ig,i'g]和[ig,i"g]在像素级欧式空间计算l1距离,作为约束指导生成网络的学习迭代,其中图像对[ig,i'g]的l1距离l
l1
(ig,i'g)的计算公式如下式所示:
[0125][0126]
同理可得,图像对[ig,i"g]的l1距离
l1
(ig,i"g),图像对[sg,s'g]的l1距离l
l1
(sg,s'g),图像对[sg,s"g]的l1距离l
l1
(sg,s"g)如下式所示:
[0127][0128][0129][0130]
总的像素级约束损失l
l1
如下:
[0131]
l
l1
=λ1l
l1
(ig,i'g)+λ2l
l1
(ig,i"g)+λ3l
l1
(sg,s'g)+λ4l
l1
(sg,s"g)
[0132]
其中,λ1为100,λ2为200,λ3为1,λ4为2。
[0133]
3)全变差正则化损失
[0134]
为了让最终生成的图像i"g看起来更加的平滑,对生成的i"g计算全变差损失l
tv
,其实质就是对生成的图像在宽和高方向求偏导,然后得到偏导之和,设图像的宽的方向为x,高方向为y,则全变差损失l
tv
的计算公式如下式所示:
[0135][0136]
其中,m是生成图像的总行数,n是生成图像的总列数,i是当前行数,j是当前列数,gray
(i,j)
表示生成图像i"g中i行j列的灰度值。
[0137]
2、应用阶段
[0138]
该算法的应用阶段主要包括两个步骤:
[0139]
1)将如图6中的(a)所示的原始视角的图像和目标视角的分割图用训练好的生成网络模型处理。得到一张与原始视角相同分辨率256x 256的一级生成图像,如图6中的(b)所示。
[0140]
2)将的一级生成图像送入到二级生成网络模型中,得到各个通道的注意力权重图,将中间生成特征与注意力权重图相乘,得到最终的生成图像。最终生成的图像如图6中的(c)所示,其中,目标视角真实图像的语义分割图如图6中的(f)所示,真实图像如图6中的
(d)所示。其算法性能结果与selection gan对比结果如表1所示。
[0141]
表1算法性能测试结果图
[0142][0143]
下面对本发明提供的基于生成对抗网络的变视角图像生成装置进行描述,下文描述的基于生成对抗网络的变视角图像生成装置与上文描述的基于生成对抗网络的变视角图像生成方法可相互对应参照。
[0144]
本发明实施例提供了一种基于生成对抗网络的变视角图像生成装置,包括:
[0145]
第一处理模块,用于对包括原始视角图像ia和目标视角真实图像a的多视角图像对中的a进行语义分割,得到对应的语义分割图sg;
[0146]
第二处理模块,用于构建生成网络;所述生成网络包括级联的:
[0147]
一级生成网络,包括多个级联的空间特征残差模块rsb;每个rsb包括多个级联的组合,每个组合包括相互连接的空间特征转换模块sft与卷积层;首个rsb用于根据输入的拼接特征和公共语义特征进行目标视觉特征提取,其它rsb用于将前一级rsb输出的目标视觉特征作为输入特征h,并根据h与所述公共语义特征进行目标视觉特征提取;最后一级rsb输出最终的目标视觉特征图ig`;所述sft用于对公共语义特征分别进行卷积处理得到缩放特征矩阵t和平移特征矩阵s,将拼接特征与t进行点乘得到的中间结果与s进行对应元素的加法操作,得到输出的目标视觉特征;所述公共语义特征为对sg进行特征提取得到,所述拼接特征为将ia与sg拼接得到;
[0148]
二级生成网络,包括相互级联的空洞卷积多尺度特征提取模块ams和多通道注意力mca;所述ams包括n个不同膨胀率的空洞卷积组合,用于分别根据ig`和sg生成对应的n张不同感受野的特征图;所述mca用于对将所述n张不同感受野的特征图拼接得到的多尺度特征图h`进行处理得到目标视角下的生成图像ig``并输入;
[0149]
第三处理模块,用于以ig``与a的相似度最高为目标,训练所述生成网络;
[0150]
第四处理模块,用于将待转换的原始视角图像和目标视角图像语义分割图输入至训练好的生成网络,得到转换后的目标视角下的生成图像。
[0151]
本发明实施例提供了一种基于生成对抗网络的变视角图像生成系统,包括:计算机可读存储介质和处理器;
[0152]
所述计算机可读存储介质用于存储可执行指令;
[0153]
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如上述任一实施例所述的方法。
[0154]
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如上述任一实施例所述的方法。
[0155]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于生成对抗网络的变视角图像生成方法,其特征在于,包括:s1,对包括原始视角图像i
a
和目标视角真实图像a的多视角图像对中的a进行语义分割,得到对应的语义分割图s
g
;s2,构建生成网络;所述生成网络包括级联的:一级生成网络,包括多个级联的空间特征残差模块rsb;每个rsb包括多个级联的组合,每个组合包括相互连接的空间特征转换模块sft与卷积层;首个rsb用于根据输入的拼接特征和公共语义特征进行目标视觉特征提取,其它rsb用于将前一级rsb输出的目标视觉特征作为输入特征h,并根据h与所述公共语义特征进行目标视觉特征提取;最后一级rsb输出最终的目标视觉特征图i
g
`;所述sft用于对公共语义特征分别进行卷积处理得到缩放特征矩阵t和平移特征矩阵s,将拼接特征与t进行点乘得到的中间结果与s进行对应元素的加法操作,得到输出的目标视觉特征;所述公共语义特征为对s
g
进行特征提取得到,所述拼接特征为将i
a
与s
g
拼接得到;二级生成网络,包括相互级联的空洞卷积多尺度特征提取模块ams和多通道注意力mca;所述ams包括n个不同膨胀率的空洞卷积组合,用于分别根据i
g
`和s
g
生成对应的n张不同感受野的特征图;所述mca用于对将所述n张不同感受野的特征图拼接得到的多尺度特征图h`进行处理得到目标视角生成图像i
g
``;s3,以i
g
``与a的相似度最高为目标,训练所述生成网络;s4,将待转换的原始视角图像和目标视角图像语义分割图输入至训练好的生成网络,得到转换后的目标视角生成图像。2.如权利要求1所述的方法,其特征在于,步骤s1之前,还包括:对所述多视角图像对进行预处理,以调整使其分辨率和长宽比例。3.如权利要求1或2所述的方法,其特征在于,所述mca用于对h`进行双路卷积处理,以分别将h`的多尺度特征映射到m个维度的中间生成图像和m个维度的注意力权重;并分别将所述m个维度的注意力权重与所述m个维度的中间生成图像进行一一点乘后,进行对应元素的加法操作,得到i
g
``。4.如权利要求1所述的方法,其特征在于,所述训练中采用的损失函数为:l
cgan
=l
cgan
(i
a
,i'
g
)+λl
cgan
(i
a
,i"
g
);l
l1
=λ1`l
l1
(i
g
,i'
g
)+λ2`l
l1
(i
g
,i"
g
)+λ3`l
l1
(s
g
,s'
g
)+λ4`l
l1
(s
g
,s"
g
);););););
其中:λ1,λ2,λ3,λ,λ1`,λ2`,λ3`,λ4`均为惩罚因子;m是生成图像的总行数,n是生成图像的总列数,i是当前行数,j是当前列数,gray
(i,j)
表示生成图像i"
g
中i行j列的灰度值,s'
g
和s"
g
分别为i'
g
和i"
g
的语义分割图。5.一种基于生成对抗网络的变视角图像生成装置,其特征在于,包括:第一处理模块,用于对包括原始视角图像i
a
和目标视角真实图像a的多视角图像对中的a进行语义分割,得到对应的语义分割图s
g
;第二处理模块,用于构建生成网络;所述生成网络包括级联的:一级生成网络,包括多个级联的空间特征残差模块rsb;每个rsb包括多个级联的组合,每个组合包括相互连接的空间特征转换模块sft与卷积层;首个rsb用于根据输入的拼接特征和公共语义特征进行目标视觉特征提取,其它rsb用于将前一级rsb输出的目标视觉特征作为输入特征h,并根据h与所述公共语义特征进行目标视觉特征提取;最后一级rsb输出最终的目标视觉特征图i
g
`;所述sft用于对公共语义特征分别进行卷积处理得到缩放特征矩阵t和平移特征矩阵s,将拼接特征与t进行点乘得到的中间结果与s进行对应元素的加法操作,得到输出的目标视觉特征;所述公共语义特征为对s
g
进行特征提取得到,所述拼接特征为将i
a
与s
g
拼接得到;二级生成网络,包括相互级联的空洞卷积多尺度特征提取模块ams和多通道注意力mca;所述ams包括n个不同膨胀率的空洞卷积组合,用于分别根据i
g
`和s
g
生成对应的n张不同感受野的特征图;所述mca用于对将所述n张不同感受野的特征图拼接得到的多尺度特征图h`进行处理得到目标视角下的生成图像i
g
``并输入;第三处理模块,用于以i
g
``与a的相似度最高为目标,训练所述生成网络;第四处理模块,用于将待转换的原始视角图像和目标视角图像语义分割图输入至训练好的生成网络,得到转换后的目标视角下的生成图像。6.一种基于生成对抗网络的变视角图像生成系统,其特征在于,包括:计算机可读存储介质和处理器;所述计算机可读存储介质用于存储可执行指令;所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如权利要求1-4任一项所述的方法。7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如权利要求1-4任一项所述的方法。
技术总结
本发明公开了一种基于生成对抗网络的变视角图像生成方法及系统,该方法利用级联生成网络来生成更精细化的目标视角的图像。其中,一级生成网络中加入空间特征转换模块对公共语义特征进行转换,使得生成器获得更多关于目标视角的语义信息,二级生成网络中加入多尺度通道注意力模块获得不同通道的注意力权重图,生成更具细节纹理的目标视角图像;本发明提供的方法,能够通过少量的真实样本数据,生成多个视角下的样本数据,本发明可以为目标检测识别网络的增加训练样本数,提高整个目标检测识别任务的检测率。别任务的检测率。别任务的检测率。
技术研发人员:杨卫东 陈朝烁 王公炎 赵之鉴
受保护的技术使用者:华中科技大学
技术研发日:2023.04.28
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种N-乙烯基吡唑类化合物的合成方法 下一篇:一种高压ESD静电版图结构的制作方法