一种无监督多尺度多阶段的内容感知单应性估计方法
未命名
08-02
阅读:88
评论:0

1.本发明涉及计算机视觉技术领域,更具体的说是涉及一种无监督多尺度多阶段的内容感知单应性估计方法。
背景技术:
2.单应性估计任务在计算机视觉领域已经研究了几十年,传统的单应性估计方法已经被很好的确立,并且大多数情况下在效率和准确性方面能够取得很好的性能。然而,传统的单应性估计方法通常将单应性估计任务分解成几个单独的子问题并依次处理它们,例如先采用sift、surf或者orb等算法来进行特征点检测,然后利用基于最近邻与次近邻距离比值等匹配算法建立特征点之间的对应关系,最后使用ransac离群值找到最佳的单应性矩阵。因此,传统的单应性估计方法有两个主要的局限性,一是单应性估计任务采取步骤分解的方式导致不能对整体进行联合优化,单应性估计任务的整体性能往往要受到某一步骤的限制;二是sift、surf以及orb等算法特征点检测的能力有限,例如sift算法依赖于图像的清晰纹理,对图像的低频区域的鲁棒性较差,这会对后续步骤的特征点匹配和单应性估计产生不利影响。
3.基于深度学习的单应性估计方法在许多视觉任务中表现出了比传统的单应性估计方法更优异的性能,特别是数据特征表示方面的出色表现,因此深度单应性估计方法受到了越来越多学者的关注。当前基于深度学习的单应性估计方法根据网络训练方式的不同,主要分为两类:一是有监督的深度单应性估计方法;二是无监督的深度单应性估计方法。这些方法在对图像进行特征提取时,往往通过堆叠多个卷积层进行卷积操作,由于卷积核通常设置为较小的值,卷积操作在特征提取时的感受野是局部的,只能提取到感受野范围内的特征信息,因此在提取特征的过程中容易忽略图像不同区域之间的语义相关性。虽然依靠堆叠多个卷积层可以在一定程度上扩大感受野,但会造成特征退化,导致网络模型性能下降。此外,这些方法主要针对的是对应点之间存在小位移变化的图像,随着输入图像之间的偏移量增加,对应点之间的位移变化越来越大,单应性估计方法的性能都有明显的下降。
4.因此提出一种无监督多尺度多阶段的内容感知单应性估计方法,来解决现有技术存在的困难,是本领域技术人员亟需解决的问题。
技术实现要素:
5.有鉴于此,本发明提供了一种无监督多尺度多阶段的内容感知单应性估计方法,在每个单应性估计阶段预测的都是整体单应性的残差,并且在每个阶段最小化两幅图像之间的像素强度误差,实现了一种由粗到细的无监督单应性估计方法。
6.为了实现上述目的,本发明提供如下技术方案:
7.一种无监督多尺度多阶段的内容感知单应性估计方法,包括以下步骤:
8.s1、获取图像数据集,并将图像数据集分为训练数据集和测试数据集;
9.s2、构建一种多尺度多阶段的单应性估计网络;
10.s3、将训练数据集输入到多尺度多阶段的单应性估计网络中对多尺度多阶段的单应性估计网络进行训练,得到最终的多尺度多阶段的单应性估计网络模型;
11.s4、将测试数据集输入到多尺度多阶段的单应性估计网络模型中对多尺度多阶段的单应性估计网络模型进行测试。
12.上述的方法,可选的,采用一种多尺度多阶段的单应性估计网络,每个阶段的单应性估计网络包括三个部分:self-attentionaugmentedconvnet特征提取模块f(
·
)、特征匹配模块m(
·
)和单应性估计模块h(
·
)。
13.上述的方法,可选的,在self-attentionaugmentedconvnet特征提取模块f(
·
)中,在空间上,计算特征图不同像素之间的自注意力关系,具体公式为:
[0014][0015]
β
i,j
表示的是特征图中第j个像素与第i个像素之间的注意力权重。
[0016]
上述的方法,可选的,在s3的训练过程中,整个ms2ca-henet网络通过最小化每个阶段图像像素之间的差值来进行无监督的网络训练,损失函数包括三个分支:
[0017][0018]
其中h1、h2、h3分别表示三个阶段求得的四个角点对应横纵坐标的偏移量δ1、δ2、δ3对应的单应性矩阵,w()表示的是空间变换操作,将单应性矩阵变换于图像上。α1,α2,α3分别是三个权重系数。
[0019]
上述的方法,可选的,在s3的训练过程中,对预测的坐标偏移量进行尺度缩放δ'1=2
×
δ1,使用张量直接线性变换得到第二阶段预估的单应性变换h1s,其中h1表示第一阶段偏移量对应的单应性矩阵,s是尺度缩放因子,将h1乘以两倍的尺度缩放因子得到h1s,并再次逆变换作用于输入图像上得到第二阶段的输入
[0020]
上述的方法,可选的,在s3的训练过程中,第二个阶段网络的输出为偏移量δ2,对应的单应性矩阵为h2;将第一阶段单应性估计网络预测的坐标δ1进行尺度缩放4
×
δ1,并将对应的单应性矩阵逆空间变换作用于128
×
128分辨率的输入图像然后将第二阶段预测的单应性变换h2乘以两倍的尺度缩放因子得到h2s,并再次逆变换作用于输入图像i
t3
上得到第三阶段的输入
[0021]
上述的方法,可选的,在s3的训练过程中,最终整个单应性矩阵对应的四点参数化形式的坐标偏移量为δ3=2
×
(2
×
δ1+δ2)+δ3。
[0022]
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种无监督多尺度多阶段的内容感知单应性估计方法,具有以下有益效果:
[0023]
1)本发明方法构建了一种新颖的无监督多尺度多阶段的内容感知单应性估计网络(ms2ca-henet),本发明方法在特征提取时构建了一种self-attentionaugmentedconvnet特征提取方法,用于提取图像的局部和全局特征信息,并在单应性估计网络中引入特征匹配模块,增强两幅图像特征之的匹配关系。
[0024]
2)本发明方法采用空间变换将变换后的目标图像与参考图像像素之间的差异作
为损失函数,不需要真实的标签数据,是一种无监督的单应性估计方法。
[0025]
3)本发明方法在每个阶段尺度下的单应性估计,都是利用上一阶段的估计结果来对本阶段的目标图像进行变换,然后输入到设计的网络中得到本阶段的单应性矩阵,因此估计的是上一阶段的单应性残差,实现了一种由粗到细的无监督单应性估计方法,实验结果表明,与当前的方法进行比较,本发明提出的方法提出的方法能够实现最先进的性能,在图像对应点有大位移变化的场景下与其他的方法相比具有一定的优越性。
附图说明
[0026]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0027]
图1为本发明提供的一种无监督多尺度多阶段的内容感知单应性估计的方法流程图;
[0028]
图2为本发明提供的ms2ca-henet整体网络结构图;
[0029]
图3为本发明提供的每个阶段网络的结构图;
[0030]
图4为本发明提供的不同方法下mace误差值的比较结果;
[0031]
图5为本发明提供的可视化结果比较;
[0032]
图6为本发明的提出方法与hierarchicalnet堆叠数量的比较;
[0033]
图7为本发明提供的相同尺寸输入与多尺寸输入的可视化结果展示;
[0034]
图8为本发明提出的方法在不同偏移量图像下的比较结果。
具体实施方式
[0035]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0036]
参照图1所示,本发明公开了一种无监督多尺度多阶段的内容感知单应性估计方法,包括以下步骤:
[0037]
s1、获取图像数据集,并将图像数据集分为训练数据集和测试数据集;
[0038]
s2、构建一种多尺度多阶段的单应性估计网络;
[0039]
s3、将训练数据集输入到多尺度多阶段的单应性估计网络中对多尺度多阶段的单应性估计网络进行训练,得到最终的多尺度多阶段的单应性估计网络模型;
[0040]
s4、将测试数据集输入到多尺度多阶段的单应性估计网络模型中对多尺度多阶段的单应性估计网络模型进行测试。
[0041]
进一步的,采用一种多尺度多阶段的单应性估计网络,每个阶段的单应性估计网络包括三个部分:self-attention augmented convnet特征提取模块f(
·
)、特征匹配模块m(
·
)和单应性估计模块h(
·
)。
[0042]
更进一步的,在self-attention augmented convnet特征提取模块f(
·
)中,在空
间上,计算特征图不同像素之间的自注意力关系,具体公式为:
[0043][0044]
β
i,j
表示的是特征图中第j个像素与第i个像素之间的注意力权重。
[0045]
进一步的,在s3的训练过程中,整个ms2ca-henet网络通过最小化每个阶段图像像素之间的差值来进行无监督的网络训练,损失函数包括三个分支:
[0046][0047]
其中h1、h2、h3分别表示三个阶段求得的四个角点对应横纵坐标的偏移量δ1、δ2、δ3对应的单应性矩阵。w()表示的是空间变换操作,将单应性矩阵变换于图像上。α1,α2,α3分别是三个权重系数。
[0048]
更进一步的,在s3的训练过程中,对预测的坐标偏移量进行尺度缩放δ'1=2
×
δ1,使用张量直接线性变换得到第二阶段预估的单应性变换h1s,其中h1表示第一阶段偏移量对应的单应性矩阵,s是尺度缩放因子,将h1乘以两倍的尺度缩放因子s得到h1s,并再次逆变换作用于输入图像上得到第二阶段的输入
[0049]
进一步的,在s3的训练过程中,第二个阶段网络的输出为偏移量δ2,对应的单应性矩阵为h2;将第一阶段单应性估计网络预测的坐标δ1进行尺度缩放4
×
δ1,并将对应的单应性矩阵逆空间变换作用于128
×
128分辨率的输入图像然后将第二阶段预测的单应性变换h2乘以两倍的尺度缩放因子s得到h2s,并再次逆变换作用于输入图像上得到第三阶段的输入
[0050]
更进一步的,在s3的训练过程中,最终整个单应性矩阵对应的四点参数化形式的坐标偏移量为δ3=2
×
(2
×
δ1+δ2)+δ3。
[0051]
参照图2所示,在第一阶段,将分辨率大小为32
×
32的图像和图像输入到stage-1单应性估计网络中,得到图像变换到图像对应的四点参数化形式的单应性矩阵δ1。由于第一个阶段网络的输出是32
×
32尺寸下四个角点对应横纵坐标的偏移量δ1,第二个阶段输入图像的分辨率大小为64
×
64,因此要对预测的坐标偏移量进行尺度缩放δ'1=2
×
δ1。使用张量直接线性变换得到第二阶段对应的单应性变换h1s,其中h1表示第一阶段偏移量对应的单应性矩阵,s是尺度缩放因子,将h1乘以两倍。对第二阶段64
×
64大小的输入图像进行h1s逆空间变换得到图像然后将图像和输入到第二个阶段的单应性估计网络中,具体过程与第一个阶段类似,第二个阶段网络的输出为偏移量δ2,对应的单应性矩阵为h2。将第一阶段单应性估计网络预测的坐标δ1进行尺度缩放4
×
δ1,并将对应的单应性矩阵逆空间变换作用于128
×
128分辨率的输入图像然后将第二阶段预测的单应性变换h2乘以两倍的尺度缩放因子得到h2s,并再次逆变换作用于输入图像上得到在第三个阶段,将图像和作为输入,得到128
×
128分辨率尺度下的坐标偏移量δ3。最终整个单应性矩阵对应的四点参数化形式的坐标偏移量为δ'3=2
×
(2
×
δ1+δ2)+δ3。第一个阶段到第三个阶段的单应性估计网络分别根据不同分辨率的输入图像估计不同尺
度的单应性变换,这有利于处理两幅图像对应点之间大的全局运动。
[0052]
整个ms2ca-henet网络通过最小化每个阶段图像像素之间的差值来进行无监督的网络训练,损失函数包括三个分支:
[0053][0054]
其中h1、h2、h3分别表示三个阶段求得的四个角点对应横纵坐标的偏移量δ1、δ2、δ3对应的单应性矩阵。w()表示的是空间变换操作,将单应性矩阵变换于图像上。α1,α2,α3分别是三个权重系数。在第一阶段计算原始的图像块(参考图像和目标图像块)之间的像素误差;第二阶段,用第一阶段估计的偏移量δ1乘以尺度因子并进行直接线性变换得到第二阶段初始的单应性变换h1s,然后乘以第二个尺度的目标块得到第二阶段的目标输入根据第二阶段的输入图像块和得到第二阶段的偏移量δ2并使用直接线性变换得到对应的单应性矩阵h2,然后计算和之间的损失;第三阶段,用第二阶段估计的偏移量δ2乘以尺度因子并进行直接线性变换得到第三阶段初始的单应性变换h2s,然后乘以第三个尺度的目标块得到第二阶段的目标输入根据第三阶段的输入图像块和得到第三阶段的偏移量δ3并使用直接线性变换得到对应的单应性矩阵h3,然后计算和之间的损失。
[0055]
参照图3所示,在特征提取部分,本发明方法设计了一种self-attention augmentedconvnet特征提取网络f(
·
),结合了卷积操作和自注意力机制。卷积神经网络一般使用尺寸较小的卷积核,在特征提取的过程中,卷积层堆叠的方式虽然会扩大特征提取时的感受野,但是由于激活层激活函数的抑制和多个卷积操作后会大大稀释远距离特征的占比,因此增加卷积神经网络的卷积层数对特征提取时感受野的提升是有限的,甚至还会造成特征退化,导致网络模型性能下降。本发明方法提出的self-attentionaugmentedconvnet特征提取网络,遵循resnet34的网络结构并使用该网络中的前两个卷积块,在每个卷积块的位置后面添加一个自注意力网络,用来解决卷积操作在提取特征过程中提取的特征缺乏全局依赖性的问题。添加具有全局感受野的非局部自注意力操作,计算卷积后特征图不同像素值之间的相关性,从而建立空间上不同位置像素之间的依赖关系。
[0056]
给定两幅尺寸大小为1
×h×
w的输入图像ir和i
t
,经过self-attention augmentedconvnet特征提取网络f(
·
)提取到的特征图fr和f
t
尺寸大小为c
×
h8
×
w8,self-attentionaugmentedconvnet特征提取网络的结构如表1所示,包含resnet34网络中的conv1、maxpool、conv2_x、conv3_x以及两个自注意力网络sa1和sa2。表1中分别展示了三个阶段不同分辨率输入图像128
×
128、64
×
64和32
×
32经过特征提取网络每一层后的尺寸大小。
[0057]
特征提取过程可以描述为(1):
[0058]fr
=f(ir),f
t
=f(i
t
)(1)
[0059]
表1
[0060][0061]
对于每个卷积块卷积后的特征图x∈rc×n,其中n=h
×
w,使用三个1
×
1大小的卷积核分别对其进行特征映射,得到三个不同的特征图:
[0062]
q=wqx,k=wkx,v=wvx
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0063]
其中wq,wk,wv分别表示三个具有不同参数的1
×
1大小的卷积核。在空间上,计算特征图不同像素之间的自注意力关系,具体计算公式为:
[0064][0065]
β
i,j
表示的是特征图中第j个像素与第i个像素之间的注意力权重,该值越大,则说明两个位置像素之间的相关性越高。然后,将计算得到的自注意力权重图与特征图v进行矩阵点乘运算,运算结果z=(z1,z2,...,zj,...,zn)∈rc×n表示为:
[0066][0067]
其中v∈rc×n,随后将得到的自注意力特征图z经过通道数为c,大小为1
×
1的卷积核卷积操作后,与原来的特征图进行逐元素相加,得到最终基于自注意力机制的特征图:
[0068]fi
=λzi+xiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0069]
其中λ是一个自适应的权重调节参数,初始值为0,通过网络的训练,逐渐增加特征图中对非局部全局特征的依赖权重。
[0070]
特征匹配是传统基于图像特征的单应性估计方法中一个重要的步骤,通过比较每对图像上特征点描述符之间的距离,选择与每个特征点距离最小的特征点作为匹配点。在
特征匹配模块m(
·
)中,没有需要训练的参数,输入为提取的特征图fr和f
t
,通过计算得到两幅图像特征图之间的匹配成本s
3d
,其中s
3d
可以被认为是一个相似矩阵,里面存储的元素是两幅图像特征图中任意两组特征向量的特征匹配成本,计算过程可以表示成:
[0071]s3d
=m(fr,f
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0072]
将三维形式的特征图fr和f
t
的宽度和高度两个维度展开成一个维度,转换成对应二维形式的特征图和特征匹配成本s
2d
(i,j)表示将特征图中第i个特征向量与特征图中第j个特征向量相乘计算得出的特征向量之间的相关性,计算过程表示为:
[0073][0074]
其中
⊙
表示向量之间的点乘,t表示向量的转置运算,c表示特征向量的维数。完整的特征匹配成本s
2d
表示为:
[0075][0076]
其中表示矩阵乘积。最后将二维形式的s
2d
转换成对应三维形式的特征匹配成本s
3d
。
[0077]
单应性估计模块h(
·
)由三个连续的卷积层和两个全连接层组成。为了防止网络模型产生过拟合的现象,在每个全连接层之前添加一个dropout层,dropout概率值设置为0.5。单应性估计模块的输入为s
3d
,输出为8个实数,表示为:
[0078]
d=h(s
3d
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0079]
对得到的8个实数运用直接线性变换(dlt)算法,可以得到两幅图像之间3
×
3形式的单应性矩阵。
[0080]
具体的,为了衡量本发明方法的性能,采用平均角点误差(mean average corner error,mace)作为评价指标。这是基于平均角误差(average corner error,ace)定义的,平均角误差是指目标图像四个角点的预测位置和真实位置之间欧氏距离的平均值。
[0081]
形式上,给定一对图像(is,i
t
)和它们之间对应的单应矩阵h
gt
,假设参考图像is四个角点的位置表示为通过单应性估计方法预测得到的单应性矩阵为然后分别计算目标图像i
t
四个角点的真实位置和预测得到的位置,如等式(11)所示:
[0082][0083]
该对图像的平均角误差通过以下公式计算可得:
[0084][0085]
平均角点误差被定义为n个图像对的平均角误差的平均值:
[0086][0087]
参照图4所示,采用orb和ransac算法的基于图像特征的单应性估计方法误差结果
远远高于基于深度学习的单应性估计方法,主要原因是基于深度学习的方法使用深度卷积神经网络可以比传统基于图像特征的方法提取出更健壮的特征。
[0088]
从图4可以观察到,由于homographynet、hierarchicalnet、unsupervised homographynet、ssr-net、stn-homographynet、bihome和content-awarenet这些深度学习方法只使用卷积来匹配图像之间的特征对应关系,与使用特征匹配模块的srhen方法和本发明方法提出的ms2ca-henet方法相比,没有使用特征匹配模块的方法误差结果明显高于使用特征匹配模块的方法。直接从图像的特征图中学习单应性矩阵参数化形式的映射函数可能导致泛化问题,这证明了特征匹配模块在深度单应性估计网络模型中的重要性。此外,srhen方法在特征提取过程中只使用卷积来提取图像的特征,卷积操作处理图像中局部邻域中的信息,不利于建立图像远距离信息之间的依赖关系。因此,本发明方法提出的ms2ca-henet方法使用self-attentionaugmentedconvnet特征提取模块提取图像的局部和全局特征,引入自注意力机制,将一个位置的信息计算为所有位置信息的加权和,有助于在特征提取过程中建立远距离信息之间的依赖关系。与srhen方法相比,本发明方法提出的ms2ca-henet方法的误差降低了10%。
[0089]
参照图5所示,还展示了几种单应性估计方法在4组不同测试图像上的可视化结果。最左侧一列的图像表示4组测试图像中的参考图像,图中红色矩形框上四个角点表示的是初始位置。从最左侧第二列依次向右,图像中红色四边形方框表示单应性变换后真实的位置,黄色四边形方框表示的是预测的位置。从第六张图中黄色四边形方框和红色四边形方框的对齐程度可以看出,本发明提出的方法提出的方法两个四边形方框的对齐程度更高,预测得到的单应性矩阵和真实的单应性矩阵误差更小,性能优于其他方法。
[0090]
分别对本发明方法提出的ms2ca-henet网络中模块的选择、网络阶段数量的选择以及不同偏移量下网络的性能进行了实验分析。
[0091]
首先,对ms2ca-henet网络中self-attentionaugmentedconvnet特征提取模块f()和特征匹配模块m()进行消融研究,如表2所示。从表中可以看出,只使用卷积层对图像进行特征提取和单应性估计任务,即使是三个阶段的网络结构,单应性估计的误差依然是最大的。使用特征匹配模块m()对网络的性能有着显著的提升,这表明特征匹配模块m()可以增强特征匹配的效率,弥合图像特征和单应性矩阵估计之间的差距。self-attentionaugmentedconvnet特征提取模块f()在特征提取过程中扩大了特征提取时的感受野,单应性估计的误差较全卷积网络有一定程度的降低。本发明提出的方法提出的ms2ca-henet网络模型同时使用了self-attentionaugmentedconvnet特征提取模块f()和特征匹配模块m(),因此单应性估计任务的误差最小。
[0092]
表2
[0093][0094][0095]
参照图6所示,接着,对本发明方法提出的ms2ca-henet网络阶段的数量进行实验
分析。阶段的数量是ms2ca-henet网络一个重要的超参数,hierarchicalnet方法是率先使用多个阶段的网络进行单应性估计的,从图中可以看出,随着网络中阶段数量从一到三的变化,hierarchicalnet方法和ms2ca-henet方法单应性估计的误差都有明显的下降,这证明了多个阶段的网络结构可以逐步细化单应性估计任务,减小单应性估计的误差。ms2ca-henet方法采用多尺度图像作为输入,利用了输入图像的局部和全局特征并对特征匹配过程进行了增强,在前三个阶段中,各个阶段的单应性估计误差都低于hierarchicalnet方法。当网络中阶段的数量增加到四时,hierarchicalnet方法单应性估计的误差较三阶段网络有略微下降,然而ms2ca-henet方法的单应性估计误差却有所上升。这是由于ms2ca-henet方法的网络增加为四个阶段时,第一阶段输入图像的尺寸为,导致第一阶段单应性估计网络处理非常小的图像,网络的训练变得不稳定。因此,本发明方法提出的ms2ca-henet网络在阶段数量的选择上采用三个阶段的形式。
[0096]
此外,本发明提出的方法提出的ms2ca-henet网络在不同阶段采用不同尺度的图像作为输入,为了验证多尺度输入的有效性,与三个阶段输入相同尺度图像的方法进行比较,如表3所示。从表中可以看到,具有相同尺度输入的方法单应性估计误差高于ms2ca-henet方法。
[0097]
表3
[0098][0099]
参照图7所示,为两者的可视化结果,其中(a)为输入的图像,红色方框表示四个角点的初始位置;(b)、(c)、(d)为输入相同尺度图像方法三个阶段的估计结果,(e)、(f)、(g)为输入不同尺度图像方法三个阶段的估计结果,红色四边形框表示四个角点真实变换后的位置,黄色四边形框表示四个角点预测的位置。
[0100]
最后,为了验证不同尺度单应性变换下ms2ca-henet方法的性能,在构建测试集时设置不同的扰动量参数ρ,控制对应点的位移大小。与homographynet、unsupervised homographynet方法进行比较,定量对比结果如表4所示,可视化结果如图8所示。从表4中可以看出,在位移变化较小的情况下,所有方法的性能都很好。然而,随着对应点位移的增加,前两者方法的性能都有显著的下降。因为上述两种方法只使用卷积来提取图像的特征并直接从特征图中建立单应性矩阵参数的映射关系,卷积算子的感受野有限,在特征通过多层卷积处理之前,长距离范围的依赖关系不能被建立。本发明提出的方法提出的ms2ca-henet方法在特征提取过程中引入了自注意力机制,使卷积层在早期的特征提取时能获得更多的信息,并且使用特征匹配模块增强了两幅图像之间特征映射的依赖关系。总体而言,在大位移场景下ms2ca-henet方法的鲁棒性优于其他方法,当两幅图像之间的位移变化随着ρ值的增大而增大时,ms2ca-henet方法仍然可以保持相对较低的mace值。
[0101]
表4
[0102][0103]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0104]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种无监督多尺度多阶段的内容感知单应性估计方法,其特征在于,包括以下步骤:s1、获取图像数据集,并将图像数据集分为训练数据集和测试数据集;s2、构建一种多尺度多阶段的单应性估计网络;s3、将训练数据集输入到多尺度多阶段的单应性估计网络中对多尺度多阶段的单应性估计网络进行训练,得到最终的多尺度多阶段的单应性估计网络模型;s4、将测试数据集输入到多尺度多阶段的单应性估计网络模型中对多尺度多阶段的单应性估计网络模型进行测试。2.根据权利要求1所述的一种无监督多尺度多阶段的内容感知单应性估计方法,其特征在于,采用一种多尺度多阶段的单应性估计网络,每个阶段的单应性估计网络包括三个部分:self-attention augmented convnet特征提取模块f(
·
)、特征匹配模块m(
·
)和单应性估计模块h(
·
)。3.根据权利要求2所述的一种无监督多尺度多阶段的内容感知单应性估计方法,其特征在于,在self-attention augmented convnet特征提取模块f(
·
)中,在空间上,计算特征图不同像素之间的自注意力关系,具体公式为:β
i,j
表示的是特征图中第j个像素与第i个像素之间的注意力权重。4.根据权利要求1所述的一种无监督多尺度多阶段的内容感知单应性估计方法,其特征在于,在s3的训练过程中,整个ms2ca-henet网络通过最小化每个阶段图像像素之间的差值来进行无监督的网络训练,损失函数包括三个分支:其中h1、h2、h3分别表示三个阶段求得的四个角点对应横纵坐标的偏移量δ1、δ2、δ3对应的单应性矩阵,w()表示的是空间变换操作,将单应性矩阵变换于图像上;α1,α2,α3分别是三个权重系数。5.根据权利要求1所述的一种无监督多尺度多阶段的内容感知单应性估计方法,其特征在于,在s3的训练过程中,在s3的训练过程中,对预测的坐标偏移量进行尺度缩放δ'1=2
×
δ1,使用张量直接线性变换得到第二阶段预估的单应性变换h1s,其中h1表示第一阶段偏移量对应的单应性矩阵,s是尺度缩放因子,将h1乘以两倍的尺度缩放因子得到h1s,并再次逆变换作用于输入图像上得到第二阶段的输入6.根据权利要求5所述的一种无监督多尺度多阶段的内容感知单应性估计方法,其特征在于,在s3的训练过程中,第二个阶段网络的输出为偏移量δ2,对应的单应性矩阵为h2;将第一阶段单应性估计网络预测的坐标δ1进行尺度缩放4
×
δ1,并将对应的单应性矩阵逆空间
变换作用于128
×
128分辨率的输入图像然后将第二阶段预测的单应性变换h2乘以两倍的尺度缩放因子得到h2s,并再次逆变换作用于输入图像上得到7.根据权利要求6所述的一种无监督多尺度多阶段的内容感知单应性估计方法,其特征在于,在s3的训练过程中,最终整个单应性矩阵对应的四点参数化形式的坐标偏移量为δ3=2
×
(2
×
δ1+δ2)+δ3。
技术总结
本发明公开了一种无监督多尺度多阶段的内容感知单应性估计方法,应用于计算机视觉技术领域,采用一种多尺度多阶段的单应性估计网络,每个阶段的单应性估计网络包括三个部分:Self-Attention augmented ConvNet特征提取模块F(
技术研发人员:阎维青 侯彬 任金来 刘兆伟 徐金东
受保护的技术使用者:烟台大学
技术研发日:2023.04.20
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/