基于窗口注意力的神经数据依赖变换的图像压缩方法

1.本发明属于计算机视觉领域,具体涉及深度学习,图像处理等技术,尤其是基于深度学习的图像压缩任务。
背景技术:
2.图像压缩是图像处理和计算机视觉中的一项基本且关键的任务。许多经典的图像压缩技术,例如jpeg、bpg和vvc,都遵循类似的编码方案:变换、量化和熵编码。经典压缩方法的性能提升主要来自于为编码过程中的每个组件设计更复杂的工具,难以实现整个框架的联合优化,使得编码性能的进一步提升越来越具有挑战性。近年来,随着深度学习的快速发展,已经有许多作品探索基于深度学习的图像压缩以形成端到端优化图像压缩框架。对于端到端的学习方法,由于整个框架可以联合优化,使所有模块能够更自适应地相互工作,模块中的性能改进自然会促进最终目标的实现。
3.尽管基于深度学习的图像压缩取得了很大进展,并且最新的神经数据依赖变换的端到端图像压缩方法通过引入模型流可以在测试阶段在线优化每张图像的率失真性能,但是神经数据依赖变换的方法存在以下几个问题:(1)基于卷积神经网络的模型对图像边缘、纹理等局部细节的学习能力较弱,这将不可避免地限制进一步的性能改进。(2)该方法基于广义可分归一化(gdn)构建变换,而gdn无法考虑图像特征的全局空间相关性,这不仅影响编码器输出的潜在表示的表达能力,而且,当潜在表示沿通道轴分为模型流和内容流时,模型流中的语法和内容流中的内容之间的差异性不能被很好地捕捉,因此,解码器的语法权重不能很好地表示每个图像的概率属性。
技术实现要素:
4.为了解决传统的基于神经数据依赖变换的方法捕捉局部纹理和概率属性时出现的问题,本发明公开了一种新的扩展的窗口注意力模型以实现端到端的图像压缩任务。为了解决gdn的限制,该方法引入扩展的自适应缩放归一化(easn)和窗口注意力以增强潜在表示的表达能力,即更好地捕捉语法流和内容流的差异性。具体来说,该方法提出的扩展的窗口注意力模块(ewam)可以使得语法的表达更加灵活并在线调节语法权重以更好地捕捉每个图像的概率属性,同时窗口注意力的引入使得该方法能更好地关注局部纹理,进一步提升图像压缩的率失真性能。此外,本发明还引入多卷积块作为上/下采样模块代替原来方法的单一卷积,以进一步扩大模型的感受野,增强对图像的表示能力,具体结构如附图4所示。
5.本发明提供了一种基于窗口注意力的神经数据依赖变换的图像压缩方法,本发明在wang等人提出的双流(模型流和内容流)模型上进行了改进,主要流程如附图1所示,主要包括以下三个步骤:图像内容流和模型流的提取和压缩,语法权重的生成和内容流的重建,利用语法权重指导内容流进行图像重建。
6.(1)图像内容流和模型流的提取和压缩
7.基于窗口注意力的神经数据依赖变换的方法经过编码器encoder将图像x分别映射为潜在表示y、语法ys和内容yc,其中语法ys由语法生成器syntax generator学习得到,内容yc是潜在表示y的一部分。潜在表示y经过超编码器hyperencoder学习得到超先验z,辅助估计语法ys和内容yc的分布。
8.经量化q后,利用上下文模型context model预测量化的内容的分布。然后使用算术编解码器ae和ad对量化的语法和内容进行压缩和解压缩,同时,利用因式分解的熵模型factorized entropy model估计量化的超先验的分布,然后使用算术编解码器ae和ad对进行压缩和解压缩,接着,利用超先验模型中的超解码器hyper decoder学习解压缩的的高斯概率分布参数params(均值和尺度),将该参数作为条件以指导语法模型syntax model和上下文模型context model更精确地估计量化的语法和量化的内容的概率分布,进一步节省压缩需要的码率,即信息熵。具体来说和的第i个元素和都以量化的超先验的第i个元素的分布参数params作为前提条件建模为高斯分布n。
9.的均值和尺度高斯熵模型如下:
[0010][0011]
其中,表示量化的语法的第i个元素的似然估计,即已知的参数params估计的概率,将这个似然估计看作的概率。和通过附图1中的syntax model学习得到。
[0012]
的均值和尺度高斯熵模型如下:
[0013][0014]
其中,表示量化的内容的第i个元素的似然估计,即已知的参数params估计的概率,将这个似然估计看作的概率。和通过附图1中的context model学习得到。
[0015]
(2)语法权重的生成和内容流的重建
[0016]
对于解码,算术解码器ad解压缩语法和内容的二进制码流。然后,通过解码器decoder的权重生成器weights generator学习语法权重sw。使用本发明提出的ewam将解码后的量化的内容映射到一个内容特征这个特征图的大小与源图像x相同,通道数与语法权重sw相同。
[0017]
(3)利用语法权重指导内容流进行图像重建
[0018]
最后,语法权重sw作为一个自定义卷积conv的初始权重与内容特征进行加权以
生成重建图像
[0019]
本发明中的图像压缩模型的目标函数为:
[0020][0021]
其中,rs、rc和rz分别表示语法、内容和超先验的码率,失真计算的方式可以是峰值信噪比psnr或者多尺度结构相似度ms-ssim,λ是拉格朗日乘子,用于权衡失真程度。语法、内容和超先验的码率的计算方式如下:
[0022][0023][0024][0025]
其中,和分别表示量化的语法量化的内容和量化的超先验的概率,的概率,分别表示和的信息量,e表示求期望,和这三个概率的参数(均值和尺度)分别利用附图1的syntax model、context model和factorized entropy model学习。
[0026]
为了同时关注图像的局部纹理和概率属性,对wang等人的框架的编解码器进行优化并提出了ewam模块。本发明提出的ewam模块由扩展的自适应缩放归一化和窗口注意力模块串联而成,ewam整体结构如附图2所示。
[0027]
(1)扩展的自适应缩放归一化
[0028]
为了解决广义可分归一化gdn与注意力不兼容以及语法表达图像概率属性的能力有限的问题,本发明采用扩展的自适应缩放归一化easn,具体模块如附图2中的easn所示。假设h为easn的输入,使用两个3
×
3卷积和中间leaky relu激活函数作为缩放因子函数s(h)以增加感受野,添加了一个残差连接来稳定训练,此外使用了一个5
×
5卷积作为输入映射函数m(h),为缩放模块提供转换输入特征的选项以增加自由度。easn的最终方程如下:easn的最终方程如下:
[0029]
x=m(h)
·
s(h)+h (5)
[0030]
(2)窗口注意力模块
[0031]
为了有效计算注意力图并提高率失真性能,引入了一种基于窗口的注意力机制,基于窗口的注意力的图示如附图3所示。具体来说,首先将特征图划分为若干个不重叠的窗口,每个窗口的长和宽都为m。分别计算每个窗口中的注意力图,第k个窗口的第i个和第j个元素分别记为和如下所示:
[0032][0033]
其中
[0034]
设和其中w
θ
和w
φ
是跨通道的变换,wg是不跨通道的变换。函数f(
·
)是一个嵌入式高斯函数,c(xk)是一个归一化因子。对于给定的i和k,表示对第k个窗口的j维度进行softmax归一化计算。由于这种注意机制需要残差连接,因此输出为:
[0035][0036]
其中wz是一个权重矩阵,用于计算上的位置嵌入,如式(6)所示。
附图说明:
[0037]
图1基于网络整体框架;
[0038]
图2扩展的窗口注意力模型;
[0039]
图3窗口的注意力的图示;
[0040]
图4上/下采样模型;
[0041]
图5 kodak数据集下的psnr失真度量的r-d曲线图;
[0042]
图6 clic数据集的psnr失真度量的r-d曲线图;
[0043]
图7 tecnick数据集的psnr失真度量的r-d曲线图;
[0044]
图8 kodak数据集的ms-ssim失真度量的r-d曲线图;
具体实施方式:
[0045]
网络实施在wang等人的基于神经数据依赖变换的图像压缩方法的基础上实现了扩展的窗口注意力模型,使用双流模型(模型流和内容流)、上下文模型和超先验模型。请注意,大多数卷积层的通道数目设置为o,取潜在表示y的前p个通道作为语法信息,其余(o-p)个通道对应于内容特征。对于在不同码率范围内训练的模型,超参数略有变化。较低比特率范围的模型使用o=192和p=16构建。较高比特率范围的模型使用o=384和p=32,以提供足够的信息容量。此外,对于扩展的窗口注意力模块,利用swintransomer block的窗口移动操作以关注不同窗口之间的相关性,移动的单位是元素。根据附图1的数据流的方向,设编码器encoder的第一个ewam的窗口大小m=8,移动大小为4,第二个ewam的窗口大小m=4,移动大小为2,设解码器decoder的第一个ewam的窗口大小m=4,移动大小为2,第二个ewam的窗口大小m=8,移动大小为4。
[0046]
训练实施使用来自div2k图像集的800个平均2k分辨率的自然图像作为的训练数据集,并将图像下采样到其分辨率的一半作为训练数据的增强。在训练过程中,从每张图像中随机裁剪256
×
256块并形成一批8个块。的模型使用两个质量指标(mse和ms-ssim)作为监督进行了优化。
[0047]
当模型针对mse进行优化时,使用adam优化训练5000轮。学习率初始化为0.0001,并在3000、4000、4500和4750轮后减半。的模型通过损失函数进行了优化。λ={0.0008,0.002,0.0035,0.008,0.015,0.02},前两个λ值的网络实施为o=192和p=16,后4个λ值的网络实施为o=384和p=32。
[0048]
当模型针对ms-ssim进行优化时,λ={20,60,120,160}。第一个λ值的网络实施为o=192和p=16,后三个λ值的网络实施为o=384和p=32。首先加载针对mse优化的模型,并将它们用作ms-ssim优化的预训练模型。然后,使用这些预训练模型继续训练模型1200轮。优化器和初始学习率设置与用于mse优化模型的设置相同。同时,在500、800和1000轮后将学习率降低了一半。
[0049]
测试实施在测试阶段采用在线微调策略。利用预训练的网络权重并使用adam优化器微调编码器,将微调的学习率设置为0.00001并执行100次迭代。
[0050]
本方法在三个公共数据集上进行评估,包括kodak,clic专业验证集和tecnick。需要注意的是,传统的神经数据依赖变换的方法在所有测试集上都使用了在线微调策略,仅针对kodak数据集进行在线微调,这是因为将此策略应用于clic和tecnick等高分辨率数据集将需要大量的时间和内存计算资源。
[0051]
为了验证所提出的扩展的窗口注意力模型的性能,将该方法ewam与一些先进的图像压缩模型进行比较,包括传统的编解码方法bpg和vvc,超先验上下文熵模型ball
é
2018,混合高斯模型cheng2020,通道自回归模型minnen2020,以及基于上述模型的一些先进模型。
[0052]
表1.kodak和clic的bd-rate结果
[0053][0054]
表2.对比bd-rate的不同模型的参考文献
[0055][0056]
如表1所示,将lee等人提出的上下文熵模型设为计算中的锚点。“wang”和“wang+”分别表示wang等人提出的没有和有后处理的神经数据依赖变换的方法。“ours”代表提出的
没有后处理的方法。最好的结果在黑体处,次优的结果在下划线处。与基线lee2019相比,的模型在kodak测试集上节省了大约20.6%bd-rate,在clic测试集上节省了约21.9%。与2022年最先进的方法相比,的方法在kodak上节省了1.6%码率。在clic上,可以将bd-rate性能提高约7%,证明了方法的有效性。表2是对比bd-rate的不同模型的参考文献。
[0057]
如附图5、附图6和附图7所示,基于峰值信噪比(psnr)的模型在kodak、clic和tecnick三个数据集上超过了最先进的方法。实验证实,即使不在高分辨率数据集上采用在线微调策略,的方法在psnr指标上也优于最先进的方法。此外,如附图8所示,的基于多尺度结构相似性指数度量(ms-ssim)的模型在kodak数据集上的性能与先进的方法媲美。综上所述,的方法对于图像的率失真性能进行了很大的提高。
技术特征:
1.基于窗口注意力的神经数据依赖变换的图像压缩方法,其特征在于,包括以下步骤:利用提出的扩展的窗口注意力模型提取图像内容流和模型流的特征;利用解码器端的权重生成器生成语法权重并使用ewam重建图像的内容流;利用语法权重指导内容流重建源图像,该方法分为三个模块,超先验熵模型、语法和内容的编解码模块、图像重建模块;1)符号定义a)变换:经过编码器encoder将图像x分别映射为潜在表示y、语法y
s
和内容y
c
;潜在表示y经过超编码器hyperencoder学习得到超先验z以辅助估计语法y
s
和内容y
c
的概率分布;其中语法y
s
通过权重生成器weights generator学习得到语法权重s
w
,内容y
c
在解码器最后一层的特征图为b)量化经量化q后,量化的语法表示为量化的内容表示为量化的超先验表示为c)信息熵和信息量信息熵表示为e[-log2p(t)],图像压缩中的码率用信息熵来表示;信息量表示为-log2p(t),其中p(t)是表示事件t的概率,-log2p(t)是信息量的定义,信息量是对信息的度量,单位一般用bit,e表示求期望,根据期望的定义,信息熵又表示为即一个离散性随机变量试验中每次可能结果的概率p(t
i
)乘以其信息量-logp(t
i
)之后的累加和;d)熵编码由hyper decoder学习量化的超先验的高斯分布参数,即均值和方差;将该参数作为已知条件去求量化的语法和量化的内容的似然估计,表示为和这两个似然估计分别代表的概率和的概率,进一步节省压缩和分别需要的码率r
s
、r
c
和r
z
,这里的码率即定义的信息熵,其中,这里的码率即定义的信息熵,其中分别表示和的信息量,e表示求期望;e)训练损失函数图像压缩模型的损失函数为:其中,r
s
、r
c
和r
z
分别表示量化的语法、内容和超先验的码率,失真计算的方式是峰值信噪比psnr或者多尺度结构相似度ms-ssim,λ是拉格朗日乘子,用于权衡失真程度;2)超先验熵模块对于量化的超先验使用因式分解的熵模型factorized entropy model,估计量化的超先验的概率从而计算的码率r
z
,即信息熵,其中e表
示求期望,表示的信息量;3)语法和内容的编解码模块(1)语法和内容的特征提取模块ewam扩展的自适应缩放归一化为了解决广义可分归一化gdn与注意力不兼容以及语法表达图像概率属性的能力有限的问题,采用扩展的自适应缩放归一化easn;假设h为easn的输入,使用两个3
×
3卷积和中间leaky relu激活函数作为缩放因子函数s(h)以增加感受野,添加了一个残差连接来稳定训练,此外使用了一个5
×
5卷积作为输入映射函数m(h),为缩放模块提供转换输入特征的选项以增加自由度;easn的最终方程如下:x=m(h)
·
s(h)+h
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)为了有效计算注意力图并提高率失真性能,引入了一种基于窗口的注意力机制;具体来说,首先将特征图划分为若干个不重叠的窗口,每个窗口的长和宽都为m;分别计算每个窗口中的注意力图,第k个窗口的第i个和第j个元素分别记为和如下所示:其中设和其中w
θ
和w
φ
是跨通道的变换,w
g
是不跨通道的变换;函数f(
·
)是一个嵌入式高斯函数,c(x
k
)是一个归一化因子;对于给定的i和k,表示对第k个窗口的j维度进行softmax归一化计算;由于这种注意机制需要残差连接,因此输出为:其中w
z
是一个权重矩阵,用于计算上的位置嵌入,如式(2)所示;(2)语法和内容的熵模型量化的语法和量化的内容的第i个元素和都以量化的超先验的第i个元素的分布参数作为已知条件建模为高斯分布n;的均值和尺度高斯熵模型如下:其中,表示量化的语法的第i个元素的概率;计算编码量化的语法的码率估计
的均值和尺度高斯熵模型如下:其中,表示量化的内容的第i个元素的概率;计算编码量化的内容的码率估计4)图像重建模块使用提出的ewam将解码后的量化的内容映射到一个内容特征这个特征图的大小与源图像x相同,通道数与语法权重s
w
相同;语法权重s
w
作为一个自定义卷积conv的初始权重与内容特征进行加权以生成重建图像
技术总结
基于窗口注意力的神经数据依赖变换的图像压缩方法属于计算机视觉领域。考虑每个输入图像的率失真RD性能很有意义,现有方法没有充分考虑每个图像的概率属性和局部纹理,RD性能有待进一步提高。本发明中扩展的窗口注意力模型(EWAM)联合学习图像的概率属性和局部纹理。一种基于卷积神经网络的框架,包括以下组件:语法生成器和权重生成器,通过模型流来学习语法和语法权重;上下文模型,通过内容流来学习内容;超先验模型,通过潜在表示学习分布;以及EWAM,通过窗口注意力进一步提高概率属性的精度和局部纹理的清晰度。本发明不仅能够在线优化每张图像的RD性能,而且具有更清晰的纹理和结构,在客观指标上优于目前最先进的方法。在客观指标上优于目前最先进的方法。在客观指标上优于目前最先进的方法。
技术研发人员:施云惠 叶莉萍 王瑾 尹宝才
受保护的技术使用者:北京工业大学
技术研发日:2023.05.23
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/