一种基于深度神经网络的实时高分辨率人像抠图方法与流程

未命名 09-24 阅读:53 评论:0


1.本发明涉及一种人像抠图方法,具体涉及一种基于深度神经网络的实时高分辨率人像抠图方法。


背景技术:

2.传统的方法是绿幕抠像,即人物在绿幕前拍摄,用抠像算法把人像和手持物保留,背景换成目标背景。但是大多数时候,布设绿幕会不太方便,所以复杂自然背景的抠图成为需求。由此,出现了贝叶斯抠图、knn抠图和泊松抠图等等算法。
3.随着深度学习的崛起,基于深度学习的抠图算法成为潮流。最初的有adobe公司的adobe deep image matting[1],这是一个两阶段式的深度学习模型。第一阶段是一个基于深度卷积网络的编码解码阶段,它的输入是待抠图片和这张图片的三分图,输出是预测的alpha图。第二个阶段是一个小型卷积神经网络,用于对第一阶段的alpha图做精炼,使得边缘更加锐化。adobe的输入所需的三分图在现实中人们难以获得,随后便有了以背景图和待抠图片作为输入的抠图算法,代表作为:background matting:the world is your green screen[2]。[2]的算法由于网络结构过于复杂,速度上还不能达到实时,特别是对于4k高分辨率的图片。实时抠图的算法出现了,比如real-time high-resolution background matting[3]。[3]对于[2],网络结构更加精简,它由两部分组成,第一部分是一个encoder-decoder的base网络,第二部分是refiner网络。虽然[3]达到了4k实时抠图的效果,但是缺点是输入不仅需要待抠图片,还需要背景图片。输入仅需要待抠图片的算法产生了:robust high-resolution video matting with temporal guidance[4]。[4]的输入仅需要待抠图片,同时,网络的convgru模块考虑了前后帧之间的关联,让整个预测过程更加稳定。
[0004]
绿幕抠像的缺点很明显,首先,绿幕需要事先获取和布置,这个过程较为繁琐和耗时。其次,有些场合布置绿幕并不合适,比如景区,机场,咖啡厅,最后,人物活动的范围有限,人物只能在绿幕前活动拍摄,不能在绿幕以外拍摄。
[0005]
[3][4]网络的encoder和decoder之间特征图的直接传递会占用大量的gpu显存空间,这对显存的要求会比较高。
[0006]
[1][2][3][4]对于人体投射的大片阴影区域,背景区域与人体肤色或衣着颜色相近,背景含大量纹理的情况下表现得难以令人满意。
[0007]
以[1]为代表的matting工作需要trimap作为额外的输入,然而,这需要人工精细化标注来获得。
[0008]
[2][3]需要背景图片作为先验,它要求背景是静态的,也需要固定的相机位置。
[0009]
在某些技术中,[7][8]首先生成伪trimap,然后根据这个伪trimap预测出matte。但是由于有限的训练数据,这些方法不能对真实世界的样例做到很好的泛化[2]。另外,它们也不能应用于一些实时性的任务,比如视频会议的实时背景置换等。
[0010]
[4]的输入虽然不需要背景图片作为先验,也不需要利用伪trimap来预测出alpha,对于4k分辨率图片速度上可达到实时,但其缺点是对于边缘细节的抠图比较模糊,
处理得较为粗糙,锐化度比较低,比如发丝,鞋带等。造成这种现象的原因之一是为了追求更快的推理速度。它使用的是一个比较简单的refiner[9]:dgf,dgf由简单的滤波构成,所以对细节的优化效果不佳。


技术实现要素:

[0011]
为了解决上述问题,本发明提供一种基于深度神经网络的实时高分辨率人像抠图方法,针对高精度实时人像抠图问题,提出一种新的网络构型,并从网络、数据、训练方面入手综合提升算法效能,更好地赋能应用场景,有效解决现有技术的不足。
[0012]
本发明是通过以下技术方案来实现的:一种基于深度神经网络的实时高分辨率人像抠图方法,包括以下步骤:
[0013]
s1、获取训练数据集,并标注生成训练用groundtruth alpha matte;
[0014]
s2、对训练数据集进行数据增强;
[0015]
s3、分步阶段性训练网络模型;
[0016]
s4、使用s3训练好的网络进行抠图。
[0017]
作为优选的技术方案,数据集通过以下方式获取并生成:
[0018]
s1.1在多个不同场景中拍摄各实例的多角度视频,每个实例视频包含多种肢体动作和不同的衣着材质;
[0019]
s1.2在绿幕背景下拍摄各实例的多角度多姿态视频,每个实例视频包含多种肢体动作和不同的衣着材质;
[0020]
s1.3利用图像处理软件自动抠出大概的人像区域,然后进行手动修正,以生成训练用的groundtruth alpha matte;
[0021]
s1.4利用绿幕背景下拍摄的图片的groundtruth alpha matte,前景图片与背景图片合成以产生大量训练用新数据;
[0022]
s1.5利用该高精度数据集训练网络模型,提高模型对处理局部细节的抠图能力。
[0023]
作为优选的技术方案,数据增强方法如下:
[0024]
s2.1、在人体区域附近生成模糊平滑的阴影区域,用以处理人体因光照投射而产生影子的情况;
[0025]
s2.2、提取人体区域主要颜色,并自动生成与该颜色相近的背景区块,用以处理前景和背景颜色相近时的预测误差;
[0026]
s2.3、利用网络爬虫收集复杂纹理的背景图,并与人物前景合成训练图片,用以处理背景含大量纹理而预测有误的情况;
[0027]
s2.4、实施时间维度的数据扩充,包括视频头尾翻转,帧率改变,随机暂停和帧跳跃,以增强模型在处理视频数据时的稳定性和连续性;
[0028]
网络模型训练时,同步使用数据增强技术以防止网络过拟合并在真实图片数据上保持良好的泛化能力,使用仿射形变,上下左右翻转、旋转、亮度色度饱和度对比度随机调整,模糊、锐化以及添加随机噪声,同时输入图片将被随机剪切成任意分辨率已让网络模型对任意大小尺寸的图片都有良好的鲁棒性。
[0029]
作为优选的技术方案,s3中,网络训练方法具体包括以下步骤:
[0030]
s3.1、阶段性训练,从简单到复杂,从粗糙到精细,首先在较低分辨率的数据集上
训练base-net网络的人像分割任务,用较大的learning rate,这样base-net能快速学习理解人像语义的能力,人像分割训练后再指导抠图过程,其专注于分割结果的边缘区域;
[0031]
s3.2、训练base-net的人像抠图任务在较低分辨率的数据集上,在训练的奇数次迭代时,穿插进行人像分割任务的训练,以防止网络对人工合成的抠图数据过拟合,同时提高网络的语义理解能力,并在训练的后五个epoch时增加输入的视频序列长度;
[0032]
s3.3、在第三阶段,加入精细抠图模块,网络完整的训练在较高分辨率的数据集上;
[0033]
s3.4、在最后的训练阶段,使用少量的高精度数据集进行训练,以提高抠图的精度和细节。
[0034]
作为优选的技术方案,用于深度学习人像抠图的权重优化方法,该方法通过人为地增大人像边缘区域的权重,以加强网络对人像边缘细节的学习能力,具体步骤如下:
[0035]
步骤一、利用距离变换,根据每个像素点到最近的人像边缘的距离;
[0036]
步骤二、对于训练集中的每个样本的ground truth alpha,权重图利用距离变换计算如下:
[0037][0038]
d表示像素点x到最近的人像边缘的距离,在实际应用中,w0设为10,sigma设为5pixels。
[0039]
作为优选的技术方案,包括用于人像抠图的网络模型high-resolution human matting network(hhmn),其基于输入图片预测出alpha matte,网络模型包括:
[0040]
一个encoder,负责提取单帧图片的特征,其用resnet-50作为主干并连接一个aspp(atrous spatial pyramid pooling)模块,该encoder分别在1/4,1/8,1/16,1/32,1/64尺度上提取特征,aspp模块由多层具有不同dilated rate(3,6,9)的dilated卷积核组成,用以融合不同尺度的feature maps;
[0041]
一个带有循环模块的decoder,该decoder根据对应的encoder层中的max-pooling indices进行上采样,保留必要的局部细节信息,并减少显存消耗,其每层包含3*3卷积和batch normalization和relu模块以融合特征并减少特征通道数,并嵌入convlstm(convolutional long short-term memory)模块以利用时间维度信息,每次迭代更新convlstm的hidden state,且convlstm只使用一半的feature map通道;
[0042]
多尺度prm(progressive refinement module)模块,该模块用于优化高精度抠图的局部细节,对于高分辨率图片,在输入encoder-decoder网络之前,先进行一定倍率的下采样,然后利用prm模块重构出细节优化的高清抠图;
[0043]
用于人像分割任务的部分,在decoder的最后层使用一个3*3卷积层和1*1卷积层,batch normalization和relu输出一维通道的分割图。
[0044]
作为优选的技术方案,所使用的网络的细节信息传输通道,包括:
[0045]
(1)在encoder阶段,采用max-pooling操作对feature maps进行下采样,并保存max-pooling的位置索引;
[0046]
(2)encoder中的max-pooling层所计算的max location indices将被保存在内存中,并被传递给decoder;
[0047]
(3)在decoder中,根据encoder中保存的max-pooling indices对输入的feature maps进行非线性上采样,这个过程不仅高效利用内存/显存的同时,保留了原有的细节信息;
[0048]
(4)此种细节信息传输通道适用于任何encoder-decoder网络构型,能够有效提升边缘细节勾画,减少模型参数数量,同时保证end-to-end整体训练的可能。
[0049]
作为优选的技术方案,在深度学习网络模型中使用convlstm模块,具体如下:
[0050]
(1)在decoder阶段,使用convlstm模块,以融合并利用时序信息;
[0051]
(2)使用时序信息提高了帧间预测结果的一致性,减小了抖动,同时,时序信息也提高了抠图的鲁棒性,允许模型在单帧预测不确定时,通过前面的帧来预测当前帧的边界;最后,所利用的时序信息允许模型学习更多背景的信息;
[0052]
(3)采用recurrent结构而不是注意力机制或仅使用多帧作为输入,使得模型适应性地保留长短时序信息,学习如何保留和忘记信息;
[0053]
(4)使用convlstm显著降低前15帧的错误率并随后保持稳定,提高抠图质量和一致性,该网络会自动重建背景并保留这些信息以帮助未来的预测,也会使用其他的recurrent channels来追踪运动历史。
[0054]
作为优选的技术方案,在深度学习网络模型中使用prm的方法,具体包括:
[0055]
(1)在decoding过程中,通过prm模块的自我指导逐步refine不确定的抠图区域;
[0056]
(2)prm应用于每一层的alpha输出,选择性地融合上一层和当前层的matting输出,人物边缘部分需要较低级别的特征来描述前景,而人物中间区域需要较高级别的特征作为指导;
[0057]
(3)对于l层,self-guidance mask g_l由上一层的matting输出alpha_(l-1)生成:
[0058][0059]
当前层的alpha的1和0的部分与上一层的1和0的部分相同,大于0且小于1的部分与当前层的alpha'部分相同,这样,上一层网络确定为0或1的部分得以保留,网络只需集中注意力修正大于0且小于1的部分:
[0060]
α
l
=α

lgl

l-1
(1-g
l
).;
[0061]
(4)实验结果显示,prm能够很好地协调全局语义refinement和局部细节refinement。相较于线性融合多尺度的alpha,应用多层级的prm能提高全局及局部的抠图效果。
[0062]
本发明的有益效果是:
[0063]
(一)本发明通过在encoder和decoder间传递max-pooling indices,大大降低了网络对gpu显存的需求,同时保持了图像的细节信息,提高了推理速度;
[0064]
(二)创造了一个包含60个实例的高精度数据集,用以提高模型对局部细节的抠图能力;
[0065]
(三)对复杂环境适应设计了数据增强策略,使模型能在人体与背景色彩相近、背
景含大量纹理,或者人体投射大片阴影的复杂环境中仍能取得满意的效果;
[0066]
(四)防止过拟合,提高泛化能力,采用了阶段性训练策略,由简至难,由粗糙至精细,并在训练过程中加入了semantic segmentation,提升了模型的语义理解能力,并防止了模型对合成matting数据的过拟合,提高了模型的泛化性;
[0067]
损失函数部分增大了人像边缘区域的weights,强化了模型对人像边缘细节的学习能力,实现精准抠图;
[0068]
(五)高精度的细节抠图,利用prm(progressive refinement module)模块在refiner阶段进行细节重构,实现了发丝级别的高精度抠图;
[0069]
(六)鲁棒性增强,模型仅需图片输入,无需其他额外输入,扩大了算法的应用范围。同时,利用convlstm模块融合历史帧信息,增强了模型的鲁棒性和时序一致性,使模型能够应对相机的移动和背景的改变。
附图说明
[0070]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0071]
图1为本发明的encoder-decoder网格构型图;
[0072]
图2为本发明的效果图;
[0073]
图3为本发明的具体操作流程图;
[0074]
图4为本发明应用多层级的prm模块说明图;
[0075]
图5为本发明网络的decoder的模块说明图;
[0076]
图6为本发明网络中的convlstm模型说明图;
[0077]
图7为本发明网络的decoder的根据max pooling indices非线性上采样说明图。
具体实施方式
[0078]
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
[0079]
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
[0080]
本发明的一种基于深度神经网络的实时高分辨率人像抠图方法,包括如下8个点:
[0081]
(1)设计新的encoder-decoder网格构型,如图1所示:
[0082]
对于人像抠图任务,给出一张图片i,抠图将被公式化为:
[0083]
i=αf+(1-α)b,α∈[0,1],;
[0084]
其中f和b为图片的前景和背景,a为网络模型预测的alpha matte其表明图片中何处为前景。这样利用a,我们可以将提取出的前景(人像)合成进新的背景图片。
[0085]i′
=αf+(1-α)b


[0086]
其中b’为新的背景图片。人像抠图问题要求网络模型根据输入的图片预测出
alpha matte,这是一个困难的不适定问题。直接部署深度网络对高分辨率图片进行抠图较为困难,因其不现实的计算量和内存消耗。人像抠图一般非常稀疏,图片中的大部分像素都是属于前景(a=1)或者背景(a=0),而只有少量的区域是边缘细节,如头发,配饰,人体轮廓边缘。设计全尺寸的大型深度网络,不如设计两个部分,即操作在低分辨率base网络和refiner网络以精细化预测结果以达到原始高分辨率。
[0087]
相对于现有的需要额外输入的网络模型,如trimap,无人背景图作为先验,所设计的网络模型中加入人像分割任务以提高对全局人像的语义理解能力。一个直接的方式是将分割图作为网络的前级输入,或者设计两个独立的分割和抠图的网络模块,而这样抠图网络模块就无法利用分割任务中学习到的丰富有用的feature maps,且增加了许多额外的计算量,无法满足高精度抠图的实时性要求。所以我们将人像分割任务融合在网络结构中,先训练base-net做分割任务,后续的抠图训练中再穿插进行分割训练。
[0088]
针对视频抠图,设计了循环网络模块以利用视频中的时间维度信息以减少抠图结果的抖动,显著提高时间上的抠图一致性和质量,同时能够应对相机位移,背景变化,单帧图片人物区分不明显的情况。
[0089]
基于[3,4],网络模型high-resolution human matting network(hhmn),如图1所示,包括一个encoder负责提取单帧图片的特征,一个带有循环模块的decoder负责收集时间维度信息,和一个prm模块负责优化高精度抠图的上采样过程。我们选用resnet-50作为encoder网络的主干,且链接着aspp(atrous spatial pyramid pooling)模块,encoder分布在1/4,1/8,1/16,1/32,1/64尺度上提取特征。aspp模块由多层不同dilated rate(3,6,9)dilated卷积核组成,用以融合不同尺度的feature maps。
[0090]
在decoder中,每层根据对应的encoder层中的max-pooling indices进行上采样,这样不仅能保留必要的局部细节信息,还能极大地减少显存的消耗。接着是3*3卷积和batch normalization和relu模块以融合特征并减少特征通道数;
[0091]
在decoder每层中嵌入convlstm模块以利用时间维度信息,每次迭代更新convlstm的hidden state,且convlstm只使用一半的feature map通道,这样足够捕获时间维度信息且减少了参数和计算量。对于高分辨率图片,如4k图片,在输入encoder-decoder网络之前,先进行一定倍率的下采样,然后利用prm(progressive refinement module)模块重构出细节优化的高清抠图。对于人像分割任务,在decoder的最后层使用一个3*3卷积层和1*1卷积层,batch normalization和relu输出一个通道的分割图,如图5所示;
[0092]
(2)针对[3][4]的encoder和decoder直接传递特征图占用大量gpu显存的情况,参考[5]我们传递encoder的各层的max-pooling的index到decoder的对应层,这样减少网络参数的同时保证了不丢失细节信息;
[0093]
深度学习模型因其巨量数据和模型深度及复杂度取得了不断的成功,对于部署大型的深度神经网络而言,实际的因素,如内存,计算时间,训练时间也变得非常重要,特别是对于高清人像抠图的应用的实时性要求,比如直播,ar。基于此,所设计的网络从计算量的角度,必须在内存消耗和推理时间的指标上保持高效性,且可以end-to-end整体进行训练。
[0094]
该网络模型针对实时高清人像抠图的应用场景所设计,模型应能够精准勾画出人像的细微部分(如头发丝),所以在网络的特征中保留边缘细节信息至关重要。在网络的encoder部分,下采样操作将扩大feature maps中每pixel的感受野,经过多次下采样后,网
络将建立对于变换的不变性,但同时会不断丢失空间边缘细节信息。缺少细节的特征描述对于高精度人像抠图是极其不利的,特别是关键局部细节部位,所以必须在上采样之前的encoder中提取并保留边缘细节信息。如果不考虑内存限制,可以保存encoder中的所有feature maps,但这实际上不容易实现,因此需设计一种高效的方式来存储细节信息——保存max-pooling indices[18],pooling windows中的最大特征值的位置将被记忆保存,实践中可用2bits对应每2*2pooling window。这相比存储浮点型的feature maps高效得多。
[0095]
该网络的核心结构为decoder网络,其中的层级结构与encoder的层级一一对应。网络模型中的decoder作用是将encoder的低分辨率feature maps转换成和输入图片的分辨率大小相同的feature maps。网络通过训练学习出的上采用过程是模型的核心关键。该网络模型的设计创新点之一为如何上采样低分辨率的feature maps,具体说是,对于每个输入样本,encoder中的max-pooling层所计算的max location indices将被保存在内存中并传递给相应的decoder。在decoder中,每层级使用对应的encoder层级中的max-pooling indices对输入的feature maps进行非线性上采样。该思想由[18]所启发,在decoder中再次使用max-pooling indices有如下优势:(1)提升边缘细节,(2)减少模型参数数量以便能end-to-end整体训练,(3)该上采样方式通过简单改动就能结合进任何encoder-decoder网络构型中。上采样之后的feature maps是稀疏的再经由可训练的卷积核后生成密集的maps,经多层级的上采样后达到encoder所输入的分辨率。经实验测试对比其他算法发现,网络模型在所需内存与模型精度之间取得了良好的均衡,且能够高效利用内存的同时,推理效果良好。
[0096]
该网络模型的推理效果相比其他直接储存feature maps的网络,表现在同一水平上且只储存max pooling indices所以利用内存更为高效。对于直接储存feature maps的方法,可能导致内存紧缺,例如储存第一层的64个32位浮点180*240feature maps需要11mb,而存储max pooling indices仅仅只需0.17mb(2bits对应每2*2pooling window)。经对比发现,网络使用直接储存feature maps的encoder所需的内存是存储pooling indices的encoder的11倍,而他们的模型推理效果几乎是同水平的,如图7所示。
[0097]
(3)针对[1][2][3][4]中存在的当人体投射大片阴影区域或背景区域与人体肤色或衣着颜色相近或背景含大量纹理而预测有误的情况,我们设计了对应的数据增强方法,它们分别是在人体区域附近生成模糊平滑的阴影区域、提取人体区域主要颜色并自动生成这样的颜色的背景区块和利用爬虫在网络上收集复杂纹理背景图并与人物前景合成训练图片。
[0098]
对于人体因光照投射而产生影子的图片,现存的matting方法都不能对影子区域预测准确,一般来说,会认为影子是前景,因而在合成目标图片时影子会被保留,但通常情况下,人们不希望影子出现在合成目标图片中。出现这个问题的原因是训练图片是由前景和背景线性合成的图片,合成过程依赖于前景的alpha图,alpha图并不包含影子区域,所以合成的图片也不会保留影子区域。用这些假的没有影子的合成图片训练出来的网络对于真实场景中存在人体阴影的情况就会预测不准确。为了解决这个问题,我们对合成图片人为加入阴影后再放入网络训练。加入阴影的方法是以一定概率对groundtruth alpha进行一定的平移,缩放和仿射变换,再进行随机kernel size的高斯模糊生成阴影mask,对于背景
图片减去阴影mask。
[0099]
对于当前景和背景颜色相近时预测有误的情况,我们采用的方法是,在合成训练图片时,人工合成跟前景颜色相近的背景,然后用这样的背景来合成训练图片。具体方法是,随机选取前景的n个pixel,用这n个pixel的颜色填充成一张背景图,每个pixel的填充面积是随机的,位置是随机的,形状是矩形块。
[0100]
网络模型训练时,我们使用data augmentation技术以防止网络过拟合并在真实图片数据上保持良好的泛化能力。我们应用了仿射形变,上下左右翻转,旋转,亮度色度饱和度对比度随机调整,模糊,锐化以及添加随机噪声。同时输入图片将被随机剪切成任意分辨率已让网络模型对任意大小尺寸的图片都具有良好的鲁棒性。同时,我们也使用了时间上的data augmentation,如视频头尾翻转,帧率改变,随机暂停和帧跳跃。
[0101]
(4)现今的公开的人像抠图数据集少有高分辨率高精度的alpha mat,为了更好的适配网络模型的应用场景和为了让模型有更高的抠图精度,我们创建了60个实例(人)的数据集,每个实例(人)包含这个人物在10个不同场景中多角度拍摄的视频,其中人物会有不同的肢体动作。为了应对专业级的抠图应用场景,如摄影工作室,我们加入了造型材质较为复杂的衣着服饰,如纱网。我们也拍摄了这60个人物在绿幕背景下的多角度多姿态视频。为了减少人工手动标记的工作量和时间,先使用photoshop软件自动抠图大概区域,再进行手动修正,提取出人像前景与网络背景图片合成出大量新的数据集。经实验发现,我们的高精度数据集能有效提高网络模型在局部细节的抠图能力。
[0102]
(5)decoder中的rnn使用了convlstm以融合利用时间维度的信息,如图6所示。
[0103][0104][0105][0106][0107][0108]
现今的大多数抠图方法,即便是专门为视频设计的,也是将每一帧图片作为网络的单独输入,输出其alpha。这些方法忽略了时序信息,时序信息可以有效提高视频抠图效果。首先,时序信息能让抠图结果更具一致性,利用多帧信息能减少帧间抖动并提高了感知质量。其次,时序信息能提高网络抠图的鲁棒性。当单帧的预测不确定时,比如前景颜色跟背景的移动物体颜色相近,模型可以通过之前的帧来预测当前帧的边界。最后,随着时间的进行,时序信息允许模型学习更多的背景信息。当相机移动时,人物后面的背景会因为相机视角的变动而显现出来。即使相机固定,由于人物的移动,人物后面的背景也会显现出来。网络对背景有更好的理解有助于抠图。因此,我们用recurrent结构来利用时序信息。我们的方法显著提高了抠图的质量和时间相干性。
[0109]
我们决定用recurrent结构而不是注意力或简单地以多帧作为输入,因为recurrent机制可以在连续的视频流里学习应该保留或遗忘什么信息,而注意力或多帧输入只能依赖固定的规则去移除或插入信息。recurrent机制能够适应性地保留长短时序信息的能力使得其更适合本任务。
[0110]
实验结果,用了convlstm后,前15帧的错误率显著下降,随后保持稳定。而modnet,
即便是使用了相邻的帧,其视频抠图仍有较大的波动。当把recurrent state赋值为全零后,抠图质量和一致性变差了,这进一步说明了时序信息可以提高抠图质量和一致性。因为使用了convlstm,网络会自动重建背景并保留这些信息来帮助未来的预测,也会使用其他的recurrent channels来追踪运动历史。
[0111]
(6)损失函数部分加大人像边缘区域的weights(根据离人像边缘的距离),以加强网络对人像边缘细节的学习能力。
[0112]
对于高精度人像抠图的应用中(例如专业级摄影,高清线上发布会),人像细节部位的精准抠图至关重要,比如毛发,复杂的服装造型,配饰。现有基于深度学习的人像抠图方法受限于计算资源,无法做到直接输入4k或8k高清图像,而是先下采样输入图像后输入网络模型,之后再用上采样refine模块还原到原始的输入分辨率,虽然网络训练时,损失函数可以在原始分辨率上,但人像边缘细节的数据分布相对人体主体并不均衡,导致网络训练时易倾向于忽略局部细节。为了强化网络对于细节边缘的学习,设计的网络训练时使用增加了权重后的loss函数。对于每个训练样本,先计算出像素级的权重图,这样给边缘局部的像素更高的重要性以弥补不同的像素点在训练集中出现的频率。
[0113]
对于训练集中的每个样本的ground truthalpha,权重图利用距离变换计算如下:
[0114][0115]
d表示像素点x到最近的人像边缘的距离,在实际应用中,w0设为10,sigma设为5pixels。
[0116]
(7)为了防止网络在训练过程中过拟合及提高泛化能力,设计阶段性的训练方式,从简到难,从粗糙到精细。同时训练中加入semantic segmentation以防止网络对人工合成的matting数据过拟合,同时提高网络的语义理解能力。
[0117]
自动人像抠图在许多场景中被引用,现今基于深度学习的人像抠图方法在实拍图上表现失败的案例通常是因为人像语义分割的失败,即无法准确地理解人像图片区域,特别是处理全身人像时。现今先进的人像抠图方法[modnet[3]and rvm[3]都表明其较弱的图像语义理解能力,而这对于稳定的人像抠图至关重要。为了加强网络模型的语义理解能力并同时保留抠图的边缘细节,所设计的网络中加入人像分割任务模块以指导抠图过程。加入人像分割任务有以下益处:(1),人像分割决定了全局背景和前景的预测准确度,局部细节只出现在分割的边缘,这表明分割其实可以被trimap替换,且可以作为抠图的先决条件,分割任务能提供强有力的语义信息来有效帮助抠图任务(2)高精度的抠图手动标注需要专业的画师且非常费时,而分割的标注却非常简单,只需要画出边缘线,所以抠图的公开训练数据集远小于分割的数据集,巨量的训练数据集对于网络在实拍图集上的泛化能力尤为重要,(3),抠图的训练数据集通常由前后景图片人工合成而来,这样虽然能扩大数据集,但合成图片看上去并不真实,实拍图与合成图之间存在肉眼可见的明显区别,这限制的训练好的模型在真实图片上的泛化能力,而人像分割的数据集大多为真实图片,训练中加入人像语义分割以防止网络对人工合成的抠图数据过拟合。为此,我们设计了多级网络结构以实现人像语义分割和人像抠图,引入的轻量级分割模块只需增加少许的计算量。人像分割网络模块先训练后再指导抠图过程,其专注于分割结果的边缘区域。有了人像语义理解能力的加持,该网络模型能够应对富有挑战性的抠图场景。在训练中,采取分步阶段性训练的方
式,第一阶段先在公开数据集上训练网络的人像分割任务以达到能稳定预测人像分割,第二阶段再训练网络抠图任务。这样可以大大减少抠图网络对高清标注样本的依赖,且依然能生成高质量的抠图细节。
[0118]
为了防止网络在训练过程中过拟合及提高泛化能力,设计了阶段性的训练方式,从简到难,从粗糙到精细。
[0119]
stage1,先训练base-net的人像分割任务在较低分辨率的数据集上,用较大的learning rate,这样base-net能快速学习理解人像语义的能力,stage2,训练base-net的人像抠图任务在较低分辨率的数据集上,同时在奇数次迭代时,穿插进行分割任务的训练,在做后5个epochs增加输入的视频序列长度,stage3,加入精细抠图模块,网络完整的训练在较高分辨率的数据集上,stage4,最后使用少量的高精度数据集训练网络。
[0120]
(8)不同于[3,4],refiner使用了[6]的prm(progressive refinement module)模块重构出细节优化的高清抠图,达到高精度发丝级人像抠图。
[0121]
prm在decoding的过程中学习如何自我指导逐步地refine不确定的抠图区域。单纯线性地融合不同层的alpha输出并不能很好地解决matting refinment的问题。这是因为物边缘部分需要较低级别的特征来描述前景,而人物中间区域需要较高级别的特征作为指导。
[0122]
prm可以应用于每一层的alpha输出,它选择性地融合上一层和当前层的alpha输出。
[0123]
如图4所示,对于l层,它的self-guidance mask g_l由上一层的matting输出alpha_(l-1)生成:
[0124][0125]
当前层的alpha的1和0的部分跟上一层的1和0的部分的一样,大于0且小于1的部分跟当前层的alpha’的部分一样。这样上一层的网络的确定是0或1的部分被保留,网络只需要集中注意力修正大于0且小于1的部分:
[0126]
α
l
=α

lgl

l-1
(1-g
l
).
[0127]
实验结果显示,prm能够很好地协调全局语义refinement和局部细节refinement。相较于线性融合多尺度的alpha,应用多层级的prm能提高全局及局部的抠图效果。
[0128]
如图3所示,具体操作流程如下:
[0129]
收集数据:
[0130]
我们收集了自己的训练数据,详情见(4)。另外还收集了公开的数据集,有:distiction-646[10]、realworldportrait-636[11]、aim-500[12]、videomatte240k_jpeg_hd[4]、backgroundvideostrain[4]、backgroundvideostest[4]、coco的train2017[13]、youtubevis 2021、spd[14]、爬虫获得的背景图。
[0131]
设计网络:
[0132]
根据我们的应用场景,网络由encoder、decoder、matting head、segmentation head、prm组成。对于输入的图片src,先进行4倍下采样得到src_sm,src_sm作为encoder的输入,encoder由层组成,这些层分别输出en_1,en_2,en_3,en_4,en_5,尺寸分别是src_sm
的1/4,1/8,1/16,1/32,1/64大小。en_5作为aspp模块的输入,得到输出en_5’。decoder有5层,各层输出尺寸分别是src_sm的1/4,1/8,1/16,1/32,1/64大小。倒数第一层的输入是en_5’,输出为de_5。倒数第二层的输入是de_5和en_4,输出是de_4。倒数第三层的输入是de_4和en_3,输出是de_3。倒数第二层的输入是de_3和en_2,输出是de_2。倒数第一层的输入是de_2和en_1,输出是de_1。de_1上采样到原图大小后和原图相加得到de_0。de_1作为segmentation module的输入,经过segmentation module后得到人像分割结果。de_3和de_2作为prm1的输入得到p1。p1和de_1作为prm2的输入得到p2。p2和de_0作为prm3的输入得到最终的alpha输出。
[0133]
代码实现:
[0134]
采用pytorch框架。
[0135]
训练网络:
[0136]
stage1:只做分割的训练。对于视频分割,batchsize,t,h,w跟matting的各个阶段一致。对于图片分割,因为单张图片相当于t’=1,t’为1会剩下很多显存空间,所以可以把batchsize’设的大些,为b*t。因为图片分割的t’为1,这会令网络对于recurrent信息缺失的情况更鲁棒。resnet50初始化为imagenet的预训练权重,学习率为1e^(-4),其余的网络学习率为2e^(-4)。训练6个epoch。为了让网络对于不同分辨率和长宽比的图片更鲁棒,采样时让图片的长宽在256到512的范围。
[0137]
stage2:以低分辨率训练hhmn(high-resolution human matting network),期间令prm的学习率为0,原因是这个阶段专注训练encoder和decoder,stage1到stage4是一个由简到精的训练过程,prm是属于精细化阶段的工作。时序长度t设为15。同时在奇数次迭代时,穿插进行分割任务的训练,分割任务的参数设置跟stage1保持一致。一共15个eopch,在做后5个epochs增加输入的视频序列长度,设t为50,学习率变为stage1的一半。
[0138]
stage3:开启prm的训练。图片使用高分辨率的图片。训练1个epoch。因为高分辨率的图片会占用很多显存,所以序列长度必须设的比较低,但是序列长度低会让网络对短序列过拟合,所以同时训练低分辨率长序列和高分辨率短序列。低分辨率阶段不开启prm,t为30,长宽范围为256到512。高分辨率训练时开启prm的训练,t为5,长宽范围为1024到2048,prm的学习率为2e^(-4),其余的网络的学习率为1e^(-5)。
[0139]
stage4:stage1到stage3使用的数据集都是videomatte240k_jpeg_hd[4]。本阶段使用的数据集改为更精细化的distiction-646[10]、realworldportrait-636[11]、aim-500[12]的人像部分的样本。decoder的学习率增加到5e^(-5)。其他的设定跟stage3一样。
[0140]
效果评估:
[0141][0142]
本发明的模型在3070ti上不同的输入尺寸、不同的down_sample_ratio、不同的backbone、不同的浮点位数的fps见上表。最快可以达到185.5fps,这是当输入尺寸为1440p,downsample_ratio为0.125,backbone为mobilenetv3,浮点数为为16位时取得的。对于4k图像,所设计的网络模型依然能够满足实时性要求(27.4fps),这是down_sample_ratio为0.25,backbone为resnet50,浮点位数为32位时取得的。
[0143]
对比了本发明的模型hhm和v3[4]、timi[15]、sghm[16]和modnet[17]的效果,见图2。可见所设计的网络模型在细节精度准确率上均高于现今主流的抠图算法。
[0144]
应用落地:训练得到pytorch的模型权重。在落地场景中,希望推理速度更快,而用pytorch框架和python语言实现的功能并不能达到要求,所以需要把pytorch模型转换成其他的有更快推理速度的模型。我们选择转成torchscript模型,用c++语言实现推理。把调用torchscript模型用来推理的c++文件封装成dll。如果需要这个功能时,只需要在头文件中导入然后调用封装好了的推理函数。这样,所有的实现都已经脱离了python语言,全部用c++语言代替,可以达到落地场景对于推理速度的要求。
[0145]
关于特定深度学习网络模型的详细使用指南,分为以下几个部分:
[0146]
1)语言版本及运算精度选择
[0147]
该网络模型提供python版本和编译封装好的dll版本,并提供已训练好的模型,有pt格式的pytorch文件和易于转换部署的torchscript文件,并有16位浮点和32位浮点精度两种,以所提供的时效性fps测试图表为参考,可根据用户的gpu资源自行进行选择。将下载好的模型文件放入相应的目录下即可;
[0148]
2)python版本使用所需安装的依赖
[0149]
可使用提供的requirements.txt和

pip install-r’命令安装相应的依赖,例如easing_functions,tensorboard,torch,torchvision,tqdm,pims。如没有python环境,需先安装python或anaconda,并且为了使用nvidia gpu,需先安装nvidia cuda和cudnn,可参考nvidia官方说明。
[0150]
3)dll版本所需依赖
[0151]
dll版本通过地址指针读取调用模型和图片数据,只需将libtouch库的lib目录下的所有.dll文件和.lib文件复制到用户项目的库目录下。同样需要安装nvidia cuda和cudnn,以便使用gpu,可参考nvidia官方说明。
[0152]
4)网络模型参数选择
[0153]
可根据一下表选择合适的下采样系数:
[0154][0155]
网络模型先根据设置的下采样下采样输入图片,然后再利用prm上采样优化到高分辨率的抠图结果。例如输入图片的尺寸为2160*3840,下采样后的分辨率为540*960。另外下采样系数的设置也根据图像的内容,如果图片内容是人物半身肖像,较低的下采样系数即可,如果是全身人像,应使用较高的下采样系数。需注意的是,设置更高的下采样系数并不一定导致更好的效果。
[0156]
5)convlstm循环states
[0157]
该网络模型是一个循环网络,所以应按顺序处理视频每一帧并循环更新convlstm的states。具体的来说,这些states既是网络模型的

记忆’,当处理输入的下一帧时,当前帧的convlstm的输出应作为输入之一。需要注意的是,对于处理单一静态图片,可循环重复多次,如10次或100次,以让初始状态的convlstm达到稳定状态。
[0158]
6)使用python版本使用
[0159]
可使用提供的inference.py文件加载并测试网络模型。其中的

model.load_state_dict(torch.load('hhm_resnet50.pt'))’用以加载训练好的.pt模型。如果是使用torchscript模型,可使用

model=
[0160]
torch.jit.load('hhm_resnet50.torchscript')’,并可使用

model=
[0161]
torch.jit.freeze(model)’冻结模型,这样可以启用图优化,例如batchnorm融合,冻结后的模型速度更快。当使用冻结模型时,模型推理时应加入

device’和dtype参数。
[0162]
7)dll版本使用
[0163]
可使用
[0164]

bgmv3::getinstance()-》initialize(tchar_to_ansi(*(“path_to_model”)),down_ratio,gpuid)’初始化网络,再使用
[0165]

bgmv3::getinstance()-》svmcalcalpha(imagedatargb,width,height,outalphamask)’运行网络模型输出alpha matte。
[0166]
本发明涉及到的参考文献:
[0167]
[1]xu n,price b,cohen s,et al.deep image matting[c]//proceedings of the ieee conference on computer vision and pattern recognition.2017:2970-2979。
[0168]
[2]sengupta s,jayaram v,curless b,et al.background matting:the world is your green screen[c]//proceedings of the ieee/cvf conference on computer vision and pattern recognition.2020:2291-2300。
[0169]
[3]lin s,ryabtsev a,sengupta s,et al.real-time high-resolution background matting[c]//proceedings of the ieee/cvf conference on computer vision and pattern recognition.2021:8762-8771。
[0170]
[4]lin s,yang l,saleemi i,et al.robust high-resolution video matting with temporal guidance[c]//proceedings of the ieee/cvf winter conference on applications of computer vision.2022:238-247。
[0171]
[5]badrinarayanan,vijay,alex kendall,and roberto cipolla.
[0172]
"segnet:a deep convolutional encoder-decoder architecture for image segmentation."ieee transactions on pattern analysis and machine intelligence 39.12(2017):2481-2495。
[0173]
[6]yu q,zhang j,zhang h,et al.mask guided matting via progressive refinement network[c]//proceedings of the ieee/cvf conference on computer vision and pattern recognition.2021:1154-1163。
[0174]
[7]chen q,ge t,xu y,et al.semantic human matting[c]//proceedings of the 26th acm international conference on multimedia.2018:618-626。
[0175]
[8]shen x,tao x,gao h,et al.deep automatic portrait matting[c]//computer vision

eccv 2016:14th european conference,amsterdam,the netherlands,october 11

14,2016,proceedings,part i14.springer international publishing,2016:92-107。
[0176]
[9]wu h,zheng s,zhang j,et al.fast end-to-end trainable guided filter[c]//proceedings of the ieee conference on computer vision and pattern recognition.2018:1838-1847。
[0177]
[10]qiao y,liu y,yang x,et al.attention-guided hierarchical structure aggregation for image matting[c]//proceedings of the ieee/cvf conference on computer vision and pattern recognition.2020:13676-13685。
[0178]
[11]yu q,zhang j,zhang h,et al.mask guided matting via progressive refinement network[c]//proceedings of the ieee/cvf conference on computer vision and pattern recognition.2021:1154-1163。
[0179]
[12]li j,zhang j,tao d.deep automatic natural image matting[j].arxiv preprint arxiv:2107.07235,2021。
[0180]
[13]lin t y,maire m,belongie s,et al.microsoft coco:common objects in context[c]//computer vision

eccv 2014:13th european conference,zurich,switzerland,september 6-12,2014,proceedings,part v 13.springer international publishing,2014:740-755。
[0181]
[14]supervise.ly.supervisely person dataset.supervise.ly,2018。
[0182]
[15]liu y,xie j,shi x,et al.tripartite information mining and integration for image matting[c]//proceedings of the ieee/cvf international conference on computer vision.2021:7555-7564。
[0183]
[16]chen x,zhu y,li y,et al.robust human matting via semantic guidance[c]//proceedings of the asian conference on computer vision.2022:2984-2999。
[0184]
[17]ke z,sun j,li k,et al.modnet:real-time trimap-free portrait matting via objective decomposition[c]//proceedings of the aaai conference on artificial intelligence.2022,36(1):1140-1147。
[0185]
[18]ranzato,marc'aurelio,et al."unsupervised learning of invariant feature hierarchies with applications to object recognition."2007ieee conference on computer vision and pattern recognition.ieee,2007。
[0186]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

技术特征:
1.一种基于深度神经网络的实时高分辨率人像抠图方法,其特征在于,包括以下步骤:s1、获取训练数据集,并标注生成训练用groundtruth alpha matte;s2、对训练数据集进行数据增强;s3、分步阶段性训练网络模型;s4、使用s3训练好的网络进行抠图。2.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:数据集通过以下方式获取并生成:s1.1在多个不同场景中拍摄各实例的多角度视频,每个实例视频包含多种肢体动作和不同的衣着材质;s1.2在绿幕背景下拍摄各实例的多角度多姿态视频,每个实例视频包含多种肢体动作和不同的衣着材质;s1.3利用图像处理软件自动抠出大概的人像区域,然后进行手动修正,以生成训练用的groundtruth alpha matte;s1.4利用绿幕背景下拍摄的图片的groundtruth alpha matte,前景图片与背景图片合成以产生大量训练用新数据;s1.5利用该高精度数据集训练网络模型,提高模型对处理局部细节的抠图能力。3.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:数据增强方法如下:s2.1、在人体区域附近生成模糊平滑的阴影区域,用以处理人体因光照投射而产生影子的情况;s2.2、提取人体区域主要颜色,并自动生成与该颜色相近的背景区块,用以处理前景和背景颜色相近时的预测误差;s2.3、利用网络爬虫收集复杂纹理的背景图,并与人物前景合成训练图片,用以处理背景含大量纹理而预测有误的情况;s2.4、实施时间维度的数据扩充,包括视频头尾翻转,帧率改变,随机暂停和帧跳跃,以增强模型在处理视频数据时的稳定性和连续性;网络模型训练时,同步使用数据增强技术以防止网络过拟合并在真实图片数据上保持良好的泛化能力,使用仿射形变,上下左右翻转、旋转、亮度色度饱和度对比度随机调整,模糊、锐化以及添加随机噪声,同时输入图片将被随机剪切成任意分辨率以让网络模型对任意大小尺寸的图片都有良好的鲁棒性。4.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:s3中,网络训练方法具体包括以下步骤:s3.1、阶段性训练,从简单到复杂,从粗糙到精细,首先在较低分辨率的数据集上训练base-net网络的人像分割任务,用较大的learning rate,这样base-net能快速学习理解人像语义的能力,人像分割训练后再指导抠图过程,其专注于分割结果的边缘区域;s3.2、训练base-net的人像抠图任务在较低分辨率的数据集上,在训练的奇数次迭代时,穿插进行人像分割任务的训练,以防止网络对人工合成的抠图数据过拟合,同时提高网络的语义理解能力,并在训练的后五个epoch时增加输入的视频序列长度;s3.3、在第三阶段,加入精细抠图模块,网络完整的训练在较高分辨率的数据集上;
s3.4、在最后的训练阶段,使用少量的高精度数据集进行训练,以提高抠图的精度和细节。5.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:用于深度学习人像抠图的权重优化方法,该方法通过人为地增大人像边缘区域的权重,以加强网络对人像边缘细节的学习能力,具体步骤如下:步骤一、利用距离变换,根据每个像素点到最近的人像边缘的距离;步骤二、对于训练集中的每个样本的ground truthalpha,权重图利用距离变换计算如下:d表示像素点x到最近的人像边缘的距离,在实际应用中,w0设为10,sigma设为5pixels。6.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:包括用于人像抠图的网络模型high-resolution human matting network(hhmn),其基于输入图片预测出alpha matte,网络模型包括:一个encoder,负责提取单帧图片的特征,其用resnet-50作为主干并连接一个aspp(atrous spatial pyramid pooling)模块,该encoder分别在1/4,1/8,1/16,1/32,1/64尺度上提取特征,aspp模块由多层具有不同dilated rate(3,6,9)的dilated卷积核组成,用以融合不同尺度的feature maps;一个带有循环模块的decoder,该decoder根据对应的encoder层中的max-pooling indices进行上采样,保留必要的局部细节信息,并减少显存消耗,其每层包含3*3卷积和batch normalization和relu模块以融合特征并减少特征通道数,并嵌入convlstm(convolutional long short-term memory)模块以利用时间维度信息,每次迭代更新convlstm的hidden state,且convlstm只使用一半的feature map通道;多尺度prm(progressive refinement module)模块,该模块用于优化高精度抠图的局部细节,对于高分辨率图片,在输入encoder-decoder网络之前,先进行一定倍率的下采样,然后利用prm模块重构出细节优化的高清抠图;用于人像分割任务的部分,在decoder的最后层使用一个3*3卷积层和1*1卷积层,batch normalization和relu输出一维通道的分割图。7.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:所使用的网络的细节信息传输通道,包括:(1)在encoder阶段,采用max-pooling操作对feature maps进行下采样,并保存max-pooling的位置索引;(2)encoder中的max-pooling层所计算的max location indices将被保存在内存中,并被传递给decoder;(3)在decoder中,根据encoder中保存的max-pooling indices对输入的feature maps进行非线性上采样,这个过程不仅高效利用内存/显存的同时,保留了原有的细节信息;(4)此种细节信息传输通道适用于任何encoder-decoder网络构型,能够有效提升边缘细节勾画,减少模型参数数量,同时保证end-to-end整体训练的可能。
8.根据权利要求6所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:在深度学习网络模型中使用convlstm模块,具体如下:(1)在decoder阶段,使用convlstm模块,以融合并利用时序信息;(2)使用时序信息提高了帧间预测结果的一致性,减小了抖动,同时,时序信息也提高了抠图的鲁棒性,允许模型在单帧预测不确定时,通过前面的帧来预测当前帧的边界;最后,所利用的时序信息允许模型学习更多背景的信息;(3)采用recurrent结构而不是注意力机制或仅使用多帧作为输入,使得模型适应性地保留长短时序信息,学习如何保留和忘记信息;(4)使用convlstm显著降低前15帧的错误率并随后保持稳定,提高抠图质量和一致性,该网络会自动重建背景并保留这些信息以帮助未来的预测,也会使用其他的recurrent channels来追踪运动历史。9.根据权利要求6所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:在深度学习网络模型中使用prm的方法,具体包括:(1)在decoding过程中,通过prm模块的自我指导逐步refine不确定的抠图区域;(2)prm应用于每一层的alpha输出,选择性地融合上一层和当前层的matting输出,人物边缘部分需要较低级别的特征来描述前景,而人物中间区域需要较高级别的特征作为指导;(3)对于l层,self-guidance mask g_l由上一层的matting输出alpha_(l-1)生成:当前层的alpha的1和0的部分与上一层的1和0的部分相同,大于0且小于1的部分与当前层的alpha'部分相同,这样,上一层网络确定为0或1的部分得以保留,网络只需集中注意力修正大于0且小于1的部分:α
l
=α

l
g
l

l-1
(1-g
l
).;(4)实验结果显示,prm能够很好地协调全局语义refinement和局部细节refinement,相较于线性融合多尺度的alpha,应用多层级的prm能提高全局及局部的抠图效果。

技术总结
本发明公开了一种基于深度神经网络的实时高分辨率人像抠图方法,包括获取训练数据集,并标注生成训练用groundtruth alpha matte;对训练数据集进行数据增强;分步阶段性训练网络模型;使用训练好的网络进行抠图。通过在网络构型中嵌入ConvLSTM模块,使用Max Pooling Indices,利用PRM进行高清细节优化,加入语义分割任务,打造出高精度实时人像抠图的核心技术,同时,创新了数据集和数据增强方法,采用阶段式训练,从简单到复杂,由粗糙到精细,强化了算法的训练效果,这三个方面的创新与应用相互作用,相互统一,全方位提升了算法的性能和实用性,为高精度实时人像抠图应用提供了强大的技术支持。供了强大的技术支持。供了强大的技术支持。


技术研发人员:吕元俊 王晓军
受保护的技术使用者:深圳市超元创世科技有限公司
技术研发日:2023.07.04
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐