背景渗透图像的生成方法、装置、设备及存储介质与流程
未命名
09-22
阅读:96
评论:0
1.本公开涉及图像识别技术领域,尤其涉及一种背景渗透图像的生成方法、装置、设备及存储介质。
背景技术:
2.目前,文本检测技术广泛应用于拍照搜题、智能批改、文字自动录入等。文本检测的主要目的是检测文本行的位置,包括打印文本行和手写文本行。不同于街头的招牌、广告牌等,在智能批改中,裁取下来的教辅、试卷、作业图像会存在背景渗透的问题,即纸张另一面的内容透过纸张在当前页显现,这会对文本行的检测结果造成较大影响。现有技术一般通过传统图像处理将背景渗透痕迹去除掉,然后将处理后的图像送入后续检测模块。但随着深度学习模型的发展,在数据充分的前提下,深度学习模型其实已经能够学习到背景渗透痕迹的特征并加以区分。深度学习模型需要使用带有背景渗透痕迹的图像样本进行训练,目前的图像样本大多是人工采集的,其中的背景渗透痕迹形态各异,对深度学习模型的辨别力提升较小。
技术实现要素:
3.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种背景渗透图像的生成方法、装置、设备及存储介质。
4.根据本公开的一方面,提供了一种背景渗透图像的生成方法,包括:
5.获取待添加背景渗透痕迹的前景图像,以及前景图像的文本信息;
6.选取与前景图像的文本信息相匹配的基础渗透图像;
7.从基础渗透图像中裁取与前景图像的尺寸相匹配的渗透图像;
8.对渗透图像进行背景化预处理,获得背景图像;
9.将前景图像与背景图像进行融合,获得背景渗透图像。
10.根据本公开的另一方面,提供了一种背景渗透图像的生成装置,包括:
11.文本信息模块,用于获取待添加背景渗透痕迹的前景图像,以及前景图像的文本信息;
12.选取模块,用于选取与前景图像的文本信息相匹配的基础渗透图像;
13.裁取模块,用于从基础渗透图像中裁取与前景图像的尺寸相匹配的渗透图像;
14.预处理模块,用于对渗透图像进行背景化预处理,获得背景图像;
15.融合模块,用于将前景图像与背景图像进行融合,获得背景渗透图像。
16.根据本公开的另一方面,提供了一种电子设备,所述电子设备包括:
17.处理器;
18.用于存储所述处理器可执行指令的存储器;
19.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述背景渗透图像的生成方法。
20.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,当所述计算机指令在终端设备上运行时,使得所述终端设备实现上述背景渗透图像的生成方法。
21.本公开实施例提供的技术方案与现有技术相比具有如下优点:
22.本公开实施例提供的背景渗透图像的生成方法、装置、设备及存储介质,获取待添加背景渗透痕迹的前景图像,以及前景图像的文本信息;选取与前景图像的文本信息相匹配的基础渗透图像;从基础渗透图像中裁取与前景图像的尺寸相匹配的渗透图像;对渗透图像进行背景化预处理,获得背景图像;将前景图像与背景图像进行融合,获得背景渗透图像。通过上述方式,首先能够选取到与前景图像的文本信息相匹配的基础渗透图像,之后裁取的渗透图像还与前景图像的尺寸相匹配,即渗透图像的文本信息和尺寸都与前景图像相匹配,渗透图像经过背景化预处理后获得的背景图像,与前景图像融合形成背景渗透图像,背景图像就成为了背景渗透图像中的背景渗透痕迹。该背景渗透痕迹与前景图像具有相匹配的文本信息和尺寸,相比有现有技术,在很大程度上避免了背景渗透痕迹形态各异的现象,减小了背景渗透痕迹与前景图像之间的差异,背景渗透痕迹与前景图像之间具有更高的相似度,使用该背景渗透图像对图像检测模型进行训练,能够显著提高图像检测模型的辨别能力。
附图说明
23.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
24.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
25.图1为背景渗透现象的实物图;
26.图2为本公开实施例提供的背景渗透图像的生成方法的流程图;
27.图3为本公开实施例中步骤s3的详细流程图;
28.图4为本公开实施例中步骤s4的详细流程图;
29.图5为本公开另一实施例中步骤s3的详细流程图;
30.图6为本公开实施例提供的背景渗透图像的生成装置的示意图;
31.图7为本公开实施例提供的电子设备的示意图。
具体实施方式
32.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
33.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公
开的范围在此方面不受限制。
34.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
35.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
36.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
37.目前,文本检测技术广泛应用于拍照搜题、智能批改、文字自动录入等。文本检测的主要目的是检测文本行的位置,包括打印文本行和手写文本行。不同于街头的招牌、广告牌等,在智能批改中,裁取下来的教辅、试卷、作业图像会存在背景渗透的问题,即纸张另一面的内容透过纸张在当前页显现,如图1所示,这会对文本行的检测结果造成较大影响。现有技术一般通过传统图像处理将背景渗透痕迹去除掉,然后将处理后的图像送入后续检测模块。但随着深度学习模型的发展,在数据充分的前提下,深度学习模型其实已经能够学习到背景渗透痕迹的特征并加以区分。深度学习模型需要使用带有背景渗透痕迹的图像样本进行训练,目前的图像样本大多是人工采集的,其中的背景渗透痕迹形态各异,对深度学习模型的辨别能力提升较小。
38.为了解决上述问题,下面对本公开实施例提供的背景渗透图像的生成方法进行说明。在本公开实施例中,该背景渗透图像的生成方法可以由电子设备或服务器执行。电子设备或服务器均是本公开实施例中的背景渗透图像的生成端。其中,电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑等具有通信功能的设备。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。需要说明的是,以下实施例以电子设备作为执行主体进行示例性的解释。
39.图2示出了本公开实施例提供的背景渗透图像的生成方法的流程图。
40.如图2所示,该背景渗透图像的生成方法,包括以下步骤:
41.s1:获取待添加背景渗透痕迹的前景图像,以及前景图像的文本信息。
42.本实施例中,可以预先准备一个图像集,其中的图像均为教辅、试卷、作业切下来的题块图像,且都是不带有背景渗透痕迹的图像。
43.在一些实施例中,文本信息包括字符平均尺寸。利用单字检测算法,对图像集中的每幅图像进行检测,记录每幅图像的单字检测结果,并计算每幅图像中所有字符框的平均宽高,记为average_w和average_h。
44.然后从图像集中随机选取一幅或多幅图像作为前景图像,同时获取该一幅或多幅图像各自的字符平均尺寸average_w和average_h。
45.在另一些实施例中,文本信息包括文本类别。以教辅相关应用场景为例,文本类别即为教辅的学科,利用文字检测及文字识别算法,得到图像集中每幅图像中的文本,基于自然语言处理算法对文本所属学科进行分类,具体分为数学、语文、英语、物理、化学、地理、政
治、历史、生物等。本公开对用来做文本分类的自然语言处理算法不做限定。
46.然后从图像集中随机选取一幅或多幅图像作为前景图像,同时获取该一幅或多幅图像各自的学科。
47.在另一些实施例中,也可以是同时获取各前景图像字符平均尺寸和学科。
48.在一些其他应用场景中,文本类别可以相应的改变分类方式。例如,论文的应用场景,文本类别可以是学术领域,分类为物理学、材料学、医学等,或者以语种进行分类,分类为汉语、英语、法语等。又如,报刊杂志的应用场景,文本类别可以是专题种类,分类为财经、科技、实事等。
49.s2:选取与前景图像的文本信息相匹配的基础渗透图像。
50.本实施例中,基础渗透图像可以从上述图像集中选取。
51.在其他实施例中,也可以预先另准备一个基础渗透图像集合,其中的图像也是教辅、试卷、作业切下来的题块图像,且都是不带有背景渗透痕迹的图像。另外,也需要计算每幅基础渗透图像中所有字符的字符平均宽高,或识别出每幅基础渗透图像所属的学科。
52.在一些实施例中,文本信息包括字符平均尺寸,本步骤包括:选取与前景图像的字符平均尺寸相匹配的基础渗透图像,所选取的基础渗透图像的字符平均尺寸与前景图像的字符平均尺寸的差异小于等于预设值。例如,基础渗透图像的字符平均宽高与前景图像的字符平均宽高相差都小于10个像素。
53.在另一些实施例中,文本信息包括文本类别,本步骤包括:选取与前景图像的文本类别相同的基础渗透图像。
54.在另一些实施例中,所选取的基础渗透图像,也可以是既与前景图像的字符平均尺寸的差异小于等于预设值,又与前景图像的文本类别相同。
55.例如,在步骤s1中选取的一幅待添加背景渗透痕迹的前景图像,根据该前景图像的字符平均宽高(average_w和average_h)及所属科目,从基础渗透图像集合中选取一幅或多幅基础渗透图像。所选取的基础渗透图像的具体标准为:基础渗透图像与前景图像属于同一科目,且基础渗透图像的字符平均宽高与前景图像的字符平均宽高都相差小于10个像素。此处相差的像素值可以根据实际需求拟定,原则是保证基础渗透图像的字符与前景图像的字符大小基本一致,即当前页和背面页的字符大小基本是一样的,与用户场景吻合。
56.关于所属科目,在实践中发现,前景图像与背景渗透痕迹为相同学科时,相比于二者为不同学科时,对图像检测模型训练后的辨别能力增益更大。比如一张数学类前景图像,其背景渗透痕迹也为数学类文本时,使用二者合成的融合图像训练图像检测模型后,对图像检测模型的辨别能力增益,要大于背景渗透痕迹为其他科目类文本(如英语)。
57.s3:从基础渗透图像中裁取与前景图像的尺寸相匹配的渗透图像。
58.本实施例中,基础渗透图像的尺寸大于前景图像,即基础渗透图像的宽度和高度都大于前景图像,或者基础渗透图像的宽度或高度大于前景图像。
59.如图3所示,本步骤具体包括以下步骤:
60.s301:设置与前景图像的尺寸相同的裁取框。
61.根据前景图像的宽高,设定同样大小的裁取框。
62.s302:利用裁取框遍历基础渗透图像。
63.裁取框遍历扫描基础渗透图像的起始点、顺序不做特别限定,原则是能扫描完整
张基础渗透图像。例如,利用裁取框从基础渗透图像的左上角开始,按从上到下、从左到右的顺序扫描基础渗透图像。
64.当裁取框内字符所占面积达到预设比例时,执行步骤s303。字符所占面积的计算方式是以字符框计算,包围单个字符的最小矩形即为一个字符框,当裁取框内的字符框面积总和所占裁取框面积的比例达到预设比例时,执行步骤s303。
65.该预设比例不做特别限定,可根据具体需求确定,原则是保证步骤s303能够裁取到一定的字符数量,避免裁取到的字符太少或裁取到空白区域,本实施例中采用的预设比例为30%。
66.如果直到基础渗透图像遍历完毕,裁取框内字符所占面积也没达到预设比例,则更换另一幅基础渗透图像,返回步骤s302重新遍历扫描。
67.s303:将裁取框所在的当前区域裁取为渗透图像。
68.裁取下渗透图像后,将该渗透图像与相应的前景图像相关联并记录。之后更换另一幅基础渗透图像,返回步骤s302重新遍历扫描。
69.在一些实施例中,也可以不更换基础渗透图像,在当前基础渗透图像上继续执行步骤s302,直至当前基础渗透图像遍历完毕,从而能够在一幅基础渗透图像上裁取下多个渗透图像。
70.s4:对渗透图像进行背景化预处理,获得背景图像。
71.如图4所示,本步骤具体包括:
72.s401:将渗透图像进行水平翻转。
73.从前景图像相关联的渗透图像中随机选取一幅,然后将该渗透图像进行水平翻转,使其字符方向变为符合纸张背面的镜像字符。
74.s402:将翻转后的渗透图像转换为灰度图像。
75.利用灰度算法,将翻转后的渗透图像转换为灰度图像
76.s403:将灰度图像转换为二值图像。
77.基于自适应阈值二值化算法,将该灰度图像转换为二值图像。
78.s404:将二值图像转换为rgb三通道图像。
79.利用计算机视觉库(如opencv)中的灰度图转rgb图的方法,将得到的二值图像转换为rgb三通道图像。
80.s405:对rgb三通道图像进行模糊处理,获得背景图像。
81.利用高斯模糊算法,对该rgb三通道图像进行模糊处理,得到最终的背景图像。
82.s5:将前景图像与背景图像进行融合,获得背景渗透图像。
83.本实施例中,根据以下算式,将前景图像与背景图像进行融合,获得背景渗透图像。
84.n
xy
=w
p
*p
xy
+wq*q
xy
85.其中,n
xy
为背景渗透图像中坐标(x,y)处的像素值,p
xy
为前景图像中坐标(x,y)处的像素值,q
xy
为背景图像中坐标(x,y)处的像素值,w
p
和wq分别为前景像素和背景像素的权重值。
86.至此,就得到了一幅含有背景渗透痕迹的背景渗透图像,该背景渗透图像作为训练样本的检测框标注信息,即为其中前景图像的检测框标注信息。
87.调整w
p
和wq可控制背景痕迹的渗透程度,通常前景图像的字符必然比背景图像的字符颜色更深,因此前景像素的权重值应当大于背景像素的权重值,w
p
的取值范围可以在0.8-1之间,wq的取值范围可以在0.1-0.4之间。
88.在一些实施例中,w
p
和wq也可根据实际需要进行调整,但需要保证融合后的字符满足w
p
*p
xy
》wq*q
xy
,也就是保证前景图像的字符比背景图像的字符颜色更深。
89.通常在一幅背景渗透图像中,每个像素都应采用相同的w
p
和wq,保证整幅图像的统一性。但在一些特别情况下,例如前景图像不同位置的字符深度差异较大,或背景图像不同位置的字符深度差异较大,则可以在不同区域相应的采用不同的w
p
和wq。
90.在一些实施例中,还包括一下步骤:
91.s6:将背景渗透图像作为训练样本,对图像检测模型进行训练。
92.在实际应用中,需要通过本公开实施例提供的方法,生成大量背景渗透图像对图像检测模型进行训练。
93.通过本公开实施例提供的方法,能够选取到与前景图像的文本信息相匹配的基础渗透图像,之后裁取的渗透图像还与前景图像的尺寸相匹配,即渗透图像的文本信息和尺寸都与前景图像相匹配,渗透图像经过背景化预处理后获得的背景图像,与前景图像融合形成背景渗透图像,背景图像就成为了背景渗透图像中的背景渗透痕迹。该背景渗透痕迹与前景图像具有相匹配的文本信息和尺寸,相比有现有技术,在很大程度上避免了背景渗透痕迹形态各异的现象,减小了背景渗透痕迹与前景图像之间的差异,背景渗透痕迹与前景图像之间具有更高的相似度,使用该背景渗透图像对图像检测模型进行训练,能够显著提高图像检测模型的辨别能力。
94.作为一种数据驱动的算法,基于深度学习技术的图像检测模型在模型结构日益完善的情况下,训练使用的图像样本的质量就成了影响模型的效果的重要因素,图像样本的质量主要指图像样本的复杂度和代表性。在本公开涉及的使用场景,一般有三种途径获取图像样本:1、实际应用中用户所拍摄的图像;2、专门由人工采集的图像;3、基于图像算法合成的图像。这三种途径中,用户所拍摄的图像最具有代表性,但对于一些特殊场景,比如本公开涉及的图像存在背景渗透痕迹的情况,在用户所拍摄的图像中占比很低,而这些特殊场景也是算法需要兼顾到的。此时就需要人工采集或者利用图像算法合成该特殊类型的图像样本,以提升图像检测模型在这些特殊场景下的鲁棒性。
95.相比于人工采集,基于图像算法合成图像样本具有更加可控、成本更低、数据收集周期更短等优点。实践表明,合成后的图像样本中,当背景渗透痕迹同样为文字时,对图像检测模型辨别能力的提升最明显,而其他类型的背景渗透痕迹,如线条、不规则曲线等,对图像检测模型辨别能力的提升则不甚明显。同时,还通过实践发现,对于部分背景渗透痕迹特别严重的用户场景,如纸张薄且纸张背面是以钢笔书写,此时背景渗透痕迹的显现程度已几乎与前景图像中的待检测字符一样深,此时加入普通的背景渗透图像已很难提升图像检测模型对该类情况的辨别能力,只有加入的图像样本的渗透程度深、且渗透的字符痕迹为同学科、字符大小基本一致时,方能进一步提升图像检测模型对该类情况的辨别能力。可以认为图像检测模型不仅学习到了背景渗透痕迹和待检测字符的深浅区别,还学习到了背景渗透痕迹和待检测字符的文字朝向区别。因此本公开实施例针对背景渗透这一特殊场景,提供了一种背景渗透图像的生成方法,通过此方法扩充训练数据样本的多样性,达到提
升图像检测模型辨别能力的目的,提升图像检测模型的鲁棒性。
96.在一些实施例中,基础渗透图像的尺寸可以和前景图像相同,甚至比前景图像的尺寸更小。相应的,如图5所示,上述步骤s3具体包括以下步骤:
97.s311:设置尺寸小于前景图像的裁取框。
98.根据基础渗透图像的尺寸,设置尺寸小于基础渗透图像的裁取框,当然该裁取框的尺寸也小于前景图像。
99.s312:利用裁取框遍历基础渗透图像。
100.例如,利用裁取框从基础渗透图像的左上角开始,按从上到下、从左到右的顺序扫描基础渗透图像。
101.当裁取框内字符所占面积达到预设比例时,执行步骤s313。因为裁取框的尺寸比前景图像更小,所以避免裁取到的字符太少,此处的预设比例需要适当提高,例如提高至50%。
102.如果直到基础渗透图像遍历完毕,裁取框内字符所占面积也没达到预设比例,则更换另一幅基础渗透图像,返回步骤s312重新遍历扫描。
103.s313:将裁取框所在的当前区域裁取为渗透图像。
104.裁取下渗透图像后,将该渗透图像与相应的前景图像相关联并记录。
105.s314:为渗透图像添加空白边框,使渗透图像与前景图像的尺寸相同。
106.空白边框的添加方式可根据实际应用场景设定,可以在渗透图像的四周都添加空白边框,也可以只在渗透图像的一侧或两侧添加空白边框,使渗透图像与前景图像的尺寸相同,便于后续进行图像融合。
107.之后更换另一幅基础渗透图像,返回步骤s312重新遍历扫描。
108.本公开实施例还提供了一种用于实现上述的背景渗透图像的生成方法的装置,下面结合图6进行说明。在本公开实施例中,该背景渗透图像的生成装置可以为电子设备或服务器。其中,电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑等具有通信功能的设备。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
109.图6示出了本公开实施例提供的一种背景渗透图像的生成装置的结构示意图。
110.如图6所示,背景渗透图像的生成装置可以包括:
111.文本信息模块610,用于获取待添加背景渗透痕迹的前景图像,以及前景图像的文本信息;
112.选取模块620,用于选取与前景图像的文本信息相匹配的基础渗透图像;
113.裁取模块630,用于从基础渗透图像中裁取与前景图像的尺寸相匹配的渗透图像;
114.预处理模块640,用于对渗透图像进行背景化预处理,获得背景图像;
115.融合模块650,用于将前景图像与背景图像进行融合,获得背景渗透图像。
116.本公开实施例提供的生成装置,能够选取到与前景图像的文本信息相匹配的基础渗透图像,之后裁取的渗透图像还与前景图像的尺寸相匹配,即渗透图像的文本信息和尺寸都与前景图像相匹配,渗透图像经过背景化预处理后获得的背景图像,与前景图像融合形成背景渗透图像,背景图像就成为了背景渗透图像中的背景渗透痕迹。该背景渗透痕迹与前景图像具有相匹配的文本信息和尺寸,相比有现有技术,在很大程度上避免了背景渗透痕迹形态各异的现象,减小了背景渗透痕迹与前景图像之间的差异,背景渗透痕迹与前
景图像之间具有更高的相似度,使用该背景渗透图像对图像检测模型进行训练,能够显著提高图像检测模型的辨别能力。
117.在一些实施例中,文本信息包括字符平均尺寸,选取模块620具体用于:
118.选取与前景图像的字符平均尺寸相匹配的基础渗透图像,所选取的基础渗透图像的字符平均尺寸与前景图像的字符平均尺寸的差异小于等于预设值。
119.在一些实施例中,文本信息包括文本类别,选取模块620具体用于:
120.选取与前景图像的文本类别相同的基础渗透图像。
121.在一些实施例中,基础渗透图像的尺寸大于前景图像,裁取模块630包括:
122.裁取框单元,用于设置与前景图像的尺寸相同的裁取框;
123.遍历单元,用于利用裁取框遍历基础渗透图像;
124.裁取单元,用于当裁取框内字符所占面积达到预设比例时,将裁取框所在的当前区域裁取为渗透图像。
125.在一些实施例中,基础渗透图像的尺寸小于或等于前景图像,裁取模块630包括:
126.裁取框单元,用于设置尺寸小于前景图像的裁取框;
127.遍历单元,用于利用裁取框遍历基础渗透图像;
128.裁取单元,用于当裁取框内字符所占面积达到预设比例时,将裁取框所在的当前区域裁取为渗透图像;
129.添加单元,用于为渗透图像添加空白边框,使渗透图像与前景图像的尺寸相同。
130.在一些实施例中,预设比例为30%以上。
131.在一些实施例中,融合模块650具体用于:
132.根据以下算式,将前景图像与背景图像进行融合,获得背景渗透图像
133.n
xy
=w
p
*p
xy
+wq*q
xy
134.其中,n
xy
为背景渗透图像中坐标(x,y)处的像素值,p
xy
为前景图像中坐标(x,y)处的像素值,q
xy
为背景图像中坐标(x,y)处的像素值,w
p
和wq分别为前景像素和背景像素的权重值。
135.在一些实施例中,w
p
的取值范围为0.8-1,wq的取值范围为0.1-0.4。
136.在一些实施例中,预处理模块640包括:
137.翻转单元,用于将渗透图像进行水平翻转;
138.灰度单元,用于将翻转后的渗透图像转换为灰度图像;
139.二值化单元,用于将灰度图像转换为二值图像;
140.三通道单元,用于将二值图像转换为rgb三通道图像;
141.模糊单元,用于对rgb三通道图像进行模糊处理,获得背景图像。
142.在一些实施例中,该装置还包括:
143.训练模块,用于将背景渗透图像作为训练样本,对图像检测模型进行训练。
144.本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
145.本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公
开实施例的方法。
146.本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
147.参考图7,现将描述可以作为本公开的服务器或客户端的电子设备400的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
148.如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
149.电子设备700中的多个部件连接至i/o接口705,包括:输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备,输入单元706可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元707可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元708可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
150.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如,在一些实施例中,文本识别方法或识别网络的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到电子设备700上。在一些实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本识别方法或识别网络的训练方法。
151.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
152.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供
指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
153.如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
154.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
155.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
156.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
157.以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种背景渗透图像的生成方法,其特征在于,包括:获取待添加背景渗透痕迹的前景图像,以及前景图像的文本信息;选取与前景图像的文本信息相匹配的基础渗透图像;从基础渗透图像中裁取与前景图像的尺寸相匹配的渗透图像;对渗透图像进行背景化预处理,获得背景图像;将前景图像与背景图像进行融合,获得背景渗透图像。2.根据权利要求1所述的方法,其特征在于,所述文本信息包括字符平均尺寸;选取与前景图像的文本信息相匹配的基础渗透图像的步骤,包括:选取与前景图像的字符平均尺寸相匹配的基础渗透图像,所选取的基础渗透图像的字符平均尺寸与前景图像的字符平均尺寸的差异小于等于预设值。3.根据权利要求1所述的方法,其特征在于,所述文本信息包括文本类别;选取与前景图像的文本信息相匹配的基础渗透图像的步骤,包括:选取与前景图像的文本类别相同的基础渗透图像。4.根据权利要求1所述的方法,其特征在于,所述基础渗透图像的尺寸大于所述前景图像;从基础渗透图像中裁取与前景图像的尺寸相匹配的渗透图像的步骤,包括:设置与前景图像的尺寸相同的裁取框;利用裁取框遍历基础渗透图像;当裁取框内字符所占面积达到预设比例时,将裁取框所在的当前区域裁取为渗透图像。5.根据权利要求1所述的方法,其特征在于,从基础渗透图像中裁取与前景图像的尺寸相匹配的渗透图像的步骤,包括:设置尺寸小于前景图像的裁取框;利用裁取框遍历基础渗透图像;当裁取框内字符所占面积达到预设比例时,将裁取框所在的当前区域裁取为渗透图像;为渗透图像添加空白边框,使渗透图像与前景图像的尺寸相同。6.根据权利要求4或5所述的方法,其特征在于,将前景图像与背景图像进行融合,获得背景渗透图像的步骤,包括:根据以下算式,将前景图像与背景图像进行融合,获得背景渗透图像n
xy
=w
p
*p
xy
+w
q
*q
xy
其中,n
xy
为背景渗透图像中坐标(x,y)处的像素值,p
xy
为前景图像中坐标(x,y)处的像素值,q
xy
为背景图像中坐标(x,y)处的像素值,w
p
和w
q
分别为前景像素和背景像素的权重值。7.根据权利要求6所述的方法,其特征在于,w
p
的取值范围为0.8-1,w
q
的取值范围为0.1-0.4。8.根据权利要求4或5所述的方法,其特征在于,所述预设比例为30%以上。9.根据权利要求1所述的方法,其特征在于,对渗透图像进行背景化预处理,获得背景图像的步骤,包括:
将渗透图像进行水平翻转;将翻转后的渗透图像转换为灰度图像;将灰度图像转换为二值图像;将二值图像转换为rgb三通道图像;对rgb三通道图像进行模糊处理,获得背景图像。10.根据权利要求1所述的方法,其特征在于,还包括:将背景渗透图像作为训练样本,对图像检测模型进行训练。11.一种背景渗透图像的生成装置,其特征在于,包括:文本信息模块,用于获取待添加背景渗透痕迹的前景图像,以及前景图像的文本信息;选取模块,用于选取与前景图像的文本信息相匹配的基础渗透图像;裁取模块,用于从基础渗透图像中裁取与前景图像的尺寸相匹配的渗透图像;预处理模块,用于对渗透图像进行背景化预处理,获得背景图像;融合模块,用于将前景图像与背景图像进行融合,获得背景渗透图像。12.一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-10中任一所述的用于模型训练的图像获取方法。13.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,当所述计算机指令在终端设备上运行时,使得所述终端设备实现如权利要求1-10中任一所述的方法。
技术总结
本公开涉及一种背景渗透图像的生成方法、装置、设备及存储介质。该方法包括:获取待添加背景渗透痕迹的前景图像,以及前景图像的文本信息;选取与前景图像的文本信息相匹配的基础渗透图像;从基础渗透图像中裁取与前景图像的尺寸相匹配的渗透图像;对渗透图像进行背景化预处理,获得背景图像;将前景图像与背景图像进行融合,获得背景渗透图像。采用该方法能够显著提高图像检测模型的辨别能力。显著提高图像检测模型的辨别能力。显著提高图像检测模型的辨别能力。
技术研发人员:王翔
受保护的技术使用者:深圳市星桐科技有限公司
技术研发日:2023.05.18
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/