一种鲁棒且高效的扫描文档图像增强方法及其装置与流程
未命名
09-22
阅读:69
评论:0
1.本发明涉及图像处理
技术领域:
:,具体涉及一种鲁棒且高效的扫描文档图像增强方法以及应用该方法的装置。
背景技术:
::2.随着数字化学习和办公的普及,越来越多的人们需要将纸质文档或投影文档转换成数字文档。然而,由于扫描过程中可能会受到光照、纸张颜色和纹理等多种因素的影响,扫描得到的文档图像往往存在一些问题,例如模糊、失真、对比度不足等。为了解决这些问题,扫描文档图像增强技术应运而生。3.扫描文档图像增强技术是指通过对扫描得到的文档图像进行后处理,提高扫描文档图像的清晰度、对比度,期望文档图像尽可能的接近原始文档的图像质量。目前已有多种文档图像增强技术被广泛应用,包括基于灰度变换的方法、直方图均衡化的方法、基于自适应滤波器的方法等,这些方法在一定程度上能够改善文档图像的质量,但在实际应用中,由于文档的类型、字体粗细、纹理、扫描环境光源等因素的影响,这些方法往往难以适应多种场景。4.目前的文档图像增强技术虽然能够改善扫描文档图像的质量,但仍存在一些局限性和缺陷:5.首先,目前的扫描文档图像通常涉及多种技术和方法,例如灰度变换、直方图均衡化、边缘检测、形态学操作、二值化、去噪等等,不同的技术和方法有各自的优缺点和适用范围,往往需要根据每张被处理图像的特征和需求进行选择组合,这增加了处理复杂度和难度。其次,这些方法通常针对特定类型或场景的文档图像,难以适应不同来源和内容的文档图像,这使得扫描文档图像增强技术的普适性受到限制。此外这些方法也存在一些局限性和缺陷,例如,效果不稳定、可能错误保留阴影、参数调节复杂等等。6.另外,大多数现有的文档图像质量增强方法都是基于各种特征值的全局或局部的对比度调节技术,包括二值化处理,往往全局对比度调节技术不能消除阴影区域的低对比度问题,而局部对比度调节技术可能导致粗体字出现空洞或颜色不均匀的问题。技术实现要素:7.为了克服现有技术的不足,本发明针对以上适应场景少,处理复杂和难度大,效果不稳定等问题,提供一种既能够保证增强效果,又能够保证处理速度的鲁棒且高效的扫描文档图像增强方法及其装置,用来适应各种来源和内容的文档图像,并且能够提高图像的清晰度、对比度,从而使扫描文档图像更接近原始文档的图像质量。8.为解决上述问题,本发明所采用的技术方案如下:9.一种鲁棒且高效的扫描文档图像增强方法,包括以下步骤:10.获取待处理的扫描文档图像;11.使用多级金字塔算法对所述扫描文档图像逐层向下采样,对每一层的数据使用滤波操作进行图像背景信息的提取;12.基于获取的图像背景信息对所述扫描文档图像进行增强;13.对增强后的扫描文档图像进行进一步的图像对比度的增强,生成文档增强图像。14.根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,使用多级金字塔算算法获取图像背景信息时,先逐层下采样,即对当前层输入图像进行低通滤波后抽取偶数列和偶数行的像素,以产生分辨率为输入图像尺寸一半的图像作为当前层输出以及下一层金字塔的输入;在对所述扫描文档图像进行上采样的数据融合过程中,先通过双线性插值或双三次b样条差值在每一层的图像中插入新的像素,使得每一层的输出图像分辨率与原始输入图像的输入图像尺寸一致,然后对所有层的输出图像使用滤波操作进行层间滤波获得图像背景信息。15.根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,使用多级金字塔算法对所述扫描文档图像逐层向下采样之前,根据扫描文档图像的尺度大小进行金字塔层数的计算:16.获取图像的宽width和高height;17.取图像的宽和高中的较大值进行后续的计算;18.将该值除以32;19.求log2;20.向上取整作为最终的金字塔层数;21.可以表示为公式(1):[0022][0023]根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,所述基于获取的图像背景信息对所述扫描文档图像进行增强,包括:[0024]使用划分模式对原始的扫描文档图像和背景图像进行运算,得到增强后的扫描文档图像;其中,划分模式是根据基色和混合色之间的比例关系来计算结果色进行调整的,表示为公式(21):[0025]结果色=clip(基色/混合色×255,0,255(21)[0026]其中,基色为原始的扫描文档图像上的每一个像素值,混合色为背景图像上的每一个像素值,clip表示对计算结果进行截断。[0027]根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,所述基于获取的图像背景信息对所述扫描文档图像进行增强,包括:[0028]使用补偿模式对原始的扫描文档图像和背景图像进行计算;其中,通过计算背景图像与文档的背景颜色之间的差异,将差异结果叠加到原始图像上,从而实现背景的增白,表示为公式(22):[0029]增强图像=clip(原始图像+(255-背景图像),0,255)(22)[0030]对补偿模式得到的增强图像进行一次归一化操作,表示为公式(23):[0031]增强图像′=[0032]clip((增强图像-min(增强图像))/(255-min(增强图像))×255,0,255)(23)。[0033]根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,所述对增强后的扫描文档图像进行进一步的图像对比度的增强,执行非线性灰度变换以增强其空间对比度,包括:[0034]使用伽玛校正对增强后的扫描文档图像进行对比度调整,表示为公式(31):[0035]增强图像像素=(原始图像像素/255)gamma×255(31)。[0036]根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,使用基于自动生成的颜色查找表对增强后的扫描文档图像进行进一步的图像对比度的增强,包括:[0037]利用大津法或分位数法计算阈值t;[0038]利用阈值t计算颜色查找表lut;[0039]根据颜色查找表lut对增强后的扫描文档图像进行颜色映射,完成增强。根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,所述利用阈值t计算颜色查找表lut,表示为公式(32):[0040][0041]根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,在设备获取待处理的扫描文档图像之后,为提高处理速度减少处理时间,还执行:[0042]将待处理的扫描文档图像按照预设比例缩小进行图像背景信息的提取;[0043]在提取到图像背景信息之后,将背景图像按照预设比例的倒数放大至原始图像尺寸。[0044]一种获取增强文档图像的装置,包括:[0045]存储器,用于存放图像数据以及可被处理器运行的指令;[0046]处理器,用于处理数据、运行指令和执行操作;[0047]图像采集设备,用于获取待处理的扫描文档图像集;[0048]图像输出设备,用于显示或打印处理后的扫描文档图像。[0049]由此可见,相比现有技术,本发明提出一种鲁棒且高效的扫描文档图像增强的方法,通过利用多级增强策略来综合改善图像质量,一方面提高了鲁棒性和稳健性,因为它可以利用不同尺度的信息来消除噪声和异常值的影响得到更加准确和平滑的背景信息,另一方面仅需要较低的计算量可以大幅提高感受野的范围,因此该方法可以高效且鲁棒地处理不同类型和场景的文档图像,包括彩色、灰度、单色等不同模式的图像,以及歪斜、阴影等不同退化情况的文档图像,去除背景杂质,增强文字效果提高文档图像可读性,并且无需参数调整,降低使用难度。[0050]下面结合附图和具体实施方式对本发明作进一步详细说明。附图说明[0051]图1是本发明一种鲁棒且高效的扫描文档图像增强方法实施例的流程图。[0052]图2是本发明一种获取增强文档图像的装置实施例的原理图。具体实施方式[0053]为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0054]参见图1,本实施例提供的一种鲁棒且高效的扫描文档图像增强方法,包括以下步骤:[0055]步骤s1,获取待处理的扫描文档图像,包括从本地存储器读取图像,或者从图像采集设备例如摄像头获取图像,从而获得需要增强的原始图像。[0056]步骤s2,使用多级金字塔算法对所述扫描文档图像逐层向下采样,对每一层的数据使用滤波操作进行图像背景信息的提取,并在上采样的过程中融合每一层的图像背景信息得到融合的背景信息。[0057]步骤s3,基于获取的图像背景信息对所述扫描文档图像进行增强。[0058]步骤s4,对增强后的扫描文档图像进行进一步的图像对比度的增强,生成文档增强图像。[0059]在本实施例中,使用多级金字塔算算法获取图像背景信息时,先逐层下采样,即对当前层输入图像进行低通滤波后抽取偶数列和偶数行的像素,以产生分辨率为输入图像尺寸一半的图像作为当前层输出以及下一层金字塔的输入;在对所述扫描文档图像进行上采样的数据融合过程中,先通过双线性插值或双三次b样条差值在每一层的图像中插入新的像素,使得每一层的输出图像分辨率与原始输入图像的输入图像尺寸一致,然后对所有层的输出图像使用滤波操作进行层间滤波获得图像背景信息。[0060]在上述步骤s2中,使用多级金字塔算法对所述扫描文档图像逐层向下采样之前,根据扫描文档图像的尺度大小进行金字塔层数的计算:[0061]获取图像的宽width和高height;[0062]取图像的宽和高中的较大值进行后续的计算;[0063]将该值除以32;[0064]求log2;[0065]向上取整作为最终的金字塔层数,可以表示为公式(1):[0066][0067]可见,在使用过程中通常根据图像的尺度大小进行金字塔层数的计算,比如利用上述公式(1)进行计算。另外,为了提高下采样的速度,可以先对输入图像进行缩放,令长宽都为2的幂,获得估计背景后将背景缩放回原图尺寸进行后续处理。[0068]具体的,在上述公式(1)中,先取图像的尺寸长和宽中较大的值,然后将该值除以32,再对该结果求log2,最后向上取整。具体目的为:计算最少通过几次下采样(每次下采样后尺寸缩小为原尺寸的1/2)以后,图像的宽和高均小于32,用以控制金字塔最顶层数据的尺寸。[0069]在上述步骤s2中,使用多级金字塔算算法获取图像背景信息时,先逐层下采样,即对当前层输入图像进行低通滤波后抽取偶数列和偶数行的像素,以产生分辨率为输入图像尺寸一半的图像作为当前层输出以及下一层金字塔的输入;在对所述扫描文档图像进行上采样的数据融合过程中,先通过双线性插值或双三次b样条差值在每一层的图像中插入新的像素,使得每一层的输出图像分辨率与原始输入图像的输入图像尺寸一致,然后对所有层的输出图像使用滤波操作进行层间滤波获得图像背景信息。[0070]在上述步骤s3中,基于获取的图像背景信息对所述扫描文档图像进行增强,可以包括:[0071]使用划分模式对原始的扫描文档图像和背景图像进行运算,得到增强后的扫描文档图像;其中,划分模式是根据基色和混合色之间的比例关系来计算结果色进行调整的,使得暗色变得更暗,亮色变得更亮,具体表示为公式(21):[0072]结果色=clip(基色/混合色×255,0,255)ꢀꢀ(21)[0073]其中,基色为原始的扫描文档图像上的每一个像素值,混合色为背景图像上的每一个像素值,clip表示对计算结果进行截断。[0074]当然,这一步也可以使用补偿模式对原始图片和背景图片进行计算,如在上述步骤s3中,基于获取的图像背景信息对所述扫描文档图像进行增强,还可以包括:[0075]使用补偿模式对原始的扫描文档图像和背景图像进行计算;其中,通常文档的背景为白色,通过计算背景图像与文档的背景颜色之间的差异,将差异结果叠加到原始图像上,从而实现背景的增白,表示为公式(22):[0076]增强图像=clip(原始图像+(255-背景图像),0,255)(22)[0077]但是使用补偿模式得到的增强图像通常会亮度过高,因此可以对补偿模式得到的增强图像进行一次归一化操作,表示为公式(23):[0078]增强图像′=[0079]clip((增强图像-min(增强图像))/(255-min(增强图像))×255,0,255)(23)。[0080]在上述步骤s4中,对增强后的扫描文档图像进行进一步的图像对比度的增强,执行非线性灰度变换以增强其空间对比度,这一步是为了消除增强后图片中可能存在的噪声或残留底纹等影响因素,提升图片质量和可读性。该步骤具体可以包括:[0081]使用伽玛校正对增强后的扫描文档图像进行对比度调整,使得图片更加明亮和饱满,表示为公式(31):[0082]增强图像像素=(原始图像像素/255)gamma×255(31)。[0083]由于对于文档图像通常期望黑色文字更黑,白色背景更白,通常使用伽玛校正时的系数都设置为大于1的数,也可以使用基于平均亮度计算的自动伽玛系数。[0084]或者,在上述步骤s4中,在进一步增强图像对比度时还可以使用基于自动生成的颜色查找表映射(autolookuptablemap),对增强后的扫描文档图像进行进一步的图像对比度的增强,其中,自动生成颜色查找表可以使用基于大津法(otsualgorithm)或者分位数法的自动生成方法,具体方法包括如下:[0085]利用大津法或分位数法计算阈值t;[0086]利用阈值t计算颜色查找表lut,表示为公式(32):[0087][0088]根据颜色查找表lut对增强后的扫描文档图像进行颜色映射,完成增强。[0089]在自动生成颜色查找表时,也可以考虑结合伽玛计算、对数计算、平方计算、开平方计算等方式生成符合需求的颜色查找表。[0090]上述利用大津法或分位数法计算阈值t具体包括:[0091](1)大津法(otsu)是一种广泛应用的图像二值化分割阈值的算法,根据选取的阈值将图像分为两个部分,计算对应的最大类间方差对应的阈值作为最佳阈值,具体方法如下:[0092]统计图像中每个灰度级的像素个数,得到一个直方图。[0093]遍历所有可能的灰度级作为阈值,将图像分为两部分,目标和背景。[0094]计算每个部分的像素占比和平均灰度值,以及图像的全局平均灰度值。[0095]根据公式,计算每个阈值对应的类间方差,也就是目标和背景之间的差异程度。[0096]选择使类间方差最大的阈值作为最佳阈值。[0097](2)分位数法是一种个根据数据的分布情况来确定阈值的方法,具体方法如下:[0098]统计图像中每个灰度级的像素个数,得到一个直方图。[0099]选择合适的分位数法,例如四分位数法。[0100]根据分位数法计算出阈值,例如四分位数法找到分布直方图的第一四分位数和第三四分位数,计算平均值,作为最佳阈值。[0101]在进行颜色映射时,lut查找表中有相应的输入颜色值和输出颜色值,例如[(r,g,b),(r,g,b)]就为一组颜色映射关系,{[(r1,g1,b1),(r1,g1,b1)],[(r2,g2,b2),(r2,g2,b2),...}就为一个lut查找表。根据该映射关系逐像素处理图像,例如图像坐标i,j位置的颜色为(r1,g1,b1)则根据表将该像素颜色修改为(r1,g1,b1)。[0102]在本实施例中,在设备获取待处理的扫描文档图像之后,为提高处理速度减少处理时间,还执行:[0103]将待处理的扫描文档图像按照预设比例缩小;[0104]在提取到图像背景信息之后,将背景图像按照预设比例的倒数放大至原始图像尺寸。例如,原始图像尺寸为2048x3072;缩小四分之一,则图像尺寸为512x768;利用提出的金字塔算法提取图像背景信息;获得的图像背景信息尺寸为512x768,利用双线性插值或双三次b样条差值放大至2048x3072,得到与原始图像尺寸一致的对应的背景信息。[0105]在实际应用中,本实施例是利用多级增强策略获取鲁棒的图像背景信息;这一步是为了快速消除图像中的光照不均匀、模糊等影响因素。[0106]本实施例结合多级金字塔算法、滤波器进行图像背景的提取,具体方法如下:[0107]使用多级金字塔算法逐层向下采样,对每一层的数据使用滤波操作进行图像背景的提取,并在上采样的数据融合过程中,也可以使用滤波操作进行层间的滤波,从而进一步提升图像背景提取算法的鲁棒性。[0108]其中,逐层向下采样也可以使用多种不同的算法,例如:直接删除偶数行和偶数列、最近邻插值(nearestinterpolation)、双线性插值(bilinearinterpolation)、双立方插值(bicubicinterpolation)、面积关系差值(areainterpolation)等等。[0109]每一层可以使用的滤波操作包括中值滤波、均值滤波、高斯滤波、双边滤波、非局部均值滤波等等。[0110]另外,本实施例的上采样可以使用的算法有最近邻插值(nearestinterpolation)、双线性插值(bilinearinterpolation)、双立方插值(bicubicinterpolation)等。[0111]上采样后的层间滤波可以使用包括中值滤波、均值滤波、奇异值分解等在内的一维去噪操作。[0112]可见,上述操作具有较高的鲁棒性,因为它采用了较大的感受野来估计每个像素点的背景值,这样可以在一个较大的邻域内抑制噪声和降低误检的风险。感受野是指一个像素点在输入图像中对应的区域大小,较大的感受野意味着更多的上下文信息和更好的平滑效果。同时本实施例提供的方法具有相对较低的计算量可以实现快速提取背景信息。[0113]在本实施例中,具体的感受野大小和计算量计算如下:[0114]假设该原始的扫描文档图像尺寸为2048*2048的灰度图像(若使用彩色图像则计算量为对应的3倍),使用四层金字塔,每层都使用3*3的高斯核进行滤波,并且为了进一步降低计算量,每次下采样时直接去除偶数行和偶数列,因此除最后一行以外均可跳过偶数行和偶数列位置的特征值计算,则相关的层计算量和感受野的关系如下:[0115]第一层:当前层计算量为1024*1024*3*3,每个点对应的原始图像感受野为3*3;[0116]第二层:当前层计算量为512*512*3*3,每个点对应的原始图像感受野为7*7;[0117]第三层:当前层计算量为256*256*3*3,每个点对应的原始图像感受野为15*15;[0118]第四层:当前层计算量为256*256*3*3,每个点对应的原始图像感受野为31*31;[0119]放大至原图尺寸后的层间融合的计算量为2048*2048*4;[0120]总计算量为上述每一步的计算量之和,约为2.98e+7。[0121]若不使用多层金字塔技术,对原始图像进行感受野为31*31的滤波操作,则对应的计算量为2048*2048*31*31≈4.03e+9,计算量为本方案的135倍。并且本实施例此处只描述了4层金字塔的情况,随着金字塔的层数增加,对应的计算量的差异会进一步拉大,而多层金字塔只需少量的计算量增加就可以获得更加鲁棒稳健的背景信息。同时,多层金字塔技术可以有效地提高鲁棒性和稳健性,因为它可以利用不同尺度的信息来消除噪声和异常值的影响,得到更加准确和平滑的背景信息。[0122]由此可见,本实施例提出一种鲁棒且高效的扫描文档图像增强的方法,通过利用多级增强策略来综合改善图像质量,一方面提高了鲁棒性和稳健性,因为它可以利用不同尺度的信息来消除噪声和异常值的影响得到更加准确和平滑的背景信息,另一方面仅需要较低的计算量可以大幅提高感受野的范围,因此该方法可以高效且鲁棒地处理不同类型和场景的文档图像,包括彩色、灰度、单色等不同模式的图像,以及歪斜、阴影等不同退化情况的文档图像,去除背景杂质,增强文字效果提高文档图像可读性,并且无需参数调整,降低使用难度。[0123]另外,本实施例所提出的方法也可以作为智能文档图像处理方法的预处理步骤,提高文档图像智能处理的效果,例如提高光学字符识别的准确性、提高结构化智能理解的能力等等。[0124]一种获取增强文档图像的装置实施例[0125]如图2所示,一种获取增强文档图像的装置,包括:[0126]存储器,用于存放图像数据以及可被处理器运行的指令。其中,存储器可以是随机存取存储器(ram)、只读存储器(rom)或者外部存储设备,如硬盘、闪存等。[0127]处理器,用于处理数据、运行指令和执行操作。其中,处理器为本地处理器;本地处理器可以是中央处理单元(cpu)、图形处理单元(gpu)、微控制单元(mcu)或者专用集成电路(asic)。[0128]图像采集设备,用于获取待处理的扫描文档图像集。其中,图像采集设备可以是扫描仪、数码相机、手机摄像头等,它们可以将实物文档转换为数字图像,并传输给存储器或者处理器。[0129]图像输出设备,用于显示或打印处理后的扫描文档图像。其中,图像输出设备可以是显示屏、投影仪、打印机等,它们可以将数字图像还原为可视化的形式,并呈现给用户。[0130]终端,该终端可以是智能手机、平板电脑等具有标准操作系统的便携设备。[0131]由此可见,本实施例可以通过利用多级多次增强策略来综合改善图像质量,提高扫描文档的清晰度,去除背景杂质,增强文字效果,提高文档图像的可读性。并且所提出的算法具有较低的计算复杂性,可以快捷方便的部署于常见便携设备上,例如手机、智能手表等,用户可以仅凭借一台设备快速扫描一本书或其他文档。同时,因为该算法具有较好的鲁棒性,也可以用于扩充数据集的规模和多样性,用以提高针对类似内容的深度学习图像处理模型的泛化能力和鲁棒性。[0132]以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。[0133]上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。当前第1页12当前第1页12
技术特征:
1.一种鲁棒且高效的扫描文档图像增强方法,其特征在于,包括以下步骤:获取待处理的扫描文档图像;使用多级金字塔算法对所述扫描文档图像逐层向下采样,对每一层的数据使用滤波操作进行图像背景信息的提取;基于获取的图像背景信息对所述扫描文档图像进行增强;对增强后的扫描文档图像进行进一步的图像对比度增强,生成文档增强图像。2.根据权利要求1所述的方法,其特征在于:使用多级金字塔算算法获取图像背景信息时,先逐层下采样,即对当前层输入图像进行低通滤波后抽取偶数列和偶数行的像素,以产生分辨率为输入图像尺寸一半的图像作为当前层输出以及下一层金字塔的输入;在对所述扫描文档图像进行上采样的数据融合过程中,先通过双线性插值或双三次b样条差值在每一层的图像中插入新的像素,使得每一层的输出图像分辨率与原始输入图像的输入图像尺寸一致,然后对所有层的输出图像使用滤波操作进行层间滤波获得图像背景信息。3.根据权利要求1所述的方法,其特征在于:使用多级金字塔算法对所述扫描文档图像逐层向下采样之前,根据扫描文档图像的尺度大小进行金字塔层数的计算:获取图像的宽width和高height;取图像的宽和高中的较大值进行后续的计算;将该值除以32;求log2;向上取整作为最终的金字塔层数;可以表示为公式(1):4.根据权利要求1所述的方法,其特征在于,所述基于获取的图像背景信息对所述扫描文档图像进行增强,包括:使用划分模式对原始的扫描文档图像和背景图像进行运算,得到增强后的扫描文档图像;其中,划分模式是根据基色和混合色之间的比例关系来计算结果色进行调整的,表示为公式(21):结果色=clip(基色/混合色
×
255,0,255(21)其中,基色为原始的扫描文档图像上的每一个像素值,混合色为背景图像上的每一个像素值,clip表示对计算结果进行截断。5.根据权利要求1所述的方法,其特征在于,所述基于获取的图像背景信息对所述扫描文档图像进行增强,包括:使用补偿模式对原始的扫描文档图像和背景图像进行计算;其中,通过计算背景图像与文档的背景颜色之间的差异,将差异结果叠加到原始图像上,从而实现背景的增白,表示为公式(22):增强图像=clip(原始图像+(255-背景图像),0,255) (22)对补偿模式得到的增强图像进行一次归一化操作,表示为公式(23):
增强图像
′
=clip((增强图像-min(增强图像))/(255-min增强图像)
×
255,0,255)(23)。6.根据权利要求1所述的方法,其特征在于,所述对增强后的扫描文档图像进行进一步的图像对比度的增强,执行非线性灰度变换以增强其空间对比度,包括:使用伽玛校正对增强后的扫描文档图像进行对比度调整,表示为公式(31):增强图像像素=原始图像像素/255)
gamma
×
255(31)。7.根据权利要求1所述的方法,其特征在于:使用基于自动生成的颜色查找表对增强后的扫描文档图像进行进一步的图像对比度的增强,包括:利用大津法或分位数法计算阈值t;利用阈值t计算颜色查找表lut;根据颜色查找表lut对增强后的扫描文档图像进行颜色映射,完成增强。8.根据权利要求7所述的方法,其特征在于,所述利用阈值t计算颜色查找表lut,表示为公式(32):9.根据权利要求1至8任一项所述的方法,其特征在于,在获取待处理的扫描文档图像之后,为提高处理速度,还可以执行:将待处理的扫描文档图像按照预设比例缩小进行图像背景信息的提取;在提取到图像背景信息之后,按照预设比例的倒数将背景图像放大至原始图像尺寸。10.一种获取增强文档图像的装置,其特征在于,包括:存储器,用于存放图像数据以及可被处理器运行的指令;处理器,用于处理数据、运行指令和执行操作;图像采集设备,用于获取待处理的扫描文档图像集;图像输出设备,用于显示或打印处理后的扫描文档图像。
技术总结
本发明提供一种鲁棒且高效的扫描文档图像增强方法及其装置,该方法包括获取待处理的扫描文档图像;使用多级金字塔算法对所述扫描文档图像逐层向下采样,对每一层的数据使用滤波操作进行图像背景信息的提取;基于获取的图像背景信息对所述扫描文档图像进行增强;对增强后的扫描文档图像进行进一步的图像对比度增强,生成文档增强图像。应用本发明可以适应各种来源和内容的文档图像,并且能够提高图像的清晰度、对比度,从而使扫描文档图像更接近原始文档的图像质量。原始文档的图像质量。原始文档的图像质量。
技术研发人员:请求不公布姓名
受保护的技术使用者:珠海移科智能科技有限公司
技术研发日:2023.05.25
技术公布日:2023/9/20
技术领域:
:,具体涉及一种鲁棒且高效的扫描文档图像增强方法以及应用该方法的装置。
背景技术:
::2.随着数字化学习和办公的普及,越来越多的人们需要将纸质文档或投影文档转换成数字文档。然而,由于扫描过程中可能会受到光照、纸张颜色和纹理等多种因素的影响,扫描得到的文档图像往往存在一些问题,例如模糊、失真、对比度不足等。为了解决这些问题,扫描文档图像增强技术应运而生。3.扫描文档图像增强技术是指通过对扫描得到的文档图像进行后处理,提高扫描文档图像的清晰度、对比度,期望文档图像尽可能的接近原始文档的图像质量。目前已有多种文档图像增强技术被广泛应用,包括基于灰度变换的方法、直方图均衡化的方法、基于自适应滤波器的方法等,这些方法在一定程度上能够改善文档图像的质量,但在实际应用中,由于文档的类型、字体粗细、纹理、扫描环境光源等因素的影响,这些方法往往难以适应多种场景。4.目前的文档图像增强技术虽然能够改善扫描文档图像的质量,但仍存在一些局限性和缺陷:5.首先,目前的扫描文档图像通常涉及多种技术和方法,例如灰度变换、直方图均衡化、边缘检测、形态学操作、二值化、去噪等等,不同的技术和方法有各自的优缺点和适用范围,往往需要根据每张被处理图像的特征和需求进行选择组合,这增加了处理复杂度和难度。其次,这些方法通常针对特定类型或场景的文档图像,难以适应不同来源和内容的文档图像,这使得扫描文档图像增强技术的普适性受到限制。此外这些方法也存在一些局限性和缺陷,例如,效果不稳定、可能错误保留阴影、参数调节复杂等等。6.另外,大多数现有的文档图像质量增强方法都是基于各种特征值的全局或局部的对比度调节技术,包括二值化处理,往往全局对比度调节技术不能消除阴影区域的低对比度问题,而局部对比度调节技术可能导致粗体字出现空洞或颜色不均匀的问题。技术实现要素:7.为了克服现有技术的不足,本发明针对以上适应场景少,处理复杂和难度大,效果不稳定等问题,提供一种既能够保证增强效果,又能够保证处理速度的鲁棒且高效的扫描文档图像增强方法及其装置,用来适应各种来源和内容的文档图像,并且能够提高图像的清晰度、对比度,从而使扫描文档图像更接近原始文档的图像质量。8.为解决上述问题,本发明所采用的技术方案如下:9.一种鲁棒且高效的扫描文档图像增强方法,包括以下步骤:10.获取待处理的扫描文档图像;11.使用多级金字塔算法对所述扫描文档图像逐层向下采样,对每一层的数据使用滤波操作进行图像背景信息的提取;12.基于获取的图像背景信息对所述扫描文档图像进行增强;13.对增强后的扫描文档图像进行进一步的图像对比度的增强,生成文档增强图像。14.根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,使用多级金字塔算算法获取图像背景信息时,先逐层下采样,即对当前层输入图像进行低通滤波后抽取偶数列和偶数行的像素,以产生分辨率为输入图像尺寸一半的图像作为当前层输出以及下一层金字塔的输入;在对所述扫描文档图像进行上采样的数据融合过程中,先通过双线性插值或双三次b样条差值在每一层的图像中插入新的像素,使得每一层的输出图像分辨率与原始输入图像的输入图像尺寸一致,然后对所有层的输出图像使用滤波操作进行层间滤波获得图像背景信息。15.根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,使用多级金字塔算法对所述扫描文档图像逐层向下采样之前,根据扫描文档图像的尺度大小进行金字塔层数的计算:16.获取图像的宽width和高height;17.取图像的宽和高中的较大值进行后续的计算;18.将该值除以32;19.求log2;20.向上取整作为最终的金字塔层数;21.可以表示为公式(1):[0022][0023]根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,所述基于获取的图像背景信息对所述扫描文档图像进行增强,包括:[0024]使用划分模式对原始的扫描文档图像和背景图像进行运算,得到增强后的扫描文档图像;其中,划分模式是根据基色和混合色之间的比例关系来计算结果色进行调整的,表示为公式(21):[0025]结果色=clip(基色/混合色×255,0,255(21)[0026]其中,基色为原始的扫描文档图像上的每一个像素值,混合色为背景图像上的每一个像素值,clip表示对计算结果进行截断。[0027]根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,所述基于获取的图像背景信息对所述扫描文档图像进行增强,包括:[0028]使用补偿模式对原始的扫描文档图像和背景图像进行计算;其中,通过计算背景图像与文档的背景颜色之间的差异,将差异结果叠加到原始图像上,从而实现背景的增白,表示为公式(22):[0029]增强图像=clip(原始图像+(255-背景图像),0,255)(22)[0030]对补偿模式得到的增强图像进行一次归一化操作,表示为公式(23):[0031]增强图像′=[0032]clip((增强图像-min(增强图像))/(255-min(增强图像))×255,0,255)(23)。[0033]根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,所述对增强后的扫描文档图像进行进一步的图像对比度的增强,执行非线性灰度变换以增强其空间对比度,包括:[0034]使用伽玛校正对增强后的扫描文档图像进行对比度调整,表示为公式(31):[0035]增强图像像素=(原始图像像素/255)gamma×255(31)。[0036]根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,使用基于自动生成的颜色查找表对增强后的扫描文档图像进行进一步的图像对比度的增强,包括:[0037]利用大津法或分位数法计算阈值t;[0038]利用阈值t计算颜色查找表lut;[0039]根据颜色查找表lut对增强后的扫描文档图像进行颜色映射,完成增强。根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,所述利用阈值t计算颜色查找表lut,表示为公式(32):[0040][0041]根据本发明提供的一种鲁棒且高效的扫描文档图像增强方法,在设备获取待处理的扫描文档图像之后,为提高处理速度减少处理时间,还执行:[0042]将待处理的扫描文档图像按照预设比例缩小进行图像背景信息的提取;[0043]在提取到图像背景信息之后,将背景图像按照预设比例的倒数放大至原始图像尺寸。[0044]一种获取增强文档图像的装置,包括:[0045]存储器,用于存放图像数据以及可被处理器运行的指令;[0046]处理器,用于处理数据、运行指令和执行操作;[0047]图像采集设备,用于获取待处理的扫描文档图像集;[0048]图像输出设备,用于显示或打印处理后的扫描文档图像。[0049]由此可见,相比现有技术,本发明提出一种鲁棒且高效的扫描文档图像增强的方法,通过利用多级增强策略来综合改善图像质量,一方面提高了鲁棒性和稳健性,因为它可以利用不同尺度的信息来消除噪声和异常值的影响得到更加准确和平滑的背景信息,另一方面仅需要较低的计算量可以大幅提高感受野的范围,因此该方法可以高效且鲁棒地处理不同类型和场景的文档图像,包括彩色、灰度、单色等不同模式的图像,以及歪斜、阴影等不同退化情况的文档图像,去除背景杂质,增强文字效果提高文档图像可读性,并且无需参数调整,降低使用难度。[0050]下面结合附图和具体实施方式对本发明作进一步详细说明。附图说明[0051]图1是本发明一种鲁棒且高效的扫描文档图像增强方法实施例的流程图。[0052]图2是本发明一种获取增强文档图像的装置实施例的原理图。具体实施方式[0053]为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0054]参见图1,本实施例提供的一种鲁棒且高效的扫描文档图像增强方法,包括以下步骤:[0055]步骤s1,获取待处理的扫描文档图像,包括从本地存储器读取图像,或者从图像采集设备例如摄像头获取图像,从而获得需要增强的原始图像。[0056]步骤s2,使用多级金字塔算法对所述扫描文档图像逐层向下采样,对每一层的数据使用滤波操作进行图像背景信息的提取,并在上采样的过程中融合每一层的图像背景信息得到融合的背景信息。[0057]步骤s3,基于获取的图像背景信息对所述扫描文档图像进行增强。[0058]步骤s4,对增强后的扫描文档图像进行进一步的图像对比度的增强,生成文档增强图像。[0059]在本实施例中,使用多级金字塔算算法获取图像背景信息时,先逐层下采样,即对当前层输入图像进行低通滤波后抽取偶数列和偶数行的像素,以产生分辨率为输入图像尺寸一半的图像作为当前层输出以及下一层金字塔的输入;在对所述扫描文档图像进行上采样的数据融合过程中,先通过双线性插值或双三次b样条差值在每一层的图像中插入新的像素,使得每一层的输出图像分辨率与原始输入图像的输入图像尺寸一致,然后对所有层的输出图像使用滤波操作进行层间滤波获得图像背景信息。[0060]在上述步骤s2中,使用多级金字塔算法对所述扫描文档图像逐层向下采样之前,根据扫描文档图像的尺度大小进行金字塔层数的计算:[0061]获取图像的宽width和高height;[0062]取图像的宽和高中的较大值进行后续的计算;[0063]将该值除以32;[0064]求log2;[0065]向上取整作为最终的金字塔层数,可以表示为公式(1):[0066][0067]可见,在使用过程中通常根据图像的尺度大小进行金字塔层数的计算,比如利用上述公式(1)进行计算。另外,为了提高下采样的速度,可以先对输入图像进行缩放,令长宽都为2的幂,获得估计背景后将背景缩放回原图尺寸进行后续处理。[0068]具体的,在上述公式(1)中,先取图像的尺寸长和宽中较大的值,然后将该值除以32,再对该结果求log2,最后向上取整。具体目的为:计算最少通过几次下采样(每次下采样后尺寸缩小为原尺寸的1/2)以后,图像的宽和高均小于32,用以控制金字塔最顶层数据的尺寸。[0069]在上述步骤s2中,使用多级金字塔算算法获取图像背景信息时,先逐层下采样,即对当前层输入图像进行低通滤波后抽取偶数列和偶数行的像素,以产生分辨率为输入图像尺寸一半的图像作为当前层输出以及下一层金字塔的输入;在对所述扫描文档图像进行上采样的数据融合过程中,先通过双线性插值或双三次b样条差值在每一层的图像中插入新的像素,使得每一层的输出图像分辨率与原始输入图像的输入图像尺寸一致,然后对所有层的输出图像使用滤波操作进行层间滤波获得图像背景信息。[0070]在上述步骤s3中,基于获取的图像背景信息对所述扫描文档图像进行增强,可以包括:[0071]使用划分模式对原始的扫描文档图像和背景图像进行运算,得到增强后的扫描文档图像;其中,划分模式是根据基色和混合色之间的比例关系来计算结果色进行调整的,使得暗色变得更暗,亮色变得更亮,具体表示为公式(21):[0072]结果色=clip(基色/混合色×255,0,255)ꢀꢀ(21)[0073]其中,基色为原始的扫描文档图像上的每一个像素值,混合色为背景图像上的每一个像素值,clip表示对计算结果进行截断。[0074]当然,这一步也可以使用补偿模式对原始图片和背景图片进行计算,如在上述步骤s3中,基于获取的图像背景信息对所述扫描文档图像进行增强,还可以包括:[0075]使用补偿模式对原始的扫描文档图像和背景图像进行计算;其中,通常文档的背景为白色,通过计算背景图像与文档的背景颜色之间的差异,将差异结果叠加到原始图像上,从而实现背景的增白,表示为公式(22):[0076]增强图像=clip(原始图像+(255-背景图像),0,255)(22)[0077]但是使用补偿模式得到的增强图像通常会亮度过高,因此可以对补偿模式得到的增强图像进行一次归一化操作,表示为公式(23):[0078]增强图像′=[0079]clip((增强图像-min(增强图像))/(255-min(增强图像))×255,0,255)(23)。[0080]在上述步骤s4中,对增强后的扫描文档图像进行进一步的图像对比度的增强,执行非线性灰度变换以增强其空间对比度,这一步是为了消除增强后图片中可能存在的噪声或残留底纹等影响因素,提升图片质量和可读性。该步骤具体可以包括:[0081]使用伽玛校正对增强后的扫描文档图像进行对比度调整,使得图片更加明亮和饱满,表示为公式(31):[0082]增强图像像素=(原始图像像素/255)gamma×255(31)。[0083]由于对于文档图像通常期望黑色文字更黑,白色背景更白,通常使用伽玛校正时的系数都设置为大于1的数,也可以使用基于平均亮度计算的自动伽玛系数。[0084]或者,在上述步骤s4中,在进一步增强图像对比度时还可以使用基于自动生成的颜色查找表映射(autolookuptablemap),对增强后的扫描文档图像进行进一步的图像对比度的增强,其中,自动生成颜色查找表可以使用基于大津法(otsualgorithm)或者分位数法的自动生成方法,具体方法包括如下:[0085]利用大津法或分位数法计算阈值t;[0086]利用阈值t计算颜色查找表lut,表示为公式(32):[0087][0088]根据颜色查找表lut对增强后的扫描文档图像进行颜色映射,完成增强。[0089]在自动生成颜色查找表时,也可以考虑结合伽玛计算、对数计算、平方计算、开平方计算等方式生成符合需求的颜色查找表。[0090]上述利用大津法或分位数法计算阈值t具体包括:[0091](1)大津法(otsu)是一种广泛应用的图像二值化分割阈值的算法,根据选取的阈值将图像分为两个部分,计算对应的最大类间方差对应的阈值作为最佳阈值,具体方法如下:[0092]统计图像中每个灰度级的像素个数,得到一个直方图。[0093]遍历所有可能的灰度级作为阈值,将图像分为两部分,目标和背景。[0094]计算每个部分的像素占比和平均灰度值,以及图像的全局平均灰度值。[0095]根据公式,计算每个阈值对应的类间方差,也就是目标和背景之间的差异程度。[0096]选择使类间方差最大的阈值作为最佳阈值。[0097](2)分位数法是一种个根据数据的分布情况来确定阈值的方法,具体方法如下:[0098]统计图像中每个灰度级的像素个数,得到一个直方图。[0099]选择合适的分位数法,例如四分位数法。[0100]根据分位数法计算出阈值,例如四分位数法找到分布直方图的第一四分位数和第三四分位数,计算平均值,作为最佳阈值。[0101]在进行颜色映射时,lut查找表中有相应的输入颜色值和输出颜色值,例如[(r,g,b),(r,g,b)]就为一组颜色映射关系,{[(r1,g1,b1),(r1,g1,b1)],[(r2,g2,b2),(r2,g2,b2),...}就为一个lut查找表。根据该映射关系逐像素处理图像,例如图像坐标i,j位置的颜色为(r1,g1,b1)则根据表将该像素颜色修改为(r1,g1,b1)。[0102]在本实施例中,在设备获取待处理的扫描文档图像之后,为提高处理速度减少处理时间,还执行:[0103]将待处理的扫描文档图像按照预设比例缩小;[0104]在提取到图像背景信息之后,将背景图像按照预设比例的倒数放大至原始图像尺寸。例如,原始图像尺寸为2048x3072;缩小四分之一,则图像尺寸为512x768;利用提出的金字塔算法提取图像背景信息;获得的图像背景信息尺寸为512x768,利用双线性插值或双三次b样条差值放大至2048x3072,得到与原始图像尺寸一致的对应的背景信息。[0105]在实际应用中,本实施例是利用多级增强策略获取鲁棒的图像背景信息;这一步是为了快速消除图像中的光照不均匀、模糊等影响因素。[0106]本实施例结合多级金字塔算法、滤波器进行图像背景的提取,具体方法如下:[0107]使用多级金字塔算法逐层向下采样,对每一层的数据使用滤波操作进行图像背景的提取,并在上采样的数据融合过程中,也可以使用滤波操作进行层间的滤波,从而进一步提升图像背景提取算法的鲁棒性。[0108]其中,逐层向下采样也可以使用多种不同的算法,例如:直接删除偶数行和偶数列、最近邻插值(nearestinterpolation)、双线性插值(bilinearinterpolation)、双立方插值(bicubicinterpolation)、面积关系差值(areainterpolation)等等。[0109]每一层可以使用的滤波操作包括中值滤波、均值滤波、高斯滤波、双边滤波、非局部均值滤波等等。[0110]另外,本实施例的上采样可以使用的算法有最近邻插值(nearestinterpolation)、双线性插值(bilinearinterpolation)、双立方插值(bicubicinterpolation)等。[0111]上采样后的层间滤波可以使用包括中值滤波、均值滤波、奇异值分解等在内的一维去噪操作。[0112]可见,上述操作具有较高的鲁棒性,因为它采用了较大的感受野来估计每个像素点的背景值,这样可以在一个较大的邻域内抑制噪声和降低误检的风险。感受野是指一个像素点在输入图像中对应的区域大小,较大的感受野意味着更多的上下文信息和更好的平滑效果。同时本实施例提供的方法具有相对较低的计算量可以实现快速提取背景信息。[0113]在本实施例中,具体的感受野大小和计算量计算如下:[0114]假设该原始的扫描文档图像尺寸为2048*2048的灰度图像(若使用彩色图像则计算量为对应的3倍),使用四层金字塔,每层都使用3*3的高斯核进行滤波,并且为了进一步降低计算量,每次下采样时直接去除偶数行和偶数列,因此除最后一行以外均可跳过偶数行和偶数列位置的特征值计算,则相关的层计算量和感受野的关系如下:[0115]第一层:当前层计算量为1024*1024*3*3,每个点对应的原始图像感受野为3*3;[0116]第二层:当前层计算量为512*512*3*3,每个点对应的原始图像感受野为7*7;[0117]第三层:当前层计算量为256*256*3*3,每个点对应的原始图像感受野为15*15;[0118]第四层:当前层计算量为256*256*3*3,每个点对应的原始图像感受野为31*31;[0119]放大至原图尺寸后的层间融合的计算量为2048*2048*4;[0120]总计算量为上述每一步的计算量之和,约为2.98e+7。[0121]若不使用多层金字塔技术,对原始图像进行感受野为31*31的滤波操作,则对应的计算量为2048*2048*31*31≈4.03e+9,计算量为本方案的135倍。并且本实施例此处只描述了4层金字塔的情况,随着金字塔的层数增加,对应的计算量的差异会进一步拉大,而多层金字塔只需少量的计算量增加就可以获得更加鲁棒稳健的背景信息。同时,多层金字塔技术可以有效地提高鲁棒性和稳健性,因为它可以利用不同尺度的信息来消除噪声和异常值的影响,得到更加准确和平滑的背景信息。[0122]由此可见,本实施例提出一种鲁棒且高效的扫描文档图像增强的方法,通过利用多级增强策略来综合改善图像质量,一方面提高了鲁棒性和稳健性,因为它可以利用不同尺度的信息来消除噪声和异常值的影响得到更加准确和平滑的背景信息,另一方面仅需要较低的计算量可以大幅提高感受野的范围,因此该方法可以高效且鲁棒地处理不同类型和场景的文档图像,包括彩色、灰度、单色等不同模式的图像,以及歪斜、阴影等不同退化情况的文档图像,去除背景杂质,增强文字效果提高文档图像可读性,并且无需参数调整,降低使用难度。[0123]另外,本实施例所提出的方法也可以作为智能文档图像处理方法的预处理步骤,提高文档图像智能处理的效果,例如提高光学字符识别的准确性、提高结构化智能理解的能力等等。[0124]一种获取增强文档图像的装置实施例[0125]如图2所示,一种获取增强文档图像的装置,包括:[0126]存储器,用于存放图像数据以及可被处理器运行的指令。其中,存储器可以是随机存取存储器(ram)、只读存储器(rom)或者外部存储设备,如硬盘、闪存等。[0127]处理器,用于处理数据、运行指令和执行操作。其中,处理器为本地处理器;本地处理器可以是中央处理单元(cpu)、图形处理单元(gpu)、微控制单元(mcu)或者专用集成电路(asic)。[0128]图像采集设备,用于获取待处理的扫描文档图像集。其中,图像采集设备可以是扫描仪、数码相机、手机摄像头等,它们可以将实物文档转换为数字图像,并传输给存储器或者处理器。[0129]图像输出设备,用于显示或打印处理后的扫描文档图像。其中,图像输出设备可以是显示屏、投影仪、打印机等,它们可以将数字图像还原为可视化的形式,并呈现给用户。[0130]终端,该终端可以是智能手机、平板电脑等具有标准操作系统的便携设备。[0131]由此可见,本实施例可以通过利用多级多次增强策略来综合改善图像质量,提高扫描文档的清晰度,去除背景杂质,增强文字效果,提高文档图像的可读性。并且所提出的算法具有较低的计算复杂性,可以快捷方便的部署于常见便携设备上,例如手机、智能手表等,用户可以仅凭借一台设备快速扫描一本书或其他文档。同时,因为该算法具有较好的鲁棒性,也可以用于扩充数据集的规模和多样性,用以提高针对类似内容的深度学习图像处理模型的泛化能力和鲁棒性。[0132]以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。[0133]上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。当前第1页12当前第1页12
技术特征:
1.一种鲁棒且高效的扫描文档图像增强方法,其特征在于,包括以下步骤:获取待处理的扫描文档图像;使用多级金字塔算法对所述扫描文档图像逐层向下采样,对每一层的数据使用滤波操作进行图像背景信息的提取;基于获取的图像背景信息对所述扫描文档图像进行增强;对增强后的扫描文档图像进行进一步的图像对比度增强,生成文档增强图像。2.根据权利要求1所述的方法,其特征在于:使用多级金字塔算算法获取图像背景信息时,先逐层下采样,即对当前层输入图像进行低通滤波后抽取偶数列和偶数行的像素,以产生分辨率为输入图像尺寸一半的图像作为当前层输出以及下一层金字塔的输入;在对所述扫描文档图像进行上采样的数据融合过程中,先通过双线性插值或双三次b样条差值在每一层的图像中插入新的像素,使得每一层的输出图像分辨率与原始输入图像的输入图像尺寸一致,然后对所有层的输出图像使用滤波操作进行层间滤波获得图像背景信息。3.根据权利要求1所述的方法,其特征在于:使用多级金字塔算法对所述扫描文档图像逐层向下采样之前,根据扫描文档图像的尺度大小进行金字塔层数的计算:获取图像的宽width和高height;取图像的宽和高中的较大值进行后续的计算;将该值除以32;求log2;向上取整作为最终的金字塔层数;可以表示为公式(1):4.根据权利要求1所述的方法,其特征在于,所述基于获取的图像背景信息对所述扫描文档图像进行增强,包括:使用划分模式对原始的扫描文档图像和背景图像进行运算,得到增强后的扫描文档图像;其中,划分模式是根据基色和混合色之间的比例关系来计算结果色进行调整的,表示为公式(21):结果色=clip(基色/混合色
×
255,0,255(21)其中,基色为原始的扫描文档图像上的每一个像素值,混合色为背景图像上的每一个像素值,clip表示对计算结果进行截断。5.根据权利要求1所述的方法,其特征在于,所述基于获取的图像背景信息对所述扫描文档图像进行增强,包括:使用补偿模式对原始的扫描文档图像和背景图像进行计算;其中,通过计算背景图像与文档的背景颜色之间的差异,将差异结果叠加到原始图像上,从而实现背景的增白,表示为公式(22):增强图像=clip(原始图像+(255-背景图像),0,255) (22)对补偿模式得到的增强图像进行一次归一化操作,表示为公式(23):
增强图像
′
=clip((增强图像-min(增强图像))/(255-min增强图像)
×
255,0,255)(23)。6.根据权利要求1所述的方法,其特征在于,所述对增强后的扫描文档图像进行进一步的图像对比度的增强,执行非线性灰度变换以增强其空间对比度,包括:使用伽玛校正对增强后的扫描文档图像进行对比度调整,表示为公式(31):增强图像像素=原始图像像素/255)
gamma
×
255(31)。7.根据权利要求1所述的方法,其特征在于:使用基于自动生成的颜色查找表对增强后的扫描文档图像进行进一步的图像对比度的增强,包括:利用大津法或分位数法计算阈值t;利用阈值t计算颜色查找表lut;根据颜色查找表lut对增强后的扫描文档图像进行颜色映射,完成增强。8.根据权利要求7所述的方法,其特征在于,所述利用阈值t计算颜色查找表lut,表示为公式(32):9.根据权利要求1至8任一项所述的方法,其特征在于,在获取待处理的扫描文档图像之后,为提高处理速度,还可以执行:将待处理的扫描文档图像按照预设比例缩小进行图像背景信息的提取;在提取到图像背景信息之后,按照预设比例的倒数将背景图像放大至原始图像尺寸。10.一种获取增强文档图像的装置,其特征在于,包括:存储器,用于存放图像数据以及可被处理器运行的指令;处理器,用于处理数据、运行指令和执行操作;图像采集设备,用于获取待处理的扫描文档图像集;图像输出设备,用于显示或打印处理后的扫描文档图像。
技术总结
本发明提供一种鲁棒且高效的扫描文档图像增强方法及其装置,该方法包括获取待处理的扫描文档图像;使用多级金字塔算法对所述扫描文档图像逐层向下采样,对每一层的数据使用滤波操作进行图像背景信息的提取;基于获取的图像背景信息对所述扫描文档图像进行增强;对增强后的扫描文档图像进行进一步的图像对比度增强,生成文档增强图像。应用本发明可以适应各种来源和内容的文档图像,并且能够提高图像的清晰度、对比度,从而使扫描文档图像更接近原始文档的图像质量。原始文档的图像质量。原始文档的图像质量。
技术研发人员:请求不公布姓名
受保护的技术使用者:珠海移科智能科技有限公司
技术研发日:2023.05.25
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/