扫描件要素合规性校验方法及系统、电子设备及存储介质与流程
未命名
09-22
阅读:95
评论:0
1.本技术涉及交易处理领域,具体而言,涉及一种扫描件要素合规性校验方法及系统、电子设备及存储介质。
背景技术:
2.为了提高企业合同管理的规范化程度,许多企业在合同审计过程中需要检查关键要素,例如合同盖章、合同签字和签字日期等。目前,这些要素通常需要通过人工方式进行检查,例如翻阅纸质合同或扫描件来确认合同是否被盖章、签字(或签章)和签字日期的正确性。然而,当面对大量的合同时,这种人工方式非常耗费时间和精力,效率也很低下。
3.在所述背景技术部分公开的上述信息仅用于加强对本技术的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
4.为了解决上述问题,本技术提出一种扫描件要素合规性校验方法及系统、电子设备及存储介质。
5.根据本技术的第一方面,提出一种扫描件要素合规性校验方法,包括:确定扫描件的检测页面;获取所述检测页面中的第一关键词,以所述第一关键词为基准确定所述检测页面的检测区域;从所述检测区域中提取要素并确定要素的位置坐标;根据所述要素的位置坐标确定所述要素的归属方;根据所述要素和所述要素的归属方,输出合规性校验结果。
6.根据本技术的第二方面,提出一种扫描件要素合规性校验系统,所述要素合规性校验系统包括:检测单元,用于确定扫描件的检测页面;获取所述检测页面中的第一关键词,以所述第一关键词为基准确定所述检测页面的检测区域;要素提取单元,用于从所述检测区域中提取要素并确定要素的位置坐标;所述检测单元还用于根据所述要素的位置坐标确定所述要素的归属方;校验单元,用于根据所述要素和所述要素的归属方,输出合规性校验结果。
7.根据本技术的第三方面,提出一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行如第一方面中任一项所述的方法。
8.根据本技术的第四方面,提出一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如第一方面中任一所述的方法。
9.例如,在本技术的一些实施例中,所述确定扫描件的检测页面,包括:判断至少两个设定关键词是否共同出现于当前扫描件页面;在所述至少两个设定关键词均出现于所述当前扫描件页面的情况下,确定所述当前扫描件页面为所述检测页面。
10.例如,在本技术的一些实施例中,所述获取所述检测页面中的第一关键词,以所述第一关键词为基准确定所述检测页面的检测区域,包括:从所述至少两个设定关键词中确定所述第一关键词;以所述第一关键词为基准,沿第一方向扩展第一距离,沿第二方向扩展
第二距离;将扩展后形成的区域确定为所述检测区域。
11.例如,在本技术的一些实施例中,所述从所述检测区域中提取要素并确定要素的位置坐标,包括:从所述检测区域中截取图像,将所述图像输入检测模型,以得到所述要素和所述要素的位置坐标;其中,所述位置坐标是根据所述要素位于所述检测区域的相对位置确定的。
12.例如,在本技术的一些实施例中,所述根据所述要素的位置坐标确定所述要素的归属方,包括:根据所述要素的位置坐标与所述至少两个设定关键词中的第二关键词的相对位置确定归属方。
13.例如,在本技术的一些实施例中,所述要素包括合同盖章、签字章、签字和签字日期中的至少一个。
14.例如,在本技术的一些实施例中,所述根据所述要素和所述要素的归属方,输出合规性校验结果,包括:根据业务规则,在所述检测区域获得的要素与设定要素均匹配的情况下,确定所述要素合规;在所述检测区域获得的要素与所述设定要素不匹配的情况下,确定所缺少的要素,并输出要素不合规及不合规理由。
15.本技术提出一种扫描件要素合规性校验方法及系统、电子设备及存储介质。通过训练目标检测模型,结合实际业务合同样本进行微调训练,实现自动提取合同扫描件中的合同盖章、签字章、手写签字、手写签字日期等要素的功能。采用合同扫描件关键词的位置信息,快速定位待检测要素的检测区域,减少无效检测,提升扫描件的整体检测识别性能。结合合同扫描件的文字识别结果、文字位置坐标信息,采用要素与关键词的相对位置以及检测要素与关键词的位置距离的方案区分各要素归属方。综合运用图像目标检测、文字识别以及辅助判断规则,实现合同扫描件关键要素合规性智能校验,能够批量处理扫描件,输出校验结果,大大节省人工成本,提高企业日常合同管理检查、审核工作的效率。
16.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本技术。
附图说明
17.通过参照附图详细描述其示例实施例,本技术的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本技术的一些实施例,而不是对本技术的限制。
18.图1示出一示例性实施例的扫描件要素合规性校验方法流程示意图;
19.图2a-图2g示出示例性合同章校验的实施例;
20.图3示出一示例性实施例的扫描件要素合规性校验系统示意图;
21.图4示出本技术提供的一种电子设备的结构图。
具体实施方式
22.现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本技术将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
23.所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。
在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有这些特定细节中的一个或更多,或者可以采用其它的方式、组元、材料、装置等。在这些情况下,将不详细示出或描述公知结构、方法、装置、实现、材料或者操作。
24.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
25.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
26.本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本技术所必须的,因此不能用于限制本技术的保护范围。
27.图1示出一示例性实施例的扫描件要素合规性校验方法流程示意图。要素合规性校验方法包括步骤s101-s105。
28.在步骤s101中,确定扫描件的检测页面。
29.根据示例实施例,判断至少两个设定关键词是否共同出现于当前扫描件页面。在至少两个设定关键词均出现于当前扫描件页面的情况下,确定当前扫描件页面为检测页面。例如,一个扫描件包括多个扫描页,在当前扫描页内至少两个设定关键词均出现,则证明该页是检测页面。
30.根据一些实施例,设定关键词包括盖章、法定代表人、法定委托人、签字和签字日期等。
31.例如,获得扫描件后,通过搜索扫描件文字识别文档(optical character recognition,ocr),在扫描件的其中一页,选择框内出现设定关键词:盖章,法定代表人和法定委托人,则说明该页是扫描件的检测页面。
32.根据一些实施例,通过ocr识别合同页的设定关键词时,如“甲方”、“乙方”、“买方”、“卖方”、“供方”、“需方”等字眼,可以依据关键词坐标的相对位置,确定左右或上下布局。
33.例如,在检测时,发现“甲方”、“乙方”的纵坐标位置相同或者差距较小,横坐标位置差距较大,则说明该合同为左右布局。
34.在步骤s102中,获取检测页面中的第一关键词,以第一关键词为基准确定检测页面的检测区域。
35.根据示例实施例,在确定检测页面后,从至少两个设定关键词中确定第一关键词。以第一关键词为基准,沿第一方向扩展第一距离,沿第二方向扩展第二距离。将扩展后形成的区域确定为检测区域。
36.例如,至少两个设定关键词包括“甲方”、“法定委托人”和“乙方”,选择“乙方”为第一关键词。在当前扫描页内,确定“乙方”的位置。以“乙方”为基准,沿上下方向分别扩展7cm,沿左右方向分别扩展页面宽度。将扩展后形成的区域,确定为检测区域。如图2a所示,
该虚线框为检测区域。
37.根据一些实施例,第一方向为水平方向,第二方向为竖直方向。第一方向与第二方向垂直。且在上下扩展时不超过当前页面的上下限,左右扩展时直接选取当前页面宽度。
38.在步骤s103中,从检测区域中提取要素并确定要素的位置坐标。
39.根据示例实施例,从检测区域中截取图像,将图像输入检测模型,以得到要素类型和要素的位置坐标。其中,位置坐标是根据要素位于检测区域的相对位置确定的。
40.根据一些实施例,要素包括合同盖章、签字章、签字和签字日期中的至少一个。
41.例如,将检测区域截取图像,输入合同章与签字章检测模型,得到合同盖章、签字章检测结果,即合同盖章截图、签字章截图及对应位置坐标。如图2b所示,提取出对应的合同盖章截图,并以检测区域的左下角为坐标原点,以合同盖章的中心点确定位置坐标。
42.又如,将待检测区域截取图像,输入手写签字与手写签字日期检测模型,得到手写签字、手写签字日期检测结果,即手写签字截图、手写签字日期截图及对应位置坐标。
43.在步骤s104中,根据要素的位置坐标确定要素的归属方。
44.根据示例实施例,根据要素的位置坐标与第二关键词的相对位置确定归属方。以检测得到的合同章位置坐标与第二关键词的距离的最近原则区分合同章的甲方和乙方。
45.例如,如图2c所示,ocr识别获得两个合同章,第一合同章距离第二关键词“甲方”为d1,第二合同章距离第二关键词“甲方”为d2,d1《d2。则第一合同章为甲方的合同章,第二合同章为乙方的合同章。
46.根据一些实施例,第一关键词与第二关键词可以相同,也可以不同。
47.又如,如图2d所示,ocr识别获得两个合同章,第一合同章距离第二关键词“乙方”为d1,第二合同章距离第二关键词“乙方”为d2,d1《d2。而此时,第一合同章的位置坐标中的横坐标小于第二合同章位置坐标中的横坐标,则第一合同章为甲方的合同章,第二合同章为乙方的合同章。
48.又如,如图2e所示,ocr识别获得一个合同章,则需要检测该合同章与关键词“甲方”和“乙方”的距离。在合同章与关键词“甲方”的距离小于关键词“乙方”时,该合同章为甲方的合同章。在合同章与关键词“甲方”的距离大于关键词“乙方”时,则需要检测该合同章与关键词“乙方”的相对位置。以合同为左右布局为例,在合同章全部位于关键词“乙方”左侧时,该合同章为甲方的合同章,如图2f所示。在合同章的部分位于关键词“乙方”右侧时,该合同章为乙方的合同章,如图2g所示。
49.在步骤s105中,根据要素和要素的归属方,输出合规性校验结果。
50.根据示例实施例,根据业务规则,在检测区域获得的要素与设定要素均匹配的情况下,确定要素合规。在检测区域获得的要素与设定要素不匹配,缺少至少一个要素的情况下,确定所缺少的要素,并输出要素不合规及不合规理由。其中,设定要素是指合同应包括的要素,例如,甲方和乙方均应包括合同章和签字日期,则设定要素为甲方和乙方的合同章以及签字日期。
51.例如,根据合同三要素业务校验规则,检测合同要素中是否分别包括甲方、乙方的合同章、签字和签字日期,对上述检测识别结果进行合规性判断,综合输出校验结果。如果甲方和乙方均包括合同章、签字和签字日期,要素合规即输出合规。如果甲方缺少合同章,则判定要素不合规,输出不合规,并输出具体原因及要素截图:甲方缺少合同章及对应的截
图,如“无甲方盖章,合同无效”及对应的截图。
52.根据一些实施例,本技术的要素合规性校验方法还包括对检测模型进行训练。包括:
53.收集现有合同扫描件样本,并采集部分类似的合同扫描文件以扩充样本。同时,采集各式盖章以及手写签字、手写日期做相关图像生成。分别形成合同章与签字章检测训练样本数据和手写签字与手写日期检测训练样本数据。
54.根据一些实施例,为了防止模型的过拟合现象,以及增强模型的泛化能力从而丰富样本多样性,在使用样本时,还会对样本图片进行数据增强,包括:a)对印章、手写签字和背景图片随机组合;b)使用几何变化(平移、翻转、旋转、变形、缩放)增强;c)随机调整亮度增强;d)随机调整对比度;e)随机调整饱和度增强。
55.借用数据标注工具对训练样本数据进行目标位置标记和类别标记。例如,记录盖章和签字会出现的相对位置,以方便在后续校验时,快速选择相对位置。对不同的图章标注类别为合同章,以方便在校验时,进行快速判断。
56.在收集到样本图片后,采用直方图均衡化、中值滤波、均值滤波、高斯滤波等方法对样本图片进行预处理,以方便识别。
57.利用合同章与签字章检测训练数据集、手写签字与手写日期检测训练数据集进行训练,并将检测模型不断调优至最佳评测效果,例如识别样本准确率达到99%,则确认得到合同章与签字章检测模型、手写签字与手写签字日期检测模型。
58.本技术提出一种扫描件要素合规性校验方法,通过训练目标检测模型,结合实际业务合同样本进行微调训练,实现自动提取合同扫描件中的合同盖章、签字章、手写签字、手写签字日期等要素的功能。采用合同扫描件关键词的位置信息,快速定位待检测要素的检测区域,减少无效检测,提升扫描件的整体检测识别性能。结合合同扫描件的文字识别结果、文字位置坐标信息,采用要素与关键词的相对位置以及检测要素与关键词的位置距离的方案区分各要素归属。综合运用图像目标检测、文字识别以及辅助判断规则,实现合同扫描件关键要素合规性智能校验,能够批量处理扫描件,输出校验结果,大大节省人工成本,提高企业日常合同管理检查、审核工作的效率。
59.图3示出一示例性实施例的扫描件要素合规性校验系统示意图。
60.如图3所示,扫描件要素合规性校验系统包括检测单元10、要素提取单元20和校验单元30。
61.根据示例实施例,检测单元10用于确定扫描件的检测页面。
62.检测单元10还用于获取检测页面中的第一关键词,以第一关键词为基准确定检测页面的检测区域。
63.要素提取单元20用于从检测区域中提取要素并确定要素的位置坐标。
64.检测单元10还用于根据要素的位置坐标确定要素的归属方。
65.校验单元30用于根据要素和要素的归属方,输出合规性校验结果
66.根据示例实施例,扫描件要素合规性校验系统用于执行如上文的扫描件要素合规性校验方法,因此此处不再对扫描件要素合规性校验系统的运行方法进行赘述。
67.图4示出本技术提供的一种电子设备的结构图。
68.参阅图4,图4提供一种电子设备,包括处理器以及存储器。存储器存储有计算机指
令,当计算机指令被处理器执行时,使得处理器执行计算机指令从而实现如图1所示的方法以及细化方案。
69.应该理解,上述的装置实施例仅是示意性的,本发明披露的装置还可通过其它的方式实现。例如,上述实施例中单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,多个单元、模块或组件可以结合,或者可以集成到另一个系统,或一些特征可以忽略或不执行。
70.另外,若无特别说明,在本发明各个实施例中的各功能单元/模块可以集成在一个单元/模块中,也可以是各个单元/模块单独物理存在,也可以两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
71.集成的单元/模块如果以硬件的形式实现时,该硬件可以是数字电路,模拟电路等等。硬件结构的物理实现包括但不局限于晶体管,忆阻器等等。若无特别说明,处理器或芯片可以是任何适当的硬件处理器,比如cpu、gpu、fpga、dsp和asic等等。若无特别说明,片上缓存、片外内存、存储器可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器rram(resistive random access memory)、动态随机存取存储器dram(dynamic random access memory)、静态随机存取存储器sram(static random-access memory)、增强动态随机存取存储器edram(enhanced dynamic random access memory)、高带宽内存hbm(high-bandwidth memory)、混合存储立方hmc(hybrid memory cube)等等。
72.集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本披露各个实施例方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
73.本技术实施例还提供一种非瞬时性计算机存储介质,存储有计算机程序,当计算机程序被多个处理器执行时,使得处理器执行如图1所示的方法以及细化方案。
74.应清楚地理解,本技术描述了如何形成和使用特定示例,但本技术不限于这些示例的任何细节。相反,基于本技术公开的内容的教导,这些原理能够应用于许多其它实施例。
75.此外,需要注意的是,上述附图仅是根据本技术示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
76.以上具体地示出和描述了本技术的示例性实施例。应可理解的是,本技术不限于这里描述的详细结构、设置方式或实现方法;相反,本技术意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
技术特征:
1.一种扫描件要素合规性校验方法,其特征在于,包括:确定扫描件的检测页面;获取所述检测页面中的第一关键词,以所述第一关键词为基准确定所述检测页面的检测区域;从所述检测区域中提取要素并确定要素的位置坐标;根据所述要素的位置坐标确定所述要素的归属方;根据所述要素和所述要素的归属方,输出合规性校验结果。2.如权利要求1所述的要素合规性校验方法,其特征在于,所述确定扫描件的检测页面,包括:判断至少两个设定关键词是否共同出现于当前扫描件页面;在所述至少两个设定关键词均出现于所述当前扫描件页面的情况下,确定所述当前扫描件页面为所述检测页面。3.如权利要求2所述的要素合规性校验方法,其特征在于,所述获取所述检测页面中的第一关键词,以所述第一关键词为基准确定所述检测页面的检测区域,包括:从所述至少两个设定关键词中确定所述第一关键词;以所述第一关键词为基准,沿第一方向扩展第一距离,沿第二方向扩展第二距离;将扩展后形成的区域确定为所述检测区域。4.如权利要求1所述的要素合规性校验方法,其特征在于,所述从所述检测区域中提取要素并确定要素的位置坐标,包括:卷号:230223ci从所述检测区域中截取图像,将所述图像输入检测模型,以得到所述要素和所述要素的位置坐标;其中,所述位置坐标是根据所述要素位于所述检测区域的相对位置确定的。5.如权利要求3所述的要素合规性校验方法,其特征在于,所述根据所述要素的位置坐标确定所述要素的归属方,包括:根据所述要素的位置坐标与所述至少两个设定关键词中的第二关键词的相对位置确定归属方。6.如权利要求1所述的要素合规性校验方法,其特征在于,所述要素包括合同盖章、签字章、签字和签字日期中的至少一个。7.如权利要求5所述的要素合规性校验方法,其特征在于,所述根据所述要素和所述要素的归属方,输出合规性校验结果,包括:根据业务规则,在所述检测区域获得的要素与设定要素均匹配的情况下,确定所述要素合规;在所述检测区域获得的要素与所述设定要素不匹配的情况下,确定所缺少的要素,并输出要素不合规及不合规理由。8.一种扫描件要素合规性校验系统,其特征在于,所述要素合规性校验系统包括:检测单元,用于确定扫描件的检测页面;获取所述检测页面中的第一关键词,以所述第一关键词为基准确定所述检测页面的检测区域;要素提取单元,用于从所述检测区域中提取要素并确定要素的位置坐标;所述检测单
元还用于根据所述要素的位置坐标确定所述要素的归属方;卷号:230223ci校验单元,用于根据所述要素和所述要素的归属方,输出合规性校验结果。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行如权利要求1-7中任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
技术总结
本申请提供一种扫描件要素合规性校验方法及系统、电子设备及存储介质。扫描件要素合规性校验方法包括:确定扫描件的检测页面;获取所述检测页面中的第一关键词,以所述第一关键词为基准确定所述检测页面的检测区域;从所述检测区域中提取要素并确定要素的位置坐标;根据所述要素的位置坐标确定所述要素的归属方;根据所述要素和所述要素的归属方,输出合规性校验结果。通过综合运用图像目标检测、文字识别以及辅助判断规则,实现合同扫描件关键要素合规性智能校验,能够批量处理扫描件,输出校验结果,大大节省人工成本,提高企业日常合同管理检查、审核工作的效率。审核工作的效率。审核工作的效率。
技术研发人员:邹晓峰 郑东源 黄子阳 邹钊
受保护的技术使用者:欧冶云商股份有限公司
技术研发日:2023.05.19
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/