一种自动识别标准内容错误的方法、系统、设备及介质与流程

未命名 09-24 阅读:77 评论:0


1.本发明涉及自动识别技术领域,特别是一种自动识别标准内容错误的方法、系统、设备及介质。


背景技术:

2.目前,随着人工智能和人工学习的不断深化,输入到pc端需要打印的文本的模式有了更高需求的标准,在同一专业或者领域,大量的重复标准模版的输入不仅耗时耗力,而且浪费大量的人工成本,输入时也容易出现错误,亟需一种自动识别标准内容错误的方法。


技术实现要素:

3.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
4.鉴于上述和/或现有的标准模版的输入中存在的问题,提出了本发明。
5.因此,本发明所要解决的问题在于如何自动识别标准内容错误。
6.为解决上述技术问题,本发明提供如下技术方案:
7.第一方面,本发明实施例提供了一种自动识别标准内容错误的方法,其包括,
8.扫描待识别文本的文本内容,并提取所述文本内容的文本特征向量;
9.将所述文本特征向量上传至预设的错误识别模型中,锁定待识别文本中的出错位置;
10.基于所述出错位置,生成对应的错误识别标签和标准纠错标签;
11.通过所述错误识别标签和所述标准纠错标签,确定所述待识别文本的错误类型。
12.作为本发明所述自动识别标准内容错误的方法的一种优选方案,其中:所述将所述文本特征向量上传至预设的错误识别模型中,锁定待识别文本中的出错位置包括,
13.统计历史样本的文本特征向量,所述文本特征向量至少包括文本词汇、词汇语义和文本语法;
14.将所述文本特征向量上传至预设的错误识别模型,并和所述错误识别模型中预设的特征数据库进行类比,判断错误识别模型中是否存在未出现过相似的历史文本特征;
15.当所述错误识别模型中存在相似的历史文本特征时,调取所述历史文本特征,同时识别并检测待识别文本的错误文本和错误位置;
16.当所述错误识别模型中不存在相似的历史文本特征时,对所述文本特征向量进行语义识别,识别并检测待识别文本的错误文本和错误位置,同时,将文本特征向量和对应的语义识别的识别结果存入错误识别模型。
17.作为本发明所述自动识别标准内容错误的方法的一种优选方案,其中:所述将所述文本特征向量上传至预设的错误识别模型还包括,
18.在上传前对文本特征向量数据进行数据格式建立,并对建立好数据格式的文本特
征向量数据进行数据自加密;
19.在上传至预设的错误识别模型后再进行数据解密以及数据格式的确认和有效数据提取。
20.作为本发明所述自动识别标准内容错误的方法的一种优选方案,其中:所述对文本特征向量数据进行数据格式建立采用的公式为:
[0021][0022]
其中s
16
表示对文本特征向量数据进行数据格式建立后的16进制形式数据;a0表示数据格式的通用16进制形式数据帧头;e0表示数据格式的通用16进制形式数据帧尾;表示文本特征向量;表示向量的方向判断值,若向量为行向量则若向量为列向量则表示将向量中的每一个元素均独立转换为16进制数;[]16表示将括号内的整体数值转换为16进制数;{,,,}表示将括号内的数值按照逗号的隔开形式进行数据合并,合并成16进制数值(并且括号内的每一个被逗号隔开的部分均可进行独立提取);()
t
表示对括号内的向量求取转置。
[0023]
作为本发明所述自动识别标准内容错误的方法的一种优选方案,其中:所述对建立好数据格式的文本特征向量数据进行数据自加密采用的公式为:
[0024][0025]
其中l
16
表示对建立好数据格式的文本特征向量数据进行数据自加密后的16进制形式数据;len()表示求取括号内的数据位数;表示对括号内的16进制数进行按位异或;s
16
(i)表示16进制数据s
16
中第i位上的16进制数值;表示将16进制数据s
16
中每一位上的16进制数均与进行异或计算;表示循环右移。
[0026]
作为本发明所述自动识别标准内容错误的方法的一种优选方案,其中:所述在上传至预设的错误识别模型后再进行数据解密以及数据格式的确认和有效数据提取采用的公式为:
[0027][0028]
其中x表示对接收到数据进行有效数据提取后得到的文本特征向量;j
16
表示对接收到数据进行解密后的16进制形式数据;l
16
表示预设的错误识别模型接收到的16进制形式的数据;表示将16进制数据l
16

每一位上的16进制数均与进行异或计算;表示循环左移;j
16-1表示16进制数据l
16
中第1个被逗号隔开的部分的16进制形式的数据;j
16-2表示16进制数据l
16
中第2个被逗号隔开的部分的16进制形式的数据;j
16-3表示16进制数据l
16
中第3个被逗号隔开的部分的16进制形式的数据;q表示数据格式的确认值;{q=0|}表示在运算|符号右边的算式时需要优先满足在q=0的条件下才能进行计算;表示将16进制数据j
16-3中的每一个元素均独立转换为10进制数并且将数据状态转换成向量。
[0029]
作为本发明所述自动识别标准内容错误的方法的一种优选方案,其中:所述基于所述出错位置,生成对应的错误识别标签和标准纠错标签包括,
[0030]
调取错误识别模型中预设的错误分类规则,并通过所述分类规则生成对应的错误类型,其中所述错误类型至少包括语法错误和语义错误;
[0031]
通过不同的错误类型,生成对应的错误识别标签;
[0032]
通过预设的词义联想中心,生成对应的纠错建议信息;
[0033]
将所述错误识别标签和纠错建议信息进行一一对应,并标注对应的标准纠错标签。
[0034]
第二方面,本发明实施例提供了一种自动识别标准内容错误的系统,其包括:
[0035]
特征向量提取模块,用于扫描待识别文本的文本内容,并提取所述文本内容的文本特征向量;
[0036]
位置锁定模块,用于将所述文本特征向量传输至预设的错误识别模型中,锁定待识别文本中的出错位置;
[0037]
标签生成模块,用于基于所述出错位置,生成对应的错误识别标签和标准纠错标签;
[0038]
错误识别模块,用于通过所述错误识别标签和所述标准纠错标签,确定所述待识别文本的错误类型。
[0039]
第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中:所述处理器执行所述计算机程序时实现上述方法的任一步骤。
[0040]
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中:所述计算机程序被处理器执行时实现上述方法的任一步骤。
[0041]
本发明有益效果为:通过对错误位置的判断和语义识别,提高了文本特征识别的速度,训练识别效率,增强识错模型的鲁棒性,更贴合用户的特征习惯;通过对大量的历史样本的特征提取,提高了文本识别的准确率;通过对错误类型进行纠错和建议,提高了人工审批的效率,同时为人机交互提供海量数据,使纠错结果更加精准。
附图说明
[0042]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0043]
图1为自动识别标准内容错误的方法流程图。
具体实施方式
[0044]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0045]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0046]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0047]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0048]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0049]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0050]
实施例1
[0051]
参照图1,为本发明第一个实施例,该实施例提供了一种自动识别标准内容错误的方法,包括:
[0052]
s100:扫描待识别文本的文本内容,并提取文本特征向量。
[0053]
应说明的是,提取的文本特征向量至少包括文本词汇、词汇语义和文本语法。
[0054]
s200:将所述文本特征向量上传至预设的错误识别模型中,锁定待识别文本中的出错位置,具体步骤为:
[0055]
统计历史样本的文本特征向量;
[0056]
将文本特征向量上传至预设的错误识别模型,并和错误识别模型中预设的特征数据库进行类比,识别并锁定待识别文本中的出错位置。
[0057]
应说明的是,将文本特征向量上传至预设的错误识别模型时,还会在上传前对文本特征向量数据进行数据格式建立以及加密传输,同时在上传至预设的错误识别模型后再进行解密以及数据提取。
[0058]
具体的,对文本特征向量数据进行数据格式建立采用的公式为:
[0059][0060]
其中s
16
表示对文本特征向量数据进行数据格式建立后的16进制形式数据;a0表示数据格式的通用16进制形式数据帧头;e0表示数据格式的通用16进制形式数据帧尾;表示文本特征向量;表示向量的方向判断值,若向量为行向量则若向量为列向量则表示将向量中的每一个元素均独立转换为16进制数;[]16表示将括号内的整体数值转换为16进制数;{,,,}表示将括号内的数值按照逗号的隔开形式进行数据合并,合并成16进制数值(并且括号内的每一个被逗号隔开的部分均可进行独立提取);()
t
表示对括号内的向量求取转置。
[0061]
进一步的,对建立好数据格式的文本特征向量数据进行数据自加密采用的公式为:
[0062][0063]
其中l
16
表示对建立好数据格式的文本特征向量数据进行数据自加密后的16进制形式数据;len()表示求取括号内的数据位数;表示对括号内的16进制数进行按位异或;s
16
(i)表示16进制数据s
16
中第i位上的16进制数值;表示将16进制数据s
16
中每一位上的16进制数均与进行异或计算;表示循环右移。
[0064]
进一步的,预设的错误识别模型在接收到加密后的数据后进行数据解密以及数据格式的确认和有效数据提取,采用的公式为:
[0065][0066]
其中x表示对接收到数据进行有效数据提取后得到的文本特征向量;j
16
表示对接收到数据进行解密后的16进制形式数据;l
16
表示预设的错误识别模型接收到的16进制形式的数据;表示将16进制数据l
16
中每一位上的16进制数均与进行异或计算;表示循环左移;j
16-1表示16进制数据l
16
中第1个被逗号隔开的部分的16进制形式的数据;j
16-2表示16进制数据l
16
中第2个被逗号隔开的部分的16进制形式的数据;j
16-3表示16进制数据l
16
中第3个被逗号隔开的部分的16进制形式的数据;q表示数据格式的确认值;{q=0|}表示在运算|符号右边的算式时需要优先满足在q=0的条件下才能进行计算;表示将16进制数据j
16-3中的每
一个元素均独立转换为10进制数并且将数据状态转换成向量。
[0067]
进一步的,在和错误识别模型中预设的特征数据库进行类比时,需判断错误识别模型中是否存在相似的历史文本特征:
[0068]
当错误识别模型中存在相似的历史文本特征时,调取该历史文本特征,同时识别并检测待识别文本的错误文本和错误位置;
[0069]
当错误识别模型中不存在相似的历史文本特征时,对此文本特征向量进行语义识别,识别并检测待识别文本的错误文本和错误位置,同时,将文本特征向量和对应的语义识别的识别结果存入错误识别模型。
[0070]
应说明的是,通过对错误位置的判断和语义识别,提高了文本特征识别的速度,训练识别效率,增强识错模型的鲁棒性,更贴合用户的特征习惯,并且通过对大量的历史样本的特征提取,提高了文本识别的准确率。
[0071]
s300:基于出错位置,生成对应的错误识别标签和标准纠错标签,具体步骤包括:
[0072]
调取错误识别模型中预设的错误分类规则,并通过分类规则生成对应的错误类型,其中错误类型至少包括语法错误和语义错误;
[0073]
通过不同的错误类型,生成对应的错误识别标签;
[0074]
通过预设的词义联想中心,生成对应的纠错建议信息;
[0075]
将错误识别标签和纠错建议信息进行一一对应,并标注对应的标准纠错标签。
[0076]
s400:通过错误识别标签和标准纠错标签,确定待识别文本的错误类型。
[0077]
应说明的是,通过对错误类型进行纠错和建议,提高了人工审批的效率,同时为人机交互提供海量数据,使纠错结果更加精准。
[0078]
进一步的,本实施例还提供一种自动识别标准内容错误的系统,包括:
[0079]
提取模块,用于扫描待识别文本的文本内容,并提取所述文本内容的文本特征向量;
[0080]
位置锁定模块,用于将所述文本特征向量传输至预设的错误识别模型中,锁定待识别文本中的出错位置;
[0081]
标签生成模块,用于基于所述出错位置,生成对应的错误识别标签和标准纠错标签;
[0082]
错误识别模块,用于通过所述错误识别标签和所述标准纠错标签,确定所述待识别文本的错误类型。
[0083]
本实施例还提供一种计算机设备,适用于自动识别标准内容错误的方法的情况,包括:
[0084]
存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,实现如上述实施例提出的自动识别标准内容错误的方法。
[0085]
该计算机设备可以是终端,该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机设备的显示屏可
以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0086]
本实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提出的实现自动识别标准内容错误的方法。
[0087]
本实施例提出的存储介质与上述实施例提出的数据存储方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
[0088]
实施例2
[0089]
参照图1,为本发明第二个实施例,该实施例提供了一种自动识别标准内容错误的方法,为了验证本发明的有益效果,通过对比进行科学论证。
[0090]
表1传统现有技术与本发明对比
[0091][0092]
由表1可知,本发明在传统现有技术基础上进行变革性的改进,通过对错误位置的判断和语义识别,提高了文本特征识别的速度,训练识别效率,增强识错模型的鲁棒性,更贴合用户的特征习惯;通过对大量的历史样本的特征提取,提高了文本识别的准确率;通过对错误类型进行纠错和建议,提高了人工审批的效率,同时为人机交互提供海量数据,使纠错结果更加精准。
[0093]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:
1.一种自动识别标准内容错误的方法,其特征在于:包括,扫描待识别文本的文本内容,并提取所述文本内容的文本特征向量;将所述文本特征向量上传至预设的错误识别模型中,锁定待识别文本中的出错位置;基于所述出错位置,生成对应的错误识别标签和标准纠错标签;通过所述错误识别标签和所述标准纠错标签,确定所述待识别文本的错误类型。2.如权利要求1所述的自动识别标准内容错误的方法,其特征在于:所述将所述文本特征向量上传至预设的错误识别模型中,锁定待识别文本中的出错位置包括,统计历史样本的文本特征向量,所述文本特征向量至少包括文本词汇、词汇语义和文本语法;将所述文本特征向量上传至预设的错误识别模型,并和所述错误识别模型中预设的特征数据库进行类比,判断错误识别模型中是否存在未出现过相似的历史文本特征;当所述错误识别模型中存在相似的历史文本特征时,调取所述历史文本特征,同时识别并检测待识别文本的错误文本和错误位置;当所述错误识别模型中不存在相似的历史文本特征时,对所述文本特征向量进行语义识别,识别并检测待识别文本的错误文本和错误位置,同时,将文本特征向量和对应的语义识别的识别结果存入错误识别模型。3.如权利要求2所述的自动识别标准内容错误的方法,其特征在于:所述将所述文本特征向量上传至预设的错误识别模型还包括,在上传前对文本特征向量数据进行数据格式建立,并对建立好数据格式的文本特征向量数据进行数据自加密;在上传至预设的错误识别模型后再进行数据解密以及数据格式的确认和有效数据提取。4.如权利要求3所述的自动识别标准内容错误的方法,其特征在于:所述对文本特征向量数据进行数据格式建立采用的公式为:其中s
16
表示对文本特征向量数据进行数据格式建立后的16进制形式数据;a0表示数据格式的通用16进制形式数据帧头;e0表示数据格式的通用16进制形式数据帧尾;表示文本特征向量;表示向量的方向判断值,若向量为行向量则若向量为列向量则为列向量则表示将向量中的每一个元素均独立转换为16进制数;,-16
表示将括号内的整体数值转换为16进制数;*,,,+表示将括号内的数值按照逗号的隔开形式进行数据合并,合并成16进制数值(并且括号内的每一个被逗号隔开的部分均可进行独立提取);()
t
表示对括号内的向量求取转置。5.如权利要求4所述的自动识别标准内容错误的方法,其特征在于:所述对建立好数据格式的文本特征向量数据进行数据自加密采用的公式为:其中l
16
表示对建立好数据格式的文本特征向量数据进行数据自加密后的16进制形式
数据;len()表示求取括号内的数据位数;表示对括号内的16进制数进行按位异或;s
16
(i)表示16进制数据s
16
中第i位上的16进制数值;表示将16进制数据s
16
中每一位上的16进制数均与进行异或计算;表示循环右移。6.如权利要求5所述的自动识别标准内容错误的方法,其特征在于:所述在上传至预设的错误识别模型后再进行数据解密以及数据格式的确认和有效数据提取采用的公式为:其中x表示对接收到数据进行有效数据提取后得到的文本特征向量;j
16
表示对接收到数据进行解密后的16进制形式数据;l
16
表示预设的错误识别模型接收到的16进制形式的数据;表示将16进制数据l
16
中每一位上的16进制数均与进行异或计算;表示循环左移;j
16
_1表示16进制数据l
16
中第1个被逗号隔开的部分的16进制形式的数据;j
16
_2表示16进制数据l
16
中第2个被逗号隔开的部分的16进制形式的数据;j
16
_3表示16进制数据l
16
中第3个被逗号隔开的部分的16进制形式的数据;q表示数据格式的确认值;*q=0|+表示在运算|符号右边的算式时需要优先满足在q=0的条件下才能进行计算;表示将16进制数据j
16
_3中的每一个元素均独立转换为10进制数并且将数据状态转换成向量。7.如权利要求6所述的自动识别标准内容错误的方法,其特征在于:所述基于所述出错位置,生成对应的错误识别标签和标准纠错标签包括,调取错误识别模型中预设的错误分类规则,并通过所述分类规则生成对应的错误类型,其中所述错误类型至少包括语法错误和语义错误;通过不同的错误类型,生成对应的错误识别标签;通过预设的词义联想中心,生成对应的纠错建议信息;将所述错误识别标签和纠错建议信息进行一一对应,并标注对应的标准纠错标签。8.一种自动识别标准内容错误的系统,基于权利要求1~7所述的自动识别标准内容错误的方法,其特征在于:包括,特征向量提取模块,用于扫描待识别文本的文本内容,并提取所述文本内容的文本特征向量;位置锁定模块,用于将所述文本特征向量传输至预设的错误识别模型中,锁定待识别文本中的出错位置;标签生成模块,用于基于所述出错位置,生成对应的错误识别标签和标准纠错标签;错误识别模块,用于通过所述错误识别标签和所述标准纠错标签,确定所述待识别文本的错误类型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述方法的步骤。

技术总结
本发明公开了一种自动识别标准内容错误的方法,包括扫描待识别文本的文本内容,并提取文本特征向量;将文本特征向量上传至预设的错误识别模型中,锁定待识别文本中的出错位置;基于出错位置,生成对应的错误识别标签和标准纠错标签;通过错误识别标签和所述标准纠错标签,确定待识别文本的错误类型。本发明通过对错误位置的判断和语义识别,提高了文本特征识别的速度,训练识别效率,增强识错模型的鲁棒性,更贴合用户的特征习惯;通过对大量的历史样本的特征提取,提高了文本识别的准确率;通过对错误类型进行纠错和建议,提高了人工审批的效率,同时为人机交互提供海量数据,使纠错结果更加精准。使纠错结果更加精准。使纠错结果更加精准。


技术研发人员:林正平 周育忠 涂亮 黄军凯 刘卓娅
受保护的技术使用者:南方电网科学研究院有限责任公司
技术研发日:2022.10.26
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐