一种基于计算机视觉的可拓展文档内容结构化方法及系统与流程
未命名
10-21
阅读:48
评论:0
1.本发明属于图像识别技术领域,尤其涉及一种基于计算机视觉的可拓展文档内容结构化方法及系统。
背景技术:
2.在实际业务场景中经常需要对用户提供的文档进行结构化解析,而用户提交的文档往往包含多种存储格式。这就导致在解析过程需要对不同类型的文档编写程序,使得文档解析程序的编写和维护困难。在实际业务中遇到的同种类型文档由于编写人技能的熟练差异,针对单一类型文档的程序也很难有效地解析全部数据。并且,经常使用的pdf类型文档包括复杂的格式和多样的布局,很多pdf文档甚至直接由图片构成,难以解析。
3.不同的业务场景对于文档结构化信息的提取有不同的要求。在一些场景中,可能需要提取文档的基本信息,如标题、正文、图片、表格、页眉和页脚等;而在其他场景中,可能需要更详细的文档信息,比如正文或表格中的部分内容。
4.现有的文档内容结构化方法大多不具有拓展性,仅能准确的识别单一类型的文档,但由于文档的内容根据业务属性而变,文档的类型也具有多样性和复杂性,当文档类型发生变化时,例如,由法律领域的法律文书变为医学领域的病例报告,其文档中包含的文档元素和各文档元素之间的排布方式均会发生变化,进而导致文档信息结构化解析的准确率大大降低,并且,现有的文档内容结构化方法无法分层提取结构化文档信息,导致所提取的结构化文档信息无法适应不同业务场景的需求。
技术实现要素:
5.本发明的目的在于解决上述技术问题之一,提供一种基于计算机视觉的可拓展文档内容结构化方法及系统。
6.为实现上述目的,本发明采用的技术方案是:
7.一种基于计算机视觉的可拓展文档内容结构化方法,包括以下步骤:
8.定义通用型层级文档结构,通用型层级文档结构包括文本块、表格框和图像框,表格框包括单元格,文本块和单元格均包括文本行;
9.定义通用文档元素,并基于通用文档元素对文本块、表格框和图像框进行分类,确定文本块、表格框和图像框的通用子类别;
10.基于通用型层级文档结构构建通用型文档结构识别模型;
11.定义专用文档元素,基于专用文档元素对文本块、表格框和图像框进行进一步分类,确定文本块、表格框和图像框的新增子类别;
12.将训练组文档上传至服务器并存储为训练组图像序列;
13.使用通用型文档结构识别模型对训练组图像序列进行预标注,调整预标注结果,制作专用文档结构识别数据集,基于专用文档结构识别数据集对通用型文档结构识别模型进行数据训练形成专用型文档识别模型;
14.将待结构化文档上传至服务器并存储为待结构化图像序列;
15.使用专用型文档识别模型依次解析待结构化图像序列中的文档图像,将待结构化图像序列转化为具有层级结构的结构化文档信息并输出。
16.本发明一些实施例中,调整预标注结果的方法包括:
17.调整训练组图像序列中文本块、表格框和图像框的标注范围,和/或调整文本块、表格框和图像框的标注类别;
18.本发明一些实施例中,将待结构化图像序列转化为具有层级结构的结构化文档信息的方法包括:
19.提取文档图像中各文档元素的位置信息和元素内容;
20.对于文本块类型的文档元素,确定其内部包含的文本行,基于各文本行的位置信息将该文档元素内部包含的文本行从上到下进行拼接,作为该文本块类型文档元素的元素内容;
21.对于表格框类型的文档元素,确定其内部包含的单元格,基于各单元格的位置信息确定该表格框类型文档元素的表格结构,确定每个单元格所包含的文本行,将每个单元格内部包含的文本行从上到下进行拼接,作为该单元格的单元格内容,将表格结构和其内部包含的各单元格的单元格内容作为该表格框类型的文档元素的元素内容;
22.对于图像框类型的文档元素截取原图图像作为该图像框类型的文档元素的元素内容。
23.本发明一些实施例中,将待结构化图像序列转化为具有层级结构的结构化文档信息的方法还包括:
24.基于各文档元素的元素位置及元素内容,对于存在跨页关系的文本框类型的文档元素或表格框类型的文档元素,通过拼接的方式进行合并。
25.本发明一些实施例中,通用文档元素包括正文标题、正文、图例标题、图例、表格标题、表格、页眉、页脚、注释;
26.专用文档元素为在通用文档元素的基础上拓展的文档元素。
27.本发明一些实施例中,文本块的通用子类别包括正文标题、正文、图例标题、表格标题、页眉、页脚、注释;表格框的通用子类别包括表格;图像框的通用子类别包括图例。
28.本发明一些实施例中,还包括以下步骤:
29.形成专用型文档识别模型后,若专用型文档识别模型的识别准确率高于通用型文档识别模型的识别准确率,则确定专用型文档识别模型训练结束;
30.若专用型文档识别模型的识别准确率低于通用型文档识别模型的识别准确率,则继续上传训练组文档以增加专用文档结构识别数据集的数据量,再次对通用型文档识别模型进行数据训练,直至专用型文档识别模型的识别准确率高于通用型文档识别模型的识别准确率。
31.形成专用型文档识别模型后,若专用型文档识别模型对各通用子类别和各新增子类别识别的平均准确率高于通用型文档识别模型对各通用子类别识别的平均准确率,则确定专用型文档识别模型训练结束;
32.若专用型文档识别模型对各通用子类别和各新增子类别识别的平均准确率低于通用型文档识别模型对各通用子类别识别的平均准确率,则继续上传训练组文档以增加专
用文档结构识别数据集的数据量,再次对通用型文档识别模型进行数据训练,直至专用型文档识别模型对各通用子类别和各新增子类别识别的平均准确率高于通用型文档识别模型对各通用子类别识别的平均准确率。
33.本发明一些实施例中,还包括以下步骤:
34.将待结构化图像序列转化为结构化文档信息后,调用拼写纠错服务接口对结构化文档信息中的文本内容进行纠错并输出。
35.本发明一些实施例进一步提供一种基于计算机视觉的可拓展文档内容结构化系统,包括:
36.模型构建模块:用于基于通用型层级文档结构构建通用型文档结构识别模型;
37.文档转换模块:用于将用户上传的文档转换为图像序列;
38.数据集构建模块:用于使用通用型文档结构识别模型对训练组图像序列进行预标注,并基于预标注结果构建专用文档结构识别数据集;
39.数据训练模块:用于使用专用文档结构识别数据集对通用型文档结构识别模型进行数据训练,以形成专用型文档识别模型;
40.文档解析模块:用于使用专用型文档识别模型依次识别待结构化图像序列中的文档图像,将待结构化图像序列转化为结构化文档信息;
41.信息输出模块:用于输出结构化文档信息。
42.本发明一些实施例中,还包括:
43.拼写纠错模块:用于读取结构化文档信息中的文本内容,确定结构化过程中识别错误的文本内容,并对识别错误的文本内容进行改正。
44.本发明的有益效果在于:
45.1、本发明通过将文档转化为图像序列,再对图像序列进行解析的方法实现了对不同存储格式的文档进行结构化解析,扩大了本发明的应用范围,使得本发明能够适应多种业务场景;
46.2、本发明所提供文档内容结构化方法具有拓展性,只需对通用型文档结构识别模型进行微调训练,即可获得能够对某一文档类型进行针对性结构化解析的专用型文档识别模型,以适应不同类型文档的结构化解析需求,提高对不同类型文档信息提取的准确率;
47.3、本发明可以分层提取文档内容,将文档中非结构化的正文、表格、图像等文档信息转化为结构化文档信息,以确保所提取的结构化文档信息能够符合具体的应用要求,并且可以根据用户实际需求输出不同层级的文档信息;
48.4、本发明所提供的文档内容结构化方法能够对结构化过程中识别错误的文本内容进行自动纠错。
附图说明
49.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将结合附图来详细说明本发明的具体实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
50.图1为本发明提供的可拓展文档内容结构化方法流程图;
51.图2为本发明提供的通用型层级文档结构的结构示意图;
52.图3为通用文档模板中文档元素排版示意图;
53.图4为法律领域文档文本块预标注结果示意图;
54.图5为法律领域文档文本块预标注调整结果示意图。
具体实施方式
55.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
56.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
57.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
58.下面结合具体实施例及说明书附图,对本发明的技术方案作详细说明。
59.如附图1-5所示,在本发明一种基于计算机视觉的可拓展文档内容结构化方法及系统的一个示意性施例中,该文档内容结构化方法包括以下步骤。
60.定义通用型层级文档结构,如附图2所示,通用型层级文档结构包括文本块、表格框和图像框,表格框包括单元格,文本块和单元格均包括文本行。
61.定义通用文档元素,并基于通用文档元素对文本块、表格框和图像框进行分类,确定文本块、表格框和图像框的通用子类别。
62.具体的,通用文档元素包括正文标题、正文、图例标题、图例、表格标题、表格、页眉、页脚、注释。
63.基于通用文档元素对文本块、表格框和图像框进行分类后,文本块的通用子类别包括正文标题、正文、图例标题、表格标题、页眉、页脚、注释;表格框的通用子类别包括表格;图像框的通用子类别包括图例。
64.基于通用型层级文档结构构建通用型文档结构识别模型。具体的,构建通用型文档结构识别模型的方法包括以下步骤。
65.上传通用模型训练文档并存储为图像序列,基于通用型层级文档结构对通用模型训练文档的图像序列进行人工标注,以制作通用文档结构识别数据集,基于通用文档结构识别数据集构建通用型文档结构识别模型。
66.通用型文档结构识别模型能够准确提取文档元素和文档元素的排版方式如附图3所示文档。但由于文档的内容根据业务属性而变,文档的类型也具有多样性和复杂性,当文档类型发生变化时,其中包含的文档元素和各文档元素之间的排布方式均会发生变化,进而导致文档信息结构化解析的准确率大大降低。为了提高对不同类型文档识别的准确率,本发明提供的文档内容结构化方法对可以对通用型层级文档结构进一步拓展,基于通用型文档结构识别模型训练针对某一特定文档类型的专用型文档识别模型。具体包括以下步
骤。
67.定义专用文档元素,专用文档元素为在通用文档元素的基础上拓展的文档元素,专用文档元素由用户根据实际需求定义。基于专用文档元素对文本块、表格框和图像框进行进一步分类,确定文本块、表格框和图像框的新增子类别。
68.例如,当需要对文档中的不同类型的图片进行分类提取时,可根据实际需求定义证件照、现场照片、设计图等专用文档元素,当需要对文档中不同类型的文本内容进行分类提取的时候,可根据实际需求定义目录、章节序号、层级标题、条款等专用文档元素。基于上述专用文档元素对文本块、表格框和图像框进行进一步分类后,图像框的新增子类别包括证件照、现场照片和设计图,文本块的新增子类别包括目录、章节序号、层级标题和条款。
69.将某一文档类型的训练组文档上传至服务器,调用文档转换服务提供的接口将用户上传的训练组文档转化为pdf文档,再将转化后的pdf文档以页为单位转化为文档图像,同一文档中的文档图像按照页码顺序排列形成一组训练组图像序列,需要说明的是,将文档转换为pdf,再将pdf转换为图像序列的转换方法使得本发明提供的文档内容结构化方法能够适应不同存储格式的文档的解析需求,扩大了本发明的应用范围。
70.调用通用型文档识别服务的接口,使用通用型文档结构识别模型对训练组图像序列中的文档图像进行预标注,调整预标注结果,构建针对该类型文档结构的专用文档结构识别数据集。
71.本发明一些实施例中,调整预标注结果的方法包括调整训练组图像序列中文本块、表格框和图像框的标注范围,和/或调整文本块、表格框和图像框的标注类别。需要说明的是,对大多数文档,仅需调整文本块和/或图像框的标注类别,就可以快速构建针对特定文档类型的专用文档结构识别数据集。
72.例如,在解析如附图4-5所示法律文件的文档图像时,需要提取文档图像中的章节序号,章节标题、条款序号和条款内容,将这四种文档元素定义为专用文档元素,并将这四个专用文档元素确定为文本块的新增子类别。如附图4所示,使用通用型文档结构识别模型对文档图像进行预标注时,会自动框选该文档图像中的文档元素,将其预标注为文本块,并根据文档元素的位置信息和元素内容将文本块分别预标注为正文标题或正文。此时需要对预标注结果进行人工调整,如附图5所示,调整文本块的框选范围,以及根据文档元素的内容调整文本块的标注类别,以区分章节序号、章节标题、条款序号和条款内容。
73.专用文档结构识别数据集构建完成后,调用模型训练接口使用专用文档结构识别数据集对通用型文档结构识别模型进行数据训练形成专用型文档识别模型。需要说明的是,专用型文档识别模型中文本块、表格框和图像框的子类别包括通用子类别和新增子类别。
74.专用型文档识别模型训练结束后,将实际业务中需要结构化的待结构化文档上传至服务器,需要说明的是,待结构化文档和训练组文档的文档类型相同,即文档中包含的文档元素和各文档元素之间的逻辑关系基本相同,调用文档转换服务提供的接口将用户上传的待结构化文档转化为pdf文档,再将转化后的pdf文档以页为单位转化为文档图像,同一文档中的文档图像按照页码顺序排列形成一组待结构化图像序列。
75.调用专用型文档识别接口以使用专用型文档识别模型依次识别待结构化图像序列中的文档图像,将待结构化图像序列转化为具有层级结构的结构化文档信息并输出。
76.本发明一些实施例中,将待结构化图像序列转化为具有层级结构的结构化文档信息的方法包括以下步骤。
77.提取文档图像中各文档元素的位置信息和元素内容。
78.对于文本块类型的文档元素,确定其内部包含的文本行,基于各文本行的位置信息将该文档元素内部包含的文本行从上到下进行拼接,作为该文本块类型文档元素的元素内容。
79.对于表格框类型的文档元素,确定其内部包含的单元格,基于各单元格的位置信息确定该表格框类型文档元素的表格结构,确定每个单元格所包含的文本行,将每个单元格内部包含的文本行从上到下进行拼接,作为该单元格的单元格内容,将表格结构和其内部包含的各单元格的单元格内容作为该表格框类型的文档元素的元素内容。
80.对于图像框类型的文档元素截取原图图像作为该图像框类型的文档元素的元素内容。
81.本发明一些实施例中,将待结构化图像序列转化为结构化文档信息的方法还包括基于各文档元素的元素位置及元素内容,确定每页文档图像中个各文档元素之间的逻辑关系,对于存在跨页关系的文本块类型的文档元素或表格框类型的文档元素,通过拼接的方式进行合并。
82.本发明一些实施例中,形成专用型文档识别模型后,若专用型文档识别模型对各通用子类别和各新增子类别识别的平均准确率高于通用型文档识别模型对各通用子类别识别的平均准确率,则确定专用型文档识别模型训练结束。
83.若专用型文档识别模型对各通用子类别和各新增子类别识别的平均准确率低于通用型文档识别模型对各通用子类别识别的平均准确率,则继续上传训练组文档以增加专用文档结构识别数据集的数据量,再次对通用型文档识别模型进行数据训练,直至专用型文档识别模型对各通用子类别和各新增子类别识别的平均准确率高于通用型文档识别模型对各通用子类别识别的平均准确率。
84.例如,通用型文档识别模型中文本块、表格框和图像框共包括9个子类别,均为通用子类别;专用型文档识别模型中文本块、表格框和图像框共包括13个子类别,其中包括9个通用子类别和4个新增子类别。若通用型文档识别模型对训练组图像序列中9个通用子类别识别的平均准确率为96%,则专用型文档识别模型对训练组图像序列中9个通用子类别和4个新增子类别共13个子类别识别的平均准确率也需达到96%,才能确定专用型文档识别模型训练结束。
85.进一步的,为了提高模型训练质量并客观反应文档识别准确率,在构建专用文档结构识别数据集时,基于训练组图像序列中的文档图像的数量,以文档为单位,按照8:2的比例划分训练集和测试集,并保证训练集和测试集都能够包含训练组文档的各个章节。
86.本发明一些实施例中,由于光学符号识别技术会将形态相近的字符识别错误,并且这种错误多集中于不常出现的专业词汇中,将待结构化图像序列转化为结构化文档信息后,借助专业词汇字典调用针对字符的拼写纠错服务接口对结构化文档信息中的文本内容进行纠错,并将纠正后的结构化文档信息输出。
87.本发明一些实施例进一步提供一种基于计算机视觉的可拓展文档内容结构化系统,包括模型构建模块、文档转换模块、数据集构建模块、数据训练模块、文档解析模块和信
息输出模块。
88.其中,模型构建模块用于基于通用型层级文档结构构建通用型文档结构识别模型。
89.文档转换模块用于将用户上传的文档转换为图像序列。
90.数据集构建模块用于使用通用型文档结构识别模型对训练组图像序列进行预标注,并基于预标注结果构建专用文档结构识别数据集。
91.数据训练模块用于使用专用文档结构识别数据集对通用型文档结构识别模型进行数据训练,以形成专用型文档识别模型。
92.文档解析模块用于使用专用型文档识别模型依次识别待结构化图像序列中的文档图像,将待结构化图像序列转化为结构化文档信息。
93.信息输出模块用于输出结构化文档信息。
94.本发明一些实施例中,还包括拼写纠错模块,用于读取结构化文档信息中的文本内容,确定结构化过程中识别错误的文本内容,并对识别错误的文本内容进行改正。
95.最后应当说明的是:本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
96.以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
技术特征:
1.一种基于计算机视觉的可拓展文档内容结构化方法,其特征在于,包括以下步骤:定义通用型层级文档结构,所述通用型层级文档结构包括文本块、表格框和图像框,所述表格框包括单元格,所述文本块和所述单元格均包括文本行;定义通用文档元素,并基于所述通用文档元素对文本块、表格框和图像框进行分类,确定文本块、表格框和图像框的通用子类别;基于通用型层级文档结构构建通用型文档结构识别模型;定义专用文档元素,基于所述专用文档元素对文本块、表格框和图像框进行进一步分类,确定文本块、表格框和图像框的新增子类别;将训练组文档上传至服务器并存储为训练组图像序列;使用所述通用型文档结构识别模型对所述训练组图像序列进行预标注,调整预标注结果,制作专用文档结构识别数据集,基于所述专用文档结构识别数据集对所述通用型文档结构识别模型进行数据训练形成专用型文档识别模型;将待结构化文档上传至服务器并存储为待结构化图像序列;使用所述专用型文档识别模型依次解析所述待结构化图像序列中的文档图像,将所述待结构化图像序列转化为具有层级结构的结构化文档信息并输出。2.根据权利要求1所述的基于计算机视觉的可拓展文档内容结构化方法,其特征在于,调整预标注结果的方法包括:调整所述训练组图像序列中文本块、表格框和图像框的标注范围,和/或调整文本块、表格框和图像框的标注类别。3.根据权利要求1所述的基于计算机视觉的可拓展文档内容结构化方法,其特征在于,将所述待结构化图像序列转化为具有层级结构的结构化文档信息的方法包括:提取文档图像中各文档元素的位置信息和元素内容;对于文本块类型的文档元素,确定其内部包含的文本行,基于各文本行的位置信息将该文档元素内部包含的文本行从上到下进行拼接,作为该文本块类型文档元素的元素内容;对于表格框类型的文档元素,确定其内部包含的单元格,基于各单元格的位置信息确定该表格框类型文档元素的表格结构,确定每个单元格所包含的文本行,将每个单元格内部包含的文本行从上到下进行拼接,作为该单元格的单元格内容,将表格结构和其内部包含的各单元格的单元格内容作为该表格框类型的文档元素的元素内容;对于图像框类型的文档元素截取原图图像作为该图像框类型的文档元素的元素内容。4.根据权利要求3所述的基于计算机视觉的可拓展文档内容结构化方法,其特征在于,将所述待结构化图像序列转化为具有层级结构的结构化文档信息的方法还包括:基于各文档元素的元素位置及元素内容,对于存在跨页关系的文本框类型的文档元素或表格框类型的文档元素,通过拼接的方式进行合并。5.根据权利要求1所述的基于计算机视觉的可拓展文档内容结构化方法,其特征在于,所述通用文档元素包括正文标题、正文、图例标题、图例、表格标题、表格、页眉、页脚、注释;所述专用文档元素为在所述通用文档元素的基础上拓展的文档元素。6.根据权利要求5所述的基于计算机视觉的可拓展文档内容结构化方法,其特征在于,
文本块的通用子类别包括正文标题、正文、图例标题、表格标题、页眉、页脚、注释;表格框的通用子类别包括表格;图像框的通用子类别包括图例。7.根据权利要求1所述的基于计算机视觉的可拓展文档内容结构化方法,其特征在于,还包括以下步骤:形成专用型文档识别模型后,若所述专用型文档识别模型对各通用子类别和各新增子类别识别的平均准确率高于所述通用型文档识别模型对各通用子类别识别的平均准确率,则确定专用型文档识别模型训练结束;若所述专用型文档识别模型对各通用子类别和各新增子类别识别的平均准确率低于所述通用型文档识别模型对各通用子类别识别的平均准确率,则继续上传训练组文档以增加所述专用文档结构识别数据集的数据量,再次对所述通用型文档识别模型进行数据训练,直至所述专用型文档识别模型对各通用子类别和各新增子类别识别的平均准确率高于所述通用型文档识别模型对各通用子类别识别的平均准确率。8.根据权利要求1所述的基于计算机视觉的可拓展文档内容结构化方法,其特征在于,还包括以下步骤:将所述待结构化图像序列转化为结构化文档信息后,调用拼写纠错服务接口对所述结构化文档信息中的文本内容进行纠错并输出。9.一种基于计算机视觉的可拓展文档内容结构化系统,用于实现如权利要求1-8所述的基于计算机视觉的可拓展文档内容结构化方法,其特征在于,包括:模型构建模块:用于基于通用型层级文档结构构建通用型文档结构识别模型;文档转换模块:用于将用户上传的文档转换为图像序列;数据集构建模块:用于使用通用型文档结构识别模型对训练组图像序列进行预标注,并基于预标注结果构建专用文档结构识别数据集;数据训练模块:用于使用专用文档结构识别数据集对通用型文档结构识别模型进行数据训练,以形成专用型文档识别模型;文档解析模块:用于使用专用型文档识别模型依次识别待结构化图像序列中的文档图像,将待结构化图像序列转化为结构化文档信息;信息输出模块:用于输出结构化文档信息。10.根据权利要求9所述的基于计算机视觉的可拓展文档内容结构化系统,其特征在于,还包括:拼写纠错模块:用于读取结构化文档信息中的文本内容,确定结构化过程中识别错误的文本内容,并对识别错误的文本内容进行改正。
技术总结
本发明涉及一种基于计算机视觉的可拓展文档内容结构化方法及系统,该方法包括以下步骤:定义通用型层级文档结构、通用文档元素和专用文档元素,构建通用型文档结构识别模型;获取训练组文档的图像序列,对训练组文档的图像序列进行预标注,构建专用文档结构识别数据集,对通用型文档结构识别模型进行数据训练形成专用型文档识别模型;获取结构化图像序列;使用专用型文档识别模型识别待结构化图像序列,将待结构化图像序列转化为结构化文档信息并输出。本发明所提供文档内容结构化方法具有拓展性,能够适应不同类型文档的结构化解析需求,将非结构化数据分层转化为能够直接被业务应用处理的结构化数据,提升数据采集效率。提升数据采集效率。提升数据采集效率。
技术研发人员:李迪 邱娟 李莉华 孟兆海 张贵发 孙建中 曲佳博
受保护的技术使用者:赛飞特工程技术集团有限公司
技术研发日:2023.07.28
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/