一种基于多级模型的文本要素抽取方法、系统及存储介质与流程
未命名
08-01
阅读:118
评论:0

1.本发明涉及自然语言处理技术领域,具体为一种基于多级模型的文本要素抽取方法、系统及存储介质。
背景技术:
2.金融领域的行政处罚决定文本记录了主管机构对于各个金融机构的违法行为进行处罚的原因、依据等信息。了解具体处罚内容的变化趋势和统计规律对各金融机构有较大的意义,处罚内容中很重要的一个信息是文本中所涉及的具体违法行为,获取时需要将自然语言形式的处罚文本转换为结构化数据,以便于后续处理。
3.但由于行政处罚决定是由各地的行业主管部门自行发布,且一般历史数据时间跨度较长,在地域维度和时间维度上来看,行文写法和习惯用语也都存在较大区别。传统方案主要为规则式的方法去匹配文本中的内容,但由于上述文本多样性的原因,规则式的方法无法覆盖所有的情况,实际效果较差。
技术实现要素:
4.本发明的目的在于:提出一种基于多级模型的文本要素抽取系统,该技术方案能够使得对目标文本内容的处理具有较高的覆盖率。
5.为实现上述目的,本发明提供的基础方案:一种基于多级模型的文本要素抽取系统,包括:s1:针对历史决定文本数据进行预处理;s2:利用预处理数据训练多级预测模型,包括:s21:基于gradient boosting模型训练得到段落分类模型,用于识别段落是否包含违法行为;s22:将在领域文本上完成了语言模型任务预训练的bert神经网络模型作为基础模型,训练得到文本抽取模型,用于识别在原文中直接出现的违法行为描述文字;s23:将任务预训练的bart神经网络模型作为基础模型,训练得到文本生成模型,用于识别在原文中未直接出现的违法行为描述文字。
6.基础方案的有益效果:在大计算量的神经网络模型处理前,s21利用相对计算量小的传统机器学习模型将文本段落分类,有效减少计算量,显著提高了处理速度;同时排除干扰内容,增加了模型抽取精度;s22能够使本方案直接识别在原文中直接出现的违法行为描述文字,s23对于部分难以通过序列标注模型得到结果的文本,使用生成式模型得到结果,能够使本方案识别在原文中未直接出现的违法行为描述文字,拓展了适用范围;现有技术下,本本领域技术人员往往通过继续增加训练数据的方式使模型具有更高的覆盖率,这种方式使得模型臃肿,同时计算量大,本技术方案通过上述技术手段使得本方案具有处理各种形式文本的能力,使得模型对目标文本内容的处理具有较高的覆盖率,多级模型的设置也使得计算更加具有针对性,减少计算量提高计算识别速度。
7.具体而言,本技术方案首先通过段落分类模型对原始文本内容进行分类,排除在此任务中可以视为噪音的段落,仅将分类为包含有效信息的段落送入流程下一步;然后将有效段落输入违法行为抽取模型,如果违法行为信息显式地包含在段落内,则经过针对性训练的预训练神经网络模型便可以从文本中提取出相关信息并输出相应置信度;对于违法行为信息并未显式地包含在内的段落,上述抽取模型无法输出高置信度的结果,相应段落会接着送入违法行为生成模型,此部分模型可以根据段落内容直接生成对应的违法行为信息。
8.作为优选方案:所述s1包括:s11:对行政处罚决定文本中包含违法行为的段落进行标注;s12:如果段落包含违法行为描述,且描述为段落中连续的文本,则将此连续文本序列在段落中标注出开始点与结束点;s13:如果段落包含违法行为描述,但原文无法提取出连续文本作为违法行为描述,则直接标注出段落对应的违法行为具体描述文本;s11能够按照段落文本是否包含违法行为进行分类,s12能够对具有连续文本的违法行为进行标注,s13能够对具有连续文本的违法行为进行标注;通过上述标注能够使得后续模型针对各种形式的文本均有训练样本,使训练样本更全面。
9.作为优选方案,还包括:s3:利用预测模型得到弱标注数据,并利用弱标注数据对模型进行训练;s4:利用模型对处罚决定文本进行处理。
10.s3的弱标注数据能够丰富训练数据,减少对人工标注数据的需求,降低了建设成本;s4使用基于预训练的模型对文件进行处理,具有泛化能力,可以在不同格式或写法的处罚决定文本中准确提取出违法行为内容。
11.作为优选方案,所述s3包括:s31:检验模型是否达到了预期精度;s32:如果未达到预期精度,则使用预测模型得到一批弱标注数据;s33:利用弱标注数据对模型进行训练,并重复s31。
12.以达到预期精度为目标训练模型,s32通过预测模型得到弱标注数据,能够减少对人工标注数据的需求,降低建设成本。
13.作为优选方案,所述s32具体包括:s32-1:在未标注数据上利用预测模型得到预测结果;s32-2:判断预测结果是否为高置信度,如果为是,则将该预测结果作为自动标注数据如果为否,则将预测结果纳入未标注数据;s32-3:再次利用预测模型对未标注数据重新进行预测,并重复进行s32-2步骤。
14.在未标注数据上利用预测模型得到弱标注数据,尽可能提高历史决定文本数据的利用率,同时还能提高模型对其他弱关联文本的处理能力;由于通过弱标注数据的训练能够使模型不断迭代,s32-3利用迭代后的模型再次对未标注数据进行预测能够深挖弱标注数据,不断提升模型能力。
15.作为优选方案,s32-2中如果s32-1得到的预测结果均不满足高置信度,将停止执行s32,并直接完成模型训练。
16.避免了s32陷入无限循环,保证模型训练顺利。
17.作为优选方案,所述s4包括:s41:将行政处罚决定文本输入段落分类模型,得到其中包含违法行为描述的段落,将该段落作为候选段落;s42:将候选段落输入文本抽取模型,如得到高置信度的结果,则将其作为违法行为描述返回并结束流程;s43:如文本抽取模型未得到高置信度的结果,则将候选段落输入文本生成模型进行处理,如文本生成模型得到高置信度的结果,则将其作为违法行为描述返回并结束流程,否则返回无结果并结束。
18.s41能够首先利用小模型对行政处罚决定文本进行分类,减少了整体的计算量,节约了资源提高了效率;s42与s43以是否为高置信度为标准,首先判断违法行为描述是否为连续文本,如果不满足标准再判断是否为非连续文本。满足各式行文写法和习惯用语的目标文本,使得对目标文本处理具有较高的覆盖率。
19.一种基于多级模型的文本要素抽取系统,该系统采用了上述一种基于多级模型的文本要素抽取方法。
20.一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现一种基于多级模型的文本要素抽取方法的步骤。
21.存储介质上的计算机程序能够执行一种基于多级模型的文本要素抽取方法,保证该方法能够在不同计算机设备上正常运行实施。
附图说明
22.图1是一种基于多级模型的文本要素抽取系统的逻辑图;图2是弱标注迭代训练流程的逻辑图。
具体实施方式
23.下面通过具体实施方式对本技术技术方案进行进一步详细说明:如图1所示的一种基于多级模型的文本要素抽取方法,具体包括以下步骤:s1:针对历史决定文本数据进行预处理,历史决定文本数据包括行政处罚决定文本,具体包括:s11:遍历行政处罚决定文本中的段落是否包含违法行为相关的描述文字,对包含违法行为的段落进行标注。s12:如果段落包含违法行为描述,且描述为段落中连续的文本,则将此连续文本序列在段落中标注出开始点与结束点。
24.s13:如果段落包含违法行为描述,但原文较为琐碎,无法提取出连续文本作为违法行为描述,则直接标注出段落对应的违法行为具体描述文本。
25.s2:利用s1得到的预处理数据训练多级预测模型,具体包括:s21:将s11得到的标注数据作为训练数据,基于gradient boosting模型训练得到段落分类模型,其输入为段落文本,输出为段落文本是否包含有对违法行为的描述内容。
26.s22:将s12得到的标注数据作为训练数据,将在领域文本上完成了语言模型任务
预训练的bert神经网络模型作为基础模型,训练得到文本抽取模型,其输入为段落文本,输出为段落中的违法行为描述文字,且此描述文字对应的字符串为在原文中有出现过的显式文本。
27.s23:将s13得到的标注数据作为训练数据,任务预训练的bart神经网络模型作为基础模型,训练得到文本生成模型,其输入为段落文本,输出为违法行为描述文字,而此描述文字对应的字符串为在原文中未直接出现的隐式文本。
28.s3:如图2所示,利用弱标注数据对模型进行迭代,具体包括:s31:检验模型是否达到了预期精度,如果达到了预期精度则模型训练完成。
29.s32:如果未达到预期精度,则使用预测模型预测得到一批弱标注数据,具体包括:s32-1:在未标注数据上利用预测模型得到预测结果。
30.s32-2:判断预测结果是否为高置信度,如果为是,则将该预测结果作为自动标注数据如果为否,则将预测结果纳入未标注数据,如果s32-1得到的预测结果均不满足高置信度,将停止执行s32,并直接完成模型训练。
31.s32-3:由于随着训练模型的迭代,训练模型的精度将会越来越高,预测模型得到的预测结果也将更能满足要求,因此未标注数据将等待后续模型迭代后再次利用预测模型重新进行预测,并重复进行s32-2步骤。
32.s33:利用弱标注数据对模型进行训练,并重复s31。
33.s4:利用模型对处罚决定文本进行处理,具体包括:s41:将行政处罚决定文本拆分为段落,输入段落分类模型,得到其中有可能包含违法行为描述的段落,检查该段落是否为有效段落,如果是则将其作为候选段落。
34.s42:将候选段落输入文本抽取模型,如得到高置信度的结果,则将其作为违法行为描述返回并结束流程。
35.s43:如文本抽取模型未得到高置信度的结果,则将候选段落输入文本生成模型进行处理,如文本生成模型得到高置信度的结果,则将其作为违法行为描述返回并结束流程,否则返回无结果并结束。
36.实施例二本实施例与实施例一的区别技术特征在于,s33还包括:s33-1:提取得到的弱标注数据中的文本关键词、企业名称、发文时间等信息,通过上述信息检索到相关新闻,在检索相关新闻时尽量选取权威媒体发出的报道。
37.s33-2:采集检索到的新闻网页,提取新闻文本数据,得到新闻表意结果并与弱标注数据的标注数据进行比对,判断二者是否一致。
38.s33-3:当二者一致时,即弱标注数据准确,直接执行s33-5,当二者不一致时,继续检索选取更多媒体发出的相关报道,根据媒体的影响力设置权重值,将所有的检索结果按照权重值计算得到新闻综合表意结果,并将新闻综合表意结果与弱标注数据的标注数据进行比对判断二者是否一致。
39.s33-4:当二者仍不一致时,将该弱标注数据重新纳入未标注数据,等待后续模型迭代后再次利用预测模型重新进行预测。
40.s33-5:利用经过验证后的弱标注数据对以预测模型进行训练。
41.实施例三
本实施例与实施例二的区别技术特征在于,s1在进行数据标注预处理时,还将对处罚决定文本对应的企业进行知名度排序,进行知名度排序时将首先根据是否为上市企业设置上市企业权重值,根据企业规模大小设置规模权重值,根据媒体曝光率设置曝光权重值、根据品牌知名度设置品牌权重值、根据品牌代言人设置代言人权重值等。
42.根据上市企业权重值、规模权重值、曝光权重值、品牌权重值、代言人权重值综合加权计算企业知名度。按照知名度对企业对应的文本数据的处理顺序进行倒序排序,即s1优选对知名度较低、规模较小企业的文本数据进行标注,将知名度较高、规模较大的企业的优先级置后,尽量利用后续预测模型进行弱标注使用,有益效果在于,对于上市公司或知名度更大、企业规模更大的企业,s33能够更容易地检索企业对应的相关新闻,便于s33后续步骤对弱标注数据监督验证。
43.本实施例还提供一种基于多级模型的文本要素抽取系统,该系统采用了上述一种基于多级模型的文本要素抽取方法。
44.本实施例还提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述一种基于多级模型的文本要素抽取方法的步骤。
45.本领域普通技术人员可以理解实现上述一种基于多级模型的文本要素抽取方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括一种基于多级模型的文本要素抽取方法的各个实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。以上内容仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未做过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本技术给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本技术的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以做出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本技术要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
技术特征:
1.一种基于多级模型的文本要素抽取方法,其特征在于:包括:s1:针对历史决定文本数据进行预处理;s2:利用预处理数据训练多级预测模型,包括:s21:基于gradient boosting模型训练得到段落分类模型,用于识别段落是否包含违法行为;s22:将在领域文本上完成了语言模型任务预训练的bert神经网络模型作为基础模型,训练得到文本抽取模型,用于识别在原文中直接出现的违法行为描述文字;s23:将任务预训练的bart神经网络模型作为基础模型,训练得到文本生成模型,用于识别在原文中未直接出现的违法行为描述文字。2.根据权利要求1所述的一种基于多级模型的文本要素抽取方法,其特征在于:所述s1还包括:s11:对行政处罚决定文本中包含违法行为的段落进行标注;s12:如果段落包含违法行为描述,且描述为段落中连续的文本,则将此连续文本序列在段落中标注出开始点与结束点;s13:如果段落包含违法行为描述,但原文无法提取出连续文本作为违法行为描述,则直接标注出段落对应的违法行为具体描述文本。3.根据权利要求1或2任一项所述的一种基于多级模型的文本要素抽取方法,其特征在于:还包括:s3:利用预测模型得到弱标注数据,并利用弱标注数据对模型进行训练;s4:利用模型对处罚决定文本进行处理。4.根据权利要求3所述的一种基于多级模型的文本要素抽取方法,其特征在于:所述s3包括:s31:检验模型是否达到了预期精度;s32:如果未达到预期精度,则使用预测模型预测得到一批弱标注数据;s33:利用弱标注数据对模型进行训练,并重复s31。5.根据权利要求4所述的一种基于多级模型的文本要素抽取方法,其特征在于:所述s32具体包括:s32-1:在未标注数据上利用预测模型得到预测结果;s32-2:判断预测结果是否为高置信度,如果为是,则将该预测结果作为自动标注数据如果为否,则将预测结果纳入未标注数据;s32-3:再次利用预测模型对未标注数据重新进行预测,并重复进行s32-2步骤。6.根据权利要求5所述的一种基于多级模型的文本要素抽取方法,其特征在于:s32-2中如果s32-1得到的预测结果均不满足高置信度,将停止执行s32,并直接完成模型训练。7.根据权利要求3所述的一种基于多级模型的文本要素抽取方法,其特征在于:所述s4包括:s41:将行政处罚决定文本输入段落分类模型,得到其中包含违法行为描述的段落,将该段落作为候选段落;s42:将候选段落输入文本抽取模型,如得到高置信度的结果,则将其作为违法行为描述返回并结束流程;
s43:如文本抽取模型未得到高置信度的结果,则将候选段落输入文本生成模型进行处理,如文本生成模型得到高置信度的结果,则将其作为违法行为描述返回并结束流程,否则返回无结果并结束。8.一种基于多级模型的文本要素抽取系统,其特征在于:采用了如权利要求1-7中任一项所述的一种基于多级模型的文本要素抽取方法。9.一种存储介质,其特征在于:所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于多级模型的文本要素抽取方法的步骤。
技术总结
本发明涉及自然语言处理技术领域,具体为一种基于多级模型的文本要素抽取方法、系统及存储介质。所述系统运用了所述方法,所述方法包括:S1:针对历史决定文本数据进行预处理;S2:利用预处理数据训练多级预测模型,包括:S21:基于gradient boosting模型训练得到段落分类模型,用于识别段落是否包含违法行为;S22:将在领域文本上完成了语言模型任务预训练的BERT神经网络模型作为基础模型,训练得到文本抽取模型,用于识别在原文中直接出现的违法行为描述文字;S23:将任务预训练的BART神经网络模型作为基础模型,训练得到文本生成模型,用于识别在原文中未直接出现的违法行为描述文字。该技术方案能够使得对目标文本的内容处理具有较高的覆盖率。处理具有较高的覆盖率。处理具有较高的覆盖率。
技术研发人员:侯聪 丁建勇
受保护的技术使用者:盛宝金融科技有限公司
技术研发日:2023.03.30
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:数据预缓存方法及装置与流程 下一篇:一种用于排水板安装的插板器