一种事件要素自动抽取系统及方法与流程

未命名 08-29 阅读:124 评论:0


1.本发明涉及一种事件要素自动抽取系统及方法,属于人工智能自然语言处理技术领域。


背景技术:

2.随着金融行业对舆情数据监测与分析的需求与日俱增,对舆情数据进行深度挖掘逐渐成为金融行业的一大研究重点,其中,对金融事件的相关要素的抽取是挖掘舆情数据的重要基础。因为金融领域的部分公告文件一般是客观的事实陈述,且事件要素基本都包含在文件内容中,所以金融事件的相关要素可以利用自然语言处理技术从上市公司的公告文件中自动解析出来。事件要素自动抽取可以产生以下价值:(1)减少研究人员搜集、整理和加工公告等数据的重复性工作;(2)为舆情数据的监测与分析提供数据基础;(3)该技术可以帮助研究人员快速获得事件的结构化要素信息,加速研究人员的调研分析过程。
3.事件要素自动抽取本质上是一个对数据进行结构化的过程,即将事件公告文件视作一个非结构化的数据,根据该数据自动抽取出对应事件的结构化的要素信息。目前市面上比较常用的方法主要有两大类,一类是基于规则模板;另一类是基于深度神经网络的方法。基于深度神经网络的要素提取方法又可以细分为基于序列标注的方法、基于机器阅读理解的方法以及基于序列生成的方法。
4.基于规则匹配的方法,首先归纳并整理每类公告中的事件类型对应要抽取的要素内容;其次,对每类事件的每种要素类型设计规则提取模板,根据每种要素内容的格式特征等提取对应的要素。例如,要提取“债券购回”类的“回购时间”要素,通过归纳得出该要素的出现格式一般是“回购日期为xxxx年xx月xx日”,利用该规则模板去文本中匹配对应的内容,从而获取回购时间;最后,将所有抽取的要素文本以字典的形式保存在一起,得到最终的结构化要素内容文本。
5.基于序列标注的方法主要是仿照命名实体识别任务,采用“编码器+分类器”的结构,利用一个编码器对输入文本进行编码,并通过分类器对文本中的每个词进行分类,判断该词是否属于事件要素内容。最后再对抽取出的文本短语与要素进行匹配。基于序列标注的方法的整体框架如图1所示。
6.基于机器阅读理解的方法是将要素抽取任务转换成问答任务,主要的思路是设计问题模板,用阅读理解的方式抽取文本中的要素。例如,对于“债券购回”类事件,“回购时间”要素对应的问题可以设计成“该债券是哪一天回购的?”或“回购日期是?”,然后将该问题与待抽取的文本拼接到一起输入编码器中,然后对文本中的内容进行标注。基于机器阅读理解的方法与基于序列标注采用的基础模型框架结构是相似的,主要区别在于输入输出的内容和格式。基于机器阅读理解的方法的整体框架如图2所示。
7.基于序列生成的事件要素抽取方法是用生成的方式解决事件要素抽取任务。该方法一般会利用各类预训练的序列生成模型,如bart、t5等模型,输入事件类型和事件所有待抽取要素组成的提示性信息和待抽取文本,模型会依次解码出各个要素的内容。例如,“债
券购回”类事件的要素抽取的提示性信息模板是“债券购回[sep]回购时间[arg]回购数量[arg]
…”
其中,“[sep]”、“[arg]”等都属于人为设计的特殊的分隔符。基于序列生成的方法的整体框图如图3所示。
[0008]
上述方法虽然能够实现事件要素自动抽取,但是在实际使用中仍存在部分问题:
[0009]
基于规则匹配的方法采用的规则模板的样式过于单一死板,要素匹配时兼容性较差,要素内容换个说法就匹配不到了;匹配规则的归纳、维护和扩展工作需要较高的人力成本和领域知识。
[0010]
基于序列标注的要素生成方法中,每一个类别都依赖大量的标注数据集对模型进行训练,但是金融领域的事件种类多,标注数据较少,因此模型准确率较差;迁移性差,在新增的事件类型上表现很差,需要加入新的事件类型的训练语料对模型进行重新训练,维护成本高。
[0011]
基于机器阅读理解的要素抽取方法,对于每类事件的每种要素都要推理一次,因此该方法所需的推理时间较长;每类事件之间以及一类事件中的每种要素之间都是分开训练的,没有建立相互联系。
[0012]
基于序列生成的事件要素抽取方法的表现依赖模型的预训练和提示信息的设计,现有的方法缺乏对不同事件类型之间的联系的建模,并且输出的生成文本不能保证全部来源于输入文本。


技术实现要素:

[0013]
为了解决现有技术中存在的问题,本发明提出了一种事件要素自动抽取系统及方法,通过基于相似性度量的数据处理方法和基于双态prompt的序列生成模型,在只有少量标注数据样本的情况下,建立不同事件类型之间的联系,快速、准确地提取事件要素。
[0014]
为解决上述技术问题,本发明采用了如下技术手段:
[0015]
第一方面,本发明提出了一种事件要素自动抽取系统,包括模型迭代模块和数据迭代模块;
[0016]
所述模型迭代模块用于根据标注数据集迭代训练基于双态prompt的事件要素抽取模型,还用于获取数据迭代模型生成的新的标注数据,更新所述标注数据集;
[0017]
所述数据迭代模块用于通过相似度度量从未标注的文本数据中获取与所述标注数据集中事件要素上下文相似的相似上下文,通过所述模型迭代模块训练的基于双态prompt的事件要素抽取模型,从相似上下文中抽取事件要素,还用于根据事件要素和对应的相似上下文生成新的标注数据。
[0018]
结合第一方面,进一步的,所述基于双态prompt的事件要素抽取模型根据静态prompt、动态prompt和当前上下文文本进行事件要素抽取,其中,当前上下文文本为输入基于双态prompt的事件要素抽取模型的事件要素上下文或相似上下文。
[0019]
结合第一方面,进一步的,所述静态prompt包括多个事件类型和每个事件类型下待抽取的事件要素模板。
[0020]
结合第一方面,进一步的,所述动态prompt的获取方法为:
[0021]
对属于同一个上层类别的多个事件类型进行聚合,得到k个事件向量;
[0022]
根据专家知识获取当前事件类型与k个事件向量的相关性,得到第一相关性权重;
[0023]
通过文本语义分析,获取当前上下文文本与k个事件向量的相似度,得到第二相关性权重;
[0024]
根据第一相关性权重和第二相关性权重对k个事件向量进行加权聚合,得到当前的动态prompt。
[0025]
结合第一方面,进一步的,在数据迭代模块中,通过相似度度量从未标注的文本数据中获取与所述标注数据集中事件要素上下文相似的相似上下文,包括:
[0026]
将未标注的文本数据中每连续3句作为一个相似度的计算单元,得到多个计算单元;
[0027]
对标注数据集中的所有事件要素上下文和未标注的文本数据中的所有计算单元进行向量化,得到事件要素上下文特征向量和计算单元特征向量;
[0028]
通过相似度度量算法计算每个计算单元特征向量与每个事件要素上下文特征向量之间的相似度;
[0029]
当相似度超过预设阈值,则该计算单元特征向量对应的计算单元为一个相似上下文。
[0030]
结合第一方面,进一步的,所述相似度度量算法采用余弦相似度。
[0031]
第二方面,本发明提出了一种事件要素自动抽取方法,包括如下步骤:
[0032]
获取标注数据集和未标注的文本数据;
[0033]
基于所述标注数据集中的事件要素上下文,对所述未标注的文本数据进行相似性度量,得到相似上下文;
[0034]
利用基于双态prompt的事件要素抽取模型对所述相似上下文进行要素抽取,得到粗粒度的事件要素,并更新所述标注数据集;
[0035]
其中,所述基于双态prompt的事件要素抽取模型根据所述标注数据集进行迭代训练。
[0036]
结合第二方面,进一步的,所述基于双态prompt的事件要素抽取模型采用静态prompt、动态prompt。
[0037]
结合第二方面,进一步的,所述静态prompt包括多个事件类型和每个事件类型下待抽取的事件要素模板;
[0038]
所述动态prompt的获取方法为:
[0039]
对属于同一个上层类别的多个事件类型进行聚合,得到k个事件向量;
[0040]
根据专家知识获取当前事件类型与k个事件向量的相关性,得到第一相关性权重;
[0041]
通过文本语义分析,获取当前上下文文本与k个事件向量的相似度,得到第二相关性权重;
[0042]
根据第一相关性权重和第二相关性权重对k个事件向量进行加权聚合,得到当前的动态prompt。
[0043]
结合第二方面,进一步的,基于所述标注数据集中的事件要素上下文,对所述未标注的文本数据进行相似性度量,得到相似上下文,包括:
[0044]
将未标注的文本数据中每连续3句作为一个相似度的计算单元,得到多个计算单元;
[0045]
对标注数据集中的所有事件要素上下文和未标注的文本数据中的所有计算单元
进行向量化,得到事件要素上下文特征向量和计算单元特征向量;
[0046]
通过相似度度量算法计算每个计算单元特征向量与每个事件要素上下文特征向量之间的相似度;
[0047]
当相似度超过预设阈值,则该计算单元特征向量对应的计算单元为一个相似上下文。
[0048]
采用以上技术手段后可以获得以下优势:
[0049]
本发明提出了一种事件要素自动抽取系统及方法,利用少量标注样本及其事件要素上下文,通过相似性度量查找相似上下文,一方面可以快速定位到要素所在的位置,减少了冗余信息,提升了模型处理的效率;另一方面从未标注样本中找到与标注样本相似上下文区域,减少人工检索未标注样本中包含事件要素区域的工作量,提升文档级事件要素抽取的准确性。本发明引入静态prompt和动态prompt,通过不断更新的训练数据集(标注数据集)训练基于双态prompt的事件要素抽取模型,可以让模型在生成过程中感知事件类型信息以及事件之间的关系,能够帮助模型迅速建立不同事件类型之间的联系。在相似上下文的基础上,通过事件要素提取模型生成粗粒度的事件要素,能够有效提升模型处理效率、未标注数据的利用率、事件要素抽取的准确性,还能够辅助人工质检。即使在标注数据匮乏和出现新的事件类型时本发明方法也有不错的表现。
附图说明
[0050]
图1为基于序列标注的事件要素抽取方法的框架示意图;
[0051]
图2为基于机器阅读理解的事件要素抽取方法的框架示意图;
[0052]
图3为基于序列生成的事件要素抽取方法的框架示意图;
[0053]
图4为本发明事件要素抽取系统的整体框架结构示意图;
[0054]
图5为包含事件要素的上下文文本的示意图;
[0055]
图6为本发明基于双态prompt的事件要素抽取模型的框架结构示意图;
[0056]
图7为本发明实施例中动态prompt的生产过程示意图。
具体实施方式
[0057]
下面结合附图对本发明的技术方案作进一步说明:
[0058]
事件要素抽取任务是金融事件文本中自动地识别出给定事件类型的相关要素的任务。假设给定金融事件相关文本集合d={d1,d2,

,dn}以及每篇文本对应的事件类型,其中包含的事件类型的集合t={t1,t2,

,tm},n为文本总数量,m为事件类型总数量。另外还要给定每种事件类型需要抽取的要素,如事件类型tj(j∈[1,m])对应的待抽取要素集合aj={a
j,1
,a
j,2
,

,a
j,k
},k为第j个事件类型中需要抽取的要素总数。最后,对于文本di(i∈[1,n])和对应事件类型tj,模型会根据给定信息抽取出文本中的事件要素的值
[0059]
根据现有技术可知,文档级别的金融事件分类面临着两大挑战:一是事件文本以文档为级别,冗余信息多,文本过长模型也不易处理;二是事件类型繁多且标注资源匮乏,难以对每种事件类型都一一进行细粒度的要素标签标注。
[0060]
本发明提出一种事件要素自动抽取系统及方法,通过基于双态prompt的事件要素
抽取模型和基于相似性度量的数据处理方法,解决了文本冗余信息多、标注资源匮乏等问题,实现了更加快速、准确的事件要素抽取。
[0061]
实施例1:
[0062]
本实施例介绍一种事件要素抽取系统,如图4所示,包括模型迭代模块和数据迭代模块。
[0063]
模型迭代模块主要用于迭代训练基于双态prompt的事件要素抽取模型。模型迭代模块具体用于:(1)根据标注数据集中的标注数据,得到包含事件要素的事件要素上下文;(2)通过事件要素、事件要素上下文对基于双态prompt的事件要素抽取模型进行训练;(3)根据数据迭代模块中新生成的标注数据更新标注数据集,并返回步骤(1)。其中,标注数据指已经标注了事件要素内容和位置的金融事件文本。
[0064]
模型迭代模块需要对标注数据集进行预处理和特征提取,获取事件要素上下文。在本发明实施例中,事件要素上下文通常为含有具体事件要素的句子以及该句子前一句和后一句,三个句子共同组成一个事件要素上下文。例如当前要抽取事件要素是“违法事项”,从标注语料中获取所有“***行为***违反***条例”出现的句子,以及前一句和后一句,三句拼成一条句子,作为“违法事项”这个要素的上下文,每一个事件要素可以对应多个句子的上下文,如图5所示。
[0065]
在本发明实施例中,基于双态prompt的事件要素抽取模型的基模型为基于prompt的生成式要素抽取模型。基于prompt的生成式要素抽取模型是将事件类型和该类型的待抽取要素名称作为提示信息与上下文文本拼接,输入到生成式预训练模型中,解码生成指定模板的要素序列。相对于基于序列标注模型,基于prompt的生成式要素抽取模型对标注数据的依赖程度更低,能够在少样本的情况下也有较好的表现;相对于基于机器阅读理解的方法,基于prompt的生成式要素抽取模型在推理阶段,可以一次性输出文本中包含的某个事件的所有要素,推理效率更高。
[0066]
但是,现有的基于prompt的生成式预训练模型仍存在一定的缺陷:一方面,传统的基于prompt的事件要素抽取方法是将每个事件类型单独作为静态提示信息输入到模型中,缺乏对不同事件类型关系的捕捉和利用;另一方面,部分研究虽然设计了上下文相关的动态prompt意图建模事件类型间的关系,却忽略了事件类型标签相关的静态prompt的作用,并且是仅依赖。
[0067]
本发明在基于prompt的生成式要素抽取模型的基础上提出了基于双态prompt的事件要素抽取模型,在要素抽取过程中,需要同时运用静态prompt和动态prompt,如图6所示,将静态prompt、动态prompt、包含事件要素的上下文文本输入编码器,通过模型的解码器解码出具体的事件要素内容。
[0068]
在本发明的应用场景下已经提前获取了事件类型、每个事件类型下包含哪些要素等基础信息,在此基础上,本发明进行事件要素自动抽取。
[0069]
本发明采用的静态prompt包括事件类型标签以及待抽取的事件要素模板,事件类型标签和待抽取的事件要素模板都可以预先通过人为设定。例如,“债券购回”类事件要抽取的要素有“债券名称”、“回购时间”“回购金额”等,对应的静态prompt为:“债券购回[sep]债券名称[arg]回购时间[arg]回购金额[arg]”。静态prompt的模板信息为模型提取相应要素起到了提示性作用。
[0070]
本发明采用的动态prompt是根据k个事件向量与上下文文本计算得到的,如图7所示。在本发明实施例中,事件向量不是待抽取的每个事件类型各对应一个向量,而是待抽取的事件类型的上层类别的聚合向量,例如,“董监高变更”、“实控人变更”等都属于上层类别“人事变动”,这一大类关注的事件要素也都比较相似,因此可以将这些事件的表示聚合成一个事件向量。动态prompt就是根据这k个事件向量加权聚合而成。权重的依据主要有两方面:一方面是根据人工专家知识得到的当前事件类型与各个上层类别的相关性,得到第一相关性权重,专家知识是指专家提供的当前类别与k个上层事件的相关性权重,这样可以将通用的事件类型的相关性先验知识引入到动态prompt中;另一方面根据当前文本与事件向量的相似性,通过计算当前文本内容的聚合向量与k个事件向量的相似度,动态地获取当前上下文文本与各个事件向量的相关性权重,得到第二相关性权重,其中,当前文本内容的聚合向量可以通过对编码模型的输出字符进行聚合得到,相似度可以通过余弦相似度计算得到。通过第一相关性权重和第二相关性权重对k个事件向量进行加权聚合,得到当前的动态prompt,可以将事件类型的通用相关性知识和样例文本的动态相关性结合起来,共同引入到动态prompt中,为事件类型的抽取提供动态提示性信息。
[0071]
本发明通过引入静态提示信息(事件类型标签和事件要素名模板)与动态提示信息(基于专家知识和上下文的事件向量组合),来帮助基于双态prompt的事件要素抽取模型在生成过程中感知事件类型信息以及事件之间的关系,这样能够帮助模型迅速建立不同事件类型之间的联系,在标注数据匮乏和出现新的事件类型时也能有不错的表现。
[0072]
数据迭代模块主要用于利用事件要素抽取模型,结合相似度度量方法,从未标注的文本数据中提取粗粒度的标注数据(即粗粒度的事件要素)。具体的,通过相似度度量从未标注的文本数据中获取与标注数据集中事件要素上下文相似的相似上下文,通过模型迭代模块训练的基于双态prompt的事件要素抽取模型,从相似上下文中抽取事件要素,然后根据事件要素和对应的相似上下文生成新的标注数据,在新的标注数据中,相似上下文即为事件要素上下文。
[0073]
文档级(document-level)的事件要素提取需要利用模型或者规则对全文所有句子进行抽取,当文本内容多,且要素稀疏时,会导致资源的浪费,因此快速定位包含要素区域,缩小探索空间可以大大的提高效率。为此,本发明数据迭代模块采用了基于相似性度量的数据处理方法,利用少量标注样本及其上下文(上下文定义为当前包含事件要素的句子,当前句的前一句和后一句)从未标注的文本数据中找出与标注样本相似的上下文区域减少人工检索未标注样本中包含事件要素区域的工作量,加速数据-模型-数据迭代过程。
[0074]
数据迭代模块包括相似性度量子模块和事件要素抽取子模块。
[0075]
相似性度量子模块具体用于:(1)将未标注文本数据中每连续3句作为一个相似度的计算单元,得到多个计算单元;(2)将标注数据集中的事件要素上下文和未标注文本数据中的计算单元向量化,得到事件要素上下文特征向量和计算单元特征向量;(3)分别计算每个计算单元特征向量与标注数据集中每个事件要素上下文特征向量之间的相似度,向量之间的相似度度量采用余弦相似度;(4)当相似度超过预设阈值,则该计算单元可能包括要素,是一个相似上下文。
[0076]
在相似性度量子模块中,向量化过程包括两个部分:一部分使用预训练的大语言模型对事件要素上下文和计算单元进行编码,获取语义层面的特征;另一部分采用one-hot
编码,得到事件要素上下文和计算单元的字典特征,编码长度根据领域特点来设计,字典特征作为先验知识加入可以提高相似度计算的准确度。
[0077]
事件要素抽取子模块获取相似度度量子模块输出的相似上下文,并将该相似上下文输入当前时刻训练后的基于双态prompt的事件要素抽取模型,从相似上下文中抽取事件要素。
[0078]
考虑到模型准确性问题,还可以在本发明方法之后引入人工质检流程,对本发明系统抽取的粗粒度的事件要素进行人工检查,一方面减少人工检索未标注样本中包含事件要素区域的工作量,在较短时间和较少人力成本的基础上提升文档级事件要素抽取的准确性,另一方面,将人工检查后的事件要素及其对应的上下文作为新的标注数据加入到模型迭代模块的标注数据集中,利用更新后的标注数据集重新训练模型,不断循环迭代,优化模型性能。
[0079]
实施例2:
[0080]
在实施例1的基础上,本实施例介绍一种事件要素自动抽取方法,包括如下步骤:
[0081]
步骤a、获取标注数据集和未标注的文本数据。
[0082]
通过网络或其他渠道获取公开发布的金融相关的公告,对其中部分文本进行标注,即需要标注出文本中不同事件要素的位置、内容,还需要标注出要素所在上下文,形成标注数据集。
[0083]
步骤b、基于标注数据集中的事件要素上下文,对未标注的文本数据进行相似性度量,得到相似上下文。
[0084]
步骤b01、将未标注的文本数据中每连续3句作为一个相似度的计算单元,得到多个计算单元。
[0085]
步骤b02、对标注数据集中的所有事件要素上下文和未标注的文本数据中的所有计算单元进行向量化,得到事件要素上下文特征向量和计算单元特征向量。
[0086]
步骤b02的具体操作为:使用预训练的大语言模型对事件要素上下文和计算单元进行编码,获取语义层面的特征;采用one-hot编码,得到事件要素上下文和计算单元的字典特征,编码长度根据领域特点来设计;结合语义层面的特征和字典特征,得到事件要素上下文特征向量和计算单元特征向量。在本发明中,字典特征作为先验知识加入可以提高相似度计算的准确度。
[0087]
步骤b03、通过余弦相似度计算方法计算每个计算单元特征向量与每个事件要素上下文特征向量之间的相似度。
[0088]
步骤b04、将步骤b03计算出的每个相似度与预设阈值比较,当相似度超过预设阈值,则该计算单元特征向量对应的计算单元为一个相似上下文。
[0089]
步骤c、利用基于双态prompt的事件要素抽取模型对相似上下文进行要素抽取,得到粗粒度的事件要素,并更新标注数据集。
[0090]
在步骤c中,基于双态prompt的事件要素抽取模型根据静态prompt、动态prompt和当前上下文文本进行事件要素抽取,其中,当前上下文文本为输入基于双态prompt的事件要素抽取模型的事件要素上下文或相似上下文。基于双态prompt的事件要素抽取模型根据标注数据集进行迭代训练,不断优化模型参数。
[0091]
在本发明实施例中,静态prompt包括多个事件类型和每个事件类型下待抽取的事
件要素模板,通常是人为给定的。动态prompt根据k个事件向量加权聚合而成。
[0092]
动态prompt的获取方法为:
[0093]
(1)对属于同一个上层类别的多个事件类型进行聚合,得到k个事件向量。
[0094]
(2)根据专家知识获取当前事件类型与k个事件向量的相关性,得到第一相关性权重。
[0095]
(3)通过文本语义分析,获取当前上下文文本与k个事件向量的相似度,得到第二相关性权重。
[0096]
(4)根据第一相关性权重和第二相关性权重对k个事件向量进行加权聚合,得到当前的动态prompt。
[0097]
在步骤c中,每完成一个事件要素抽取,就可以根据该事件要素、对应的相似上下文、所述的未标注文本数据生成一个新的标注数据,用于更新标注数据集。通过不断更新标注数据集,采用更新后的标注数据集训练模型,可以有效提高模型准确率。
[0098]
在实际运用中,本发明方法还可以引入人工核验步骤,对模型抽取的事件要素进行核验,得到更细粒度的标注数据。
[0099]
在本发明实施例中,以行政处罚类公告事件要素为例再次介绍本发明方法:
[0100]
step1:以行政处罚类公告事件要素为例,需要抽取以下要素:违法事项、违法原因、处罚决定。搜集1000篇深交所、上交所发布的上市公司行政处罚类公告。
[0101]
step2:数据标注。从step1中随机挑选50篇公告标注,除了标注要素的位置,同时标注出要素所在上下文。
[0102]
step3:基于step2的标注数据,训练基于双态prompt的事件要素抽取模型。
[0103]
step4:基于step2中标注数据的事件要素上下文,计算step1中未标注的950篇公告中有哪些句子和要素上下文相似,获取可能包含事件要素的区域,即相似上下文。
[0104]
step5:利用step3训练的模型去预测step4中可能包含事件要素的区域,得到粗粒度的预测打标数据,即粗粒度的事件要素。
[0105]
step6:人工核验step5得到粗粒度的标注数据,得到标注数据,将新的标注数据加入到step1中。再从step3开始新的一轮的数据和模型迭代,直到模型事件要素抽取f1值达到某个阈值,停止迭代。
[0106]
与现有技术相比,本发明系统和方法具有如下优势:
[0107]
1、本发明创新性地提出了基于双态prompt的事件要素抽取模型,可以让模型在生成过程中感知事件类型信息以及事件之间的关系,这样能够帮助模型迅速建立不同事件类型之间的联系。在标注数据匮乏和出现新的事件类型时也有不错的表现。
[0108]
2、本发明创新性地提出了基于相似性度量的数据处理方法,该方法利用少量标注样本及其上下文,一方面可以快速定位到要素所在的位置,减少了冗余信息,提升了模型处理的效率;另一方面从未标注样本中找到与标注样本相似上下文区域,减少人工检索未标注样本中包含事件要素区域的工作量,提升文档级事件要素抽取的准确性。采用相似性度量的方式处理文档级数据,能够提升模型处理效率、未标注数据的利用率、以及辅助人工质检。
[0109]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形
也应视为本发明的保护范围。

技术特征:
1.一种事件要素自动抽取系统,其特征在于,包括模型迭代模块和数据迭代模块;所述模型迭代模块用于根据标注数据集迭代训练基于双态prompt的事件要素抽取模型,还用于获取数据迭代模型生成的新的标注数据,更新所述标注数据集;所述数据迭代模块用于通过相似度度量从未标注的文本数据中获取与所述标注数据集中事件要素上下文相似的相似上下文,通过所述模型迭代模块训练的基于双态prompt的事件要素抽取模型,从相似上下文中抽取事件要素,还用于根据事件要素和对应的相似上下文生成新的标注数据。2.根据权利要求1所述的事件要素自动抽取系统,其特征在于,所述基于双态prompt的事件要素抽取模型根据静态prompt、动态prompt和当前上下文文本进行事件要素抽取,其中,当前上下文文本为输入基于双态prompt的事件要素抽取模型的事件要素上下文或相似上下文。3.根据权利要求2所述的事件要素自动抽取系统,其特征在于,所述静态prompt包括多个事件类型和每个事件类型下待抽取的事件要素模板。4.根据权利要求3所述的事件要素自动抽取系统,其特征在于,所述动态prompt的获取方法为:对属于同一个上层类别的多个事件类型进行聚合,得到k个事件向量;根据专家知识获取当前事件类型与k个事件向量的相关性,得到第一相关性权重;通过文本语义分析,获取当前上下文文本与k个事件向量的相似度,得到第二相关性权重;根据第一相关性权重和第二相关性权重对k个事件向量进行加权聚合,得到当前的动态prompt。5.根据权利要求1所述的事件要素自动抽取系统,其特征在于,在数据迭代模块中,通过相似度度量从未标注的文本数据中获取与所述标注数据集中事件要素上下文相似的相似上下文,包括:将未标注的文本数据中每连续3句作为一个相似度的计算单元,得到多个计算单元;对标注数据集中的所有事件要素上下文和未标注的文本数据中的所有计算单元进行向量化,得到事件要素上下文特征向量和计算单元特征向量;通过相似度度量算法计算每个计算单元特征向量与每个事件要素上下文特征向量之间的相似度;当相似度超过预设阈值,则该计算单元特征向量对应的计算单元为一个相似上下文。6.根据权利要求5所述的事件要素自动抽取系统,其特征在于,所述相似度度量算法采用余弦相似度。7.一种事件要素自动抽取方法,其特征在于,包括如下步骤:获取标注数据集和未标注的文本数据;基于所述标注数据集中的事件要素上下文,对所述未标注的文本数据进行相似性度量,得到相似上下文;利用基于双态prompt的事件要素抽取模型对所述相似上下文进行要素抽取,得到粗粒度的事件要素,并更新所述标注数据集;其中,所述基于双态prompt的事件要素抽取模型根据所述标注数据集进行迭代训练。
8.根据权利要求7所述的事件要素自动抽取方法,其特征在于,所述基于双态prompt的事件要素抽取模型采用静态prompt、动态prompt。9.根据权利要求8所述的事件要素自动抽取方法,其特征在于,所述静态prompt包括多个事件类型和每个事件类型下待抽取的事件要素模板;所述动态prompt的获取方法为:对属于同一个上层类别的多个事件类型进行聚合,得到k个事件向量;根据专家知识获取当前事件类型与k个事件向量的相关性,得到第一相关性权重;通过文本语义分析,获取当前上下文文本与k个事件向量的相似度,得到第二相关性权重;根据第一相关性权重和第二相关性权重对k个事件向量进行加权聚合,得到当前的动态prompt。10.根据权利要求7所述的事件要素自动抽取系统,其特征在于,基于所述标注数据集中的事件要素上下文,对所述未标注的文本数据进行相似性度量,得到相似上下文,包括:将未标注的文本数据中每连续3句作为一个相似度的计算单元,得到多个计算单元;对标注数据集中的所有事件要素上下文和未标注的文本数据中的所有计算单元进行向量化,得到事件要素上下文特征向量和计算单元特征向量;通过相似度度量算法计算每个计算单元特征向量与每个事件要素上下文特征向量之间的相似度;当相似度超过预设阈值,则该计算单元特征向量对应的计算单元为一个相似上下文。

技术总结
本发明公开了人工智能自然语言处理技术领域的一种事件要素自动抽取系统及方法,包括模型迭代模块和数据迭代模块;模型迭代模块用于根据标注数据集迭代训练基于双态Prompt的事件要素抽取模型,还用于获取数据迭代模型生成的新的标注数据,更新标注数据集;数据迭代模块用于通过相似度度量从未标注的文本数据中获取与标注数据集中事件要素上下文相似的相似上下文,通过模型迭代模块训练的基于双态Prompt的事件要素抽取模型,从相似上下文中抽取事件要素,还用于根据事件要素和对应的相似上下文生成新的标注数据。本发明能够在只有少量标注数据样本的情况下,建立不同事件类型之间的联系,快速、准确地提取事件要素。准确地提取事件要素。准确地提取事件要素。


技术研发人员:叶超 姜聪聪 王玲 曾文秋 朱阿柯 潘明慧 邱震宇 董臣令 方芳 朱江涛
受保护的技术使用者:华泰证券股份有限公司
技术研发日:2023.05.29
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐