训练信息抽取模型的方法、信息抽取方法及装置与流程
未命名
08-29
阅读:103
评论:0

1.本技术涉及人工智能和自然语言处理技术领域,特别是涉及一种训练信息抽取模型的方法、信息抽取方法及装置。
背景技术:
2.信息抽取(ie,information extraction)指的是利用信息抽取模型从文本中抽取出特定类型的目标,从而将海量内容自动分类、提取和重构,例如命名实体识别、实体关系抽取、事件抽取、情感抽取等。
3.传统的信息抽取技术大多针对特定类型的目标训练信息抽取模型,泛化性较差。为了解决这个问题,统一信息抽取技术被提了出来,即用一个统一的模型解决各种信息类型的抽取任务。现有的统一信息抽取方案均采用一步生成的方式,但这种方式抽取的目标准确性较差,特别是在抽取复杂类型的目标时效果更差。
技术实现要素:
4.有鉴于此,本技术提供了一种训练信息抽取模型的方法、信息抽取方法及装置,从而提升信息抽取的准确性。
5.本技术提供了如下方案:
6.第一方面,提供了一种训练信息抽取模型的方法,所述方法包括:
7.获取目标任务的训练数据,所述目标任务的训练数据包括多个第一训练样本,所述第一训练样本包括第一文本样本和针对该第一文本样本标注的所述目标任务指定的第一抽取条件对应的目标样本;
8.确定目标任务的子任务,利用所述子任务的训练数据训练信息抽取模型,直至满足预设的第一训练结束条件;所述子任务的训练数据包括多个第二训练样本,所述第二训练样本包括第二文本样本和针对该第二文本样本标注的所述子任务指定的第二抽取条件对应的目标样本,所述第二抽取条件是所述第一抽取条件中的部分子条件;
9.确定所述目标任务的组合训练数据,所述组合训练数据包括多个第三训练样本,所述第三训练样本由多于一个的第一训练样本合并得到;利用所述组合训练数据,在已经训练得到的信息抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件;
10.利用所述目标任务的训练数据在已经训练得到的信息抽取模型的基础上进一步训练,得到用以进行信息抽取的信息抽取模型。
11.根据本技术实施例中一可实现的方式,所述第二训练样本中的第二文本样本为从所述目标任务的训练数据中选取的第一训练样本中的第一文本样本;所述第二训练样本中的目标样本是所述选取的第一训练样本的目标样本中所述第二抽取条件对应的部分;
12.所述第三训练样本包括第三文本样本和针对第三文本样本标注的所述目标任务指定的第一抽取条件对应的目标样本,所述第三文本样本是由选取的多个第一训练样本中的第一文本样本合并得到的,所述第三文本样本中的目标样本是由所述选取的多个第一训
练样本中的目标样本合并得到的。
13.根据本技术实施例中一可实现的方式,在利用所述子任务的训练数据训练信息抽取模型时,将第二训练样本中的第二文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的所述第二抽取条件对应的目标信息与该第二训练样本中的目标样本之间的差异;
14.在利用所述组合训练数据训练信息抽取模型时,将第三训练样本中的文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的所述第一抽取条件对应的目标信息与该第三训练样本中的目标样本之间的差异;
15.在利用所述目标任务的训练数据训练信息抽取模型时,将第一训练样本中的第一文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的所述第一抽取条件对应的目标信息与该第一训练样本中的目标样本之间的差异。
16.根据本技术实施例中一可实现的方式,所述信息抽取模型采用序列到序列模型;
17.所述信息抽取模型的输入序列包括抽取条件信息以及所述输入文本,所述抽取条件信息为所述第一抽取条件的信息或所述第二抽取条件的信息;
18.所述信息抽取模型的输出序列包括目标信息,或者包括目标信息及其对应的目标类型信息。
19.根据本技术实施例中一可实现的方式,所述抽取条件信息包括:
20.抽取的目标类型信息,或者,
21.抽取的目标类型信息和部分目标类型对应的实例信息。
22.第二方面,提供了一种训练实体三元组抽取模型的方法,所述方法包括:
23.获取实体三元组抽取任务的训练数据,所述实体三元组抽取任务的训练数据包括多个第一训练样本,所述第一训练样本包括第一文本样本和针对该第一文本样本标注的所述实体三元组抽取任务指定的第一抽取条件对应的实体三元组样本,所述实体三元组包括头实体及其实体类型、尾实体及其实体类型,以及头实体和尾实体之间的关系;
24.确定实体三元组抽取任务的子任务,利用所述子任务的训练数据训练实体三元组抽取模型,直至满足预设的第一训练结束条件;所述子任务的训练数据包括多个第二训练样本,所述第二训练样本包括第二文本样本和针对该第二文本样本标注的所述子任务指定的第二抽取条件对应的目标样本,所述第二抽取条件是所述第一抽取条件中的部分子条件;
25.确定所述实体三元组抽取任务的组合训练数据,所述组合训练数据包括多个第三训练样本,所述第三训练样本由多于一个的第一训练样本合并得到;利用所述组合训练数据,在已经训练得到的实体三元组抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件;
26.利用所述实体三元组抽取任务的训练数据,在已经训练得到的实体三元组抽取模型的基础上进一步训练,得到用以进行实体三元组信息抽取的实体三元组抽取模型。
27.根据本技术实施例中一可实现的方式,针对第二文本样本标注的所述子任务指定的第二抽取条件对应的目标样本包括以下至少一种:
28.所述第二文本样本中的实体词及其实体类型;
29.所述第二文本样本中的实体关系词;
30.所述第二文本样本中指定头实体类型或头实体词的三元组,该三元组包括头实体、尾实体、以及头实体和尾实体之间的关系;
31.所述第二文本样本中指定关系类型的三元组,该三元组包括头实体、尾实体、以及头实体与尾实体之间的关系。
32.第三方面,提供了一种训练情感抽取模型的方法,所述方法包括:
33.获取情感抽取任务的训练数据,所述情感抽取任务的训练数据包括多个第一训练样本,所述第一训练样本包括第一文本样本和针对该第一文本样本标注的所述情感抽取任务指定的第一抽取条件对应的情感元素样本;
34.确定情感抽取任务的子任务,利用所述子任务的训练数据训练情感抽取模型,直至满足预设的第一训练结束条件;所述子任务的训练数据包括多个第二训练样本,所述第二训练样本包括第二文本样本和针对该第二文本样本标注的所述子任务指定的第二抽取条件对应的情感元素样本,所述第二抽取条件是所述第一抽取条件中的部分子条件;
35.确定所述情感抽取任务的组合训练数据,所述组合训练数据包括多个第三训练样本,所述第三训练样本由多于一个的第一训练样本合并得到;利用所述组合训练数据,在已经训练得到的情感抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件;
36.利用所述情感抽取任务的训练数据在已经训练得到的情感抽取模型的基础上进一步训练,得到用以进行情感元素抽取的情感抽取模型。
37.根据本技术实施例中一可实现的方式,针对第二文本样本标注的所述子任务指定的第二抽取条件对应的情感元素样本包括以下至少一种:
38.所述第二文本样本中的情感对象和情感词;
39.所述第二文本样本中指定情感对象类型或情感对象的情感三元组,所述情感三元组包括情感对象、情感词和情感极性;
40.所述第二文本样本中的情感极性;
41.所述第二文本样本中指定情感极性类型的情感三元组。
42.第四方面,提供了一种信息抽取的方法,所述方法包括:
43.获取待抽取文本;
44.将所述待抽取文本输入信息抽取模型,获取所述信息抽取模型从所述待抽取文本中抽取的预设第一抽取条件对应的目标信息;
45.其中所述信息抽取模型采用如上第一方面所述的方法预先训练得到。
46.第五方面,提供了一种训练信息抽取模型的装置,所述装置包括:
47.样本获取单元,被配置为获取目标任务的训练数据,所述目标任务的训练数据包括多个第一训练样本,所述第一训练样本包括第一文本样本和针对该第一文本样本标注的所述目标任务指定的第一抽取条件对应的目标样本;
48.第一训练单元,被配置为确定目标任务的子任务,利用所述子任务的训练数据训练信息抽取模型,直至满足预设的第一训练结束条件;所述子任务的训练数据包括多个第二训练样本,所述第二训练样本包括第二文本样本和针对该第二文本样本标注的所述子任务指定的第二抽取条件对应的目标样本,所述第二抽取条件是所述第一抽取条件中的部分子条件;
49.第二训练单元,被配置为确定所述目标任务的组合训练数据,所述组合训练数据
包括多个第三训练样本,所述第三训练样本由多于一个的第一训练样本合并得到;利用所述组合训练数据,在已经训练得到的信息抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件;
50.第三训练单元,被配置为利用所述目标任务的训练数据在已经训练得到的信息抽取模型的基础上进一步训练,得到用以进行信息抽取的信息抽取模型。
51.第六方面,一种信息抽取装置,所述装置包括:
52.文本获取单元,被配置为获取待抽取文本;
53.信息抽取单元,被配置为将所述待抽取文本输入信息抽取模型,获取所述信息抽取模型从所述待抽取文本中抽取的预设第一抽取条件对应的目标信息;
54.其中所述信息抽取模型由上第五方面所述的装置预先训练得到。
55.根据第七方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
56.根据第八方面,提供了一种电子设备,包括:
57.一个或多个处理器;以及
58.与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面中任一项所述的方法的步骤。
59.根据本技术提供的具体实施例,本技术公开了以下技术效果:
60.1)本技术针对信息抽取模型提供了一种从易到难学习框架,先利用目标任务的子任务来训练信息抽取模型,使得信息抽取模型能够学习简单的、基础的信息抽取能力,然后利用目标任务的组合训练数据来学习复杂的实例,从而提高信息抽取能力,最后再利用目标任务的训练数据训练得到最终的信息抽取模型,这种方式能够显著提高信息抽取模型的信息抽取准确性。
61.2)本技术中子任务的训练数据和组合训练数据均可以利用目标任务的训练数据进行构造,避免了额外构造训练数据所产生的人工成本。
62.3)本技术的信息抽取模型采用序列到序列模型,将信息抽取任务转化为预测包括目标信息的文本序列,或者包括目标信息和目标类型信息的文本序列的任务,不必针对不同的信息抽取任务进行特殊的模型设计,提高了信息抽取模型的通用性且充分利用了生成式模型强大的生成能力。
63.当然,实施本技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
64.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
65.图1为是本技术实施例所适用的系统架构图;
66.图2为本技术实施例提供的训练信息抽取模型的方法流程图;
67.图3为本技术实施例提供的信息抽取方法的流程图;
68.图4为本技术实施例提供的实体三元组抽取模型的训练方法流程图;
69.图5为本技术实施例提供的情感抽取模型的训练方法流程图;
70.图6为本技术实施例提供的训练信息抽取模型的装置的示意性框图;
71.图7为本技术实施例提供的信息抽取装置的示意性框图;
72.图8为本技术实施例提供的电子设备的示意性框图。
具体实施方式
73.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本技术保护的范围。
74.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
75.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
76.取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
77.为了方便对本技术的理解,首先对本技术所适用的系统架构进行简单描述。图1示出了可以应用本技术实施例的示例性系统架构,如图1中所示,该系统架构包括采用离线方式建立信息抽取模型的模型训练装置,以及在线实现信息抽取的信息抽取装置。
78.其中,模型训练装置在获取训练数据后,采用本技术实施例中提供的方式预先训练得到信息抽取模型。
79.信息抽取模型用以从输入的待抽取文本中抽取符合指定抽取条件的目标信息。其中的目标可以在不同的应用场景下对应不同的内容,例如实体词、实体三元组、情感元素、事件信息等,具体将在后续实施例中详述。信息抽取装置可以利用上述信息抽取模型获取从待抽取文本中抽取符合指定抽取条件的目标信息。
80.模型训练装置和信息抽取装置可以分别设置为独立的服务器,也可以设置于同一个服务器或服务器群组,还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(vps,virtual private server)服务中存在的管理难度大,服务扩展性弱的缺陷。模型训练装置或信息抽取装置还可以设置于具有较强计算能力的计算机终端。
81.在其中一种常用的场景下,用户可以使用用户终端与设置于服务端的信息抽取装置进行交互,用户终端上可以安装有各种应用,例如语音交互应用、网页浏览器应用、通信类应用等。
82.用户终端可以是各种电子设备,可以是有屏设备,也可以是无屏设备。包括但不限
于智能手机、平板电脑、智能音箱、智能电视、pc(personal computer,个人计算机)、可穿戴式设备等等。
83.用户可以通过用户终端输入待抽取文本,该待抽取文本通过网络发送到服务器端的信息抽取装置,由信息抽取装置获取从待抽取文本中抽取的符合指定抽取条件的目标信息后,将目标信息返回给用户终端。上述指定抽取条件可以是用户指定的抽取条件,也可以是默认的抽取条件。
84.应该理解,图1中的模型训练装置、信息抽取装置、用户终端以及信息抽取模型的数目仅仅是示意性的。根据实现需要,可以具有任意数目的模型训练装置、信息抽取装置、用户终端以及信息抽取模型。
85.信息抽取实际上是从自然语言的文本中抽取出指定抽取条件的目标信息,例如抽取出特定目标类型的目标信息。自然语言是人类交流和思维的主要工具,是人工智能的难点。人工智能对信息抽取的处理就是模仿人类对自然语言的认知和学习过程。人类在从自然语言的文本中抽取复杂信息之前,总是先学习简单的概念和能力,然后再逐步学习复杂的例子和能力,因此本技术不再采用传统一步式的信息抽取模型训练方式,而是模仿人类学习的过程,提供一种全新的从易到难学习框架。
86.图2为本技术实施例提供的训练信息抽取模型的方法流程图,该方法流程可以由图1所示系统架构中的模型训练装置执行。如图2中所示,该方法可以包括以下步骤:
87.步骤202:获取目标任务的训练数据,目标任务的训练数据包括多个第一训练样本,第一训练样本包括第一文本样本和针对该第一文本样本标注的目标任务指定的第一抽取条件对应的目标样本。
88.步骤204:确定目标任务的子任务,利用子任务的训练数据训练信息抽取模型,直至满足预设的第一训练结束条件;子任务的训练数据包括多个第二训练样本,第二训练样本包括第二文本样本和针对该第二文本样本标注的子任务指定的第二抽取条件对应的目标样本,第二抽取条件是所述第一抽取条件中的部分子条件。
89.步骤206:确定目标任务的组合训练数据,组合训练数据包括多个第三训练样本,第三训练样本由多于一个的第一训练样本合并得到;利用组合训练数据,在已经训练得到的信息抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件。
90.步骤208:利用目标任务的训练数据在已经训练得到的信息抽取模型的基础上进一步训练,得到用以进行信息抽取的信息抽取模型。
91.由上述流程可以看出,本技术针对信息抽取模型提供了一种从易到难学习框架,先利用目标任务的子任务来训练信息抽取模型,使得信息抽取模型能够学习简单的、基础的信息抽取能力,然后利用目标任务的组合训练数据来学习复杂的实例,从而提高信息抽取能力,最后再利用目标任务的训练数据训练得到最终的信息抽取模型,这种方式能够显著提高信息抽取模型的信息抽取准确性。
92.需要说明的是,本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅是出于描述的方便在名称上加以区分。例如“第一训练样本”、“第二训练样本”和“第三训练样本”用以区分三个训练样本。再例如“第一抽取条件”和“第二抽取条件”用以在名称上区分两个抽取条件。等等。
93.下面对上述方法流程中的各步骤分别进行描述。首先结合实施例对上述步骤202
即“获取目标任务的训练数据”进行详细描述。
94.目标任务的训练数据包括多个第一训练样本,第一训练样本包括第一文本样本和针对该第一文本样本标注的目标任务指定的第一抽取条件对应的目标样本。其中,第一文本样本就是自然语言的文本,随着网络数据爆炸式增长,文本数据是很容易获取的,能够在任意数据域获取到大量的文本数据。
95.目标任务指定的第一抽取条件与具体的任务类型相关,例如命名实体识别任务指定的第一抽取条件可以是抽取实体及其实体类型。实体三元组任务指定的第一抽取条件可以是抽取实体三元组,实体三元组包括头实体及其实体类型、尾实体及其实体类型,以及头实体和尾实体之间的关系。事件抽取任务指定的第一抽取条件可以是抽取事件信息,事件信息包括事件触发词及其对应的事件类型、事件参数词及其对应的参数类型。情感抽取任务指定的第一抽取条件可以是抽取预设类型的情感元素。下面对这几种任务进行以下说明:
96.命名实体识别(ner,named entityrecognition)任务:给定一个输入文本t,目标任务是识别t中的实体词并分类到预定义的实体类型中,即抽取{(ei,ci)},其中ei是t中的第i个实体词,ci∈c是ei的实体类型,c是实体类型集。其中实体类型可以是诸如人名、地名、机构名、作品名、品牌名、地址、日期等等中的一种或多种组合。那么目标任务是ner任务时,构造的目标任务的训练数据中,第一训练样本中的目标样本是第一文本样本中的实体词以及实体词对应的实体类型。
97.关系抽取(re,relation extraction)任务也称为实体三元组抽取任务:给定一个输入文本t,re用于抽取实体三元组,即提取其中表示第i个三元组中的头实体,表示的实体类型,表示第i个三元组中的尾实体,表示的实体类型,ri∈r是和之间的关系,r是关系集。那么目标任务是re任务时,构造的目标任务的训练数据中,第一训练样本中的目标样本是第一文本样本中的实体三元组。
98.事件抽取(ee,event extraction)任务:给定一个输入文本t,从t中抽取事件信息,其中每个事件信息由事件触发词及其对应的事件类型、事件参数词及其对应的参数类型组成,即提取其中,是第i个事件触发词,是其对应的事件类型,表示第i个事件的第j个事件参数词,是的参数类型,c
event
包括所有事件和参数类型。其中参数类型可以包括事件主体、事件客体、发生时间、发生地点等等。那么目标任务是ee任务时,构造的目标任务的训练数据中,第一训练样本中的目标样本是第一文本样本中的事件信息。
99.情感抽取任务:给定一个输入文本t,从t中抽取情感元素。其中情感元素可以包括情感对象、情感词、情感极性。情感元素可以是三元组,也可以是四元组。例如,从t中抽取三元组{(ai,oi,pi)},或者抽取四元组{(ci,ai,oi,pi)},其中,ai是第i个三元组中的情感对象,情感对象也称为情感方面(aspect),指的是情感所针对的对象,情感对象可以是一个事务,也可以是一个事务的一个属性。例如对于文本“这件衣服不好看”,其中的情感对象是一个事务“衣服”。再例如对于文本“这件衣服的尺码太小”,其中的情感对象是一个事务的一个属性即“衣服的尺码”。ci∈c
absa
,ci是ai的类型。oi是第i个三元组中的情感词,情感词也被称
为评价词、观点词,指的是表达出情感、评价或观点的词语。例如对于“苹果真甜啊”,其中的情感词是“甜的”。pi是第i个三元组中的情感极性,情感极性指的是将情感划分的几种离散的取值,例如,包括积极、消极、中性等。c
absa
是情感对象的类型集。那么目标任务是情感抽取任务时,构造的目标任务的训练数据中,第一训练样本中的目标样本是针对第一文本样本标注的情感元素信息。
100.下面结合实施例对上述步骤204即“确定目标任务的子任务,利用子任务的训练数据训练信息抽取模型,直至满足预设的第一训练结束条件”进行详细描述。
101.本技术提供的“从易到难”框架主要包括三个主要阶段:简单阶段、复杂阶段和主阶段。本步骤对应的是“从易到难”框架中的简单阶段,目标任务的子任务旨在使模型能够学习信息抽取的基础能力。因此,目标任务的子任务是与目标任务相关的,比目标任务更简单的,能够从目标任务中拆分出来的任务。
102.相应地,子任务的训练数据包括多个第二训练样本,第二训练样本包括第二文本样本和针对第二文本样本标注的子任务指定的第二抽取条件对应的目标样本。其中,第二抽取条件是第一抽取条件中的部分子条件。
103.以re任务为例,其第一抽取条件包括:抽取头实体及其实体类型、尾实体及其实体类型、以及头实体和尾实体的关系。
104.可以构造re任务的子任务包括:
105.子任务1:抽取文本中的实体词及其实体类型。即在输入文本t时,信息抽取模型能够从t中抽取出{(ei,ci)}。因此,该子任务1的训练数据为第二文本样本,以及该第二文本样本中的实体词及其实体类型。
106.子任务2:抽取文本中的关系词。即在输入文本t时,信息抽取模型能够从t中抽取出{ri}。因此,该子任务2的训练数据为第二文本样本,以及该第二文本样本中的实体关系词。
107.子任务3:抽取文本中指定头实体类型或头实体词的三元组,该三元组包括头实体、尾实体、以及头实体和尾实体之间的关系。即在输入文本t以及指定头实体类型或头实体词的情况下,信息抽取模型能够从t中抽取出头实体符合指定头实体类型或头实体词的三元组因此,该子任务3的训练数据为第二文本样本,以及该第二文本样本中的指定头实体类型或头实体词的三元组。
108.子任务4:抽取文本中指定关系类型的三元组,该三元组包括头实体、尾实体、以及头实体与尾实体之间的关系。即在输入文本t以及指定关系类型的情况下,信息抽取模型能够从t中抽取出关系词符合指定关系类型的三元组因此,该子任务4的训练数据为第二文本样本,以及该第二文本样本中的指定关系类型的三元组。
109.上述子任务1和子任务2能够帮助信息抽取模型识别实体三元组的子结构,即实体和实体关系。子任务3和子任务4能够帮助模型学习这些子结构之间的依赖关系。需要说明的是,除了上述列举出的4个子任务之外,还可以构造其他子任务,例如抽取文本中指定实体类型的实体词,等等,在此不做一一列举。
110.作为其中一种可实现的方式,上述子任务的训练数据可以单独构造。但这种方式需要花费额外的人工资源。因此,本技术实施例中提供了另一种更为优选的实施方式,利用
已有的目标任务的训练数据获取子任务的训练数据。可以从目标任务的训练数据中选取第一训练样本,将选取的第一训练样本中的第一文本样本作为第二文本样本;然后将选取的第一训练样本的目标样本中第二抽取条件对应的部分作为第二文本样本中的目标样本。
111.仍以re任务为例,其训练数据中第一文本样本为t,第一文本样本对应的第一目标样本为:对于子任务1,其训练数据中第二文本样本仍为t,第二目标样本为{(ei,ci)},其中的ei来源于或ci为对应的或其他子任务类似。可以看出,子任务的训练数据可以直接从目标任务的训练数据中得到,不必额外构造训练数据,节约人工资源。
112.在使用子任务进行信息抽取模型的训练时,将第二训练样本中的第二文本样本作为信息抽取模型的输入文本,由信息抽取模型从输入文本抽取第二抽取条件对应的目标信息。训练目标为:最小化抽取的目标信息与该第二训练样本中的目标样本之间的差异。除了该训练目标之外,本技术也不限制和排除其他可用的训练目标。
113.作为其中一种可实现的方式,本技术实施例提供的信息抽取模型可以采用生成式的seq2seq(序列到序列)模型。信息抽取模型以文本序列作为输入,输出的也是文本序列。信息抽取模型的输入序列可以包括抽取条件信息以及输入文本。其中,对于子任务而言,上述抽取条件信息即为第二抽取条件的信息。对于目标任务而言,抽取条件信息为第一抽取条件的信息。信息抽取模型的输出序列包括目标信息,或者包括目标信息及其对应的目标类型信息。
114.其中,抽取条件信息可以包括抽取的目标类型信息,也可以包括抽取的目标类型信息和部分目标类型对应的实例信息。
115.作为其中一种可实现的方式,上述抽取条件信息p可以采用提示(hint)信息、约束(constraint)信息和模式(schema)信息构成。其中提示信息用以指示任务是抽取哪些目标,例如可以使用“[he]”指示抽取实体,使用“[hr]”指示抽取实体关系。约束信息用以指示抽取目标的具体目标类型,例如,可以使用“[ent]”指示抽取的实体类型,使用“[rel]”指示抽取的关系类型,在“[ent]”和“[rel]”所指示的实体类型或关系类型之后,可以进一步指示特定的实体实例或关系实例。模式信息用以用来包含预定义的目标类型,即限制最终抽取的目标在这些预定义的目标类型中选取,例如可以使用“{es}”表示实体的模式信息,“{rs}”表示关系的模式信息。
[0116]
举个例子:输入信息抽取模型的输入序列可以为:
[0117]“[he][hr][ent]人名:小明{rs}{t}”[0118]
上述输入序列表示从t中抽取实体三元组,该实体三元组的头实体为人名“小明”,实体关系在关系的模式信息中选取。
[0119]
上述输入序列对应的输出序列可以为:
[0120]“{人名:小明(工作于:aa公司)}”[0121]
其中,“小明”为头实体,“aa公司”为尾实体,“工作于”为头实体和尾实体的关系。
[0122]
本技术实施例涉及的信息抽取模型可以包括编码网络(encoder)和解码网络(decoder)。
[0123]
其中,编码网络用以对输入的文本序列中的各元素token进行特征编码,得到各
token的特征表示。
[0124]
其中,编码网络可以首先对输入的文本序列中的各token进行embedding(嵌入)处理。上述embedding处理可以至少包括:词embedding和位置embedding。词embedding,即将各token进行词向量编码,得到词向量表示。位置embedding,即将各token在输入的文本序列中的位置进行编码,得到位置的表示。
[0125]
文本序列的各token指的是构成文本序列的元素。对于文本序列而言,将文本序列切分为字符或者词语序列,则文本序列中的字符或者词语、以及起始符、分隔符均为token。
[0126]
解码网络用以利用各token的特征表示进行解码处理,输出的也是文本序列,该文本序列包括输入的文本序列中抽取出的目标信息,或者包括目标信息及其对应的目标类型信息。
[0127]
在本技术实施例中的上述信息抽取模型可以基于预训练语言模型训练得到,采用诸如t5(transfer text-to-text transformer,文本到文本转换器)、bert(bidirectional encoder representation from transformers,基于转换的双向编码表示)、xlnet(一种通过排列语言模型实现双向上下文信息的自回归模型)、gpt(generative pre-training,生成式预训练)模型等预训练语言模型作为模型框架。其中,bert是一种双向预训练语言模型,使用transformer encoder(转换编码器)作为模型结构,bert能够很好地利用上下文信息进行特征学习。xlnet是一个类似bert的模型,是一种更加泛化的自回归预训练模型。gpt使用transformer decoder(转换解码器)结构,并在transformer decoder中仅保留了掩码多头注意力。t5仍然是一个由transformer层堆叠而成的编码器-解码器结构,但decoder中在自注意力层后还有个标准的注意力层,这个标准的注意力层会将编码器的输出参与到注意力的计算当中,decoder的最后一层,通过softmax分类器输出每个token属于各预设目标类型的概率。
[0128]
若在简单阶段仅使用一个子任务,则对信息抽取模型进行初始化后,利用该子任务的训练数据训练信息抽取模型。若在简单阶段使用多个子任务,则在对信息抽取模型进行初始化后,分别使用各子任务训练信息抽取模型,每个子任务均在上一个子任务训练得到的信息抽取模型的基础上进一步训练。
[0129]
在每一个子任务的训练过程中,可以利用各子任务的训练目标构建损失函数,例如采用最大似然损失函数。在每一轮迭代中,依据损失函数的取值,采用诸如梯度下降等方式更新信息抽取模型的模型参数,直至满足预设的第一训练结束条件。其中第一训练结束条件可以包括诸如损失函数的取值小于或等于预设的第一损失函数阈值,迭代次数达到预设的第一次数阈值等。
[0130]
下面结合实施例对上述步骤206即“确定目标任务的组合训练数据,利用组合训练数据,在已经训练得到的信息抽取模型的基础上进一步训练”进行详细描述。
[0131]
本步骤对应本技术实施例提供的“从易到难”框架中的复杂阶段,旨在构造比目标任务更难的训练数据,从而帮助信息抽取模型能够学习更加复杂的目标信息和上下文。因此可以通过将目标任务的训练数据中的第一训练样本进行组合来构建更难的训练数据,即组合训练数据。
[0132]
其中,组合训练数据包括多个第三训练样本,第三训练样本包括第三文本样本和针对第三文本样本标注的所述目标任务指定的第一抽取条件对应的目标样本。其中,第三
文本样本可以是由选取的多个第一训练样本包括的第一文本样本合并得到的,第三文本样本包括的目标样本是由选取的多个第一训练样本中的目标样本合并得到的。
[0133]
例如,在目标任务的训练数据中存在两个第一训练样本:(p,t1,s1)和(p,t2,s2),其中p为第一抽取条件,t1和t2为两个第一训练样本中的第一文本样本,s1和s2为两个第一训练样本中第一文本样本对应的目标信息。利用这两个第一训练样本进行组合得到第三训练样本:(p,),其中表示合并处理。利用这种组合训练数据训练得到的信息抽取模型能够理解两个第一训练样本的组合信息,从而提高信息抽取模型的理解和抽取能力。
[0134]
本步骤中对信息抽取模型进行的进一步训练是在简单阶段得到的信息抽取模型的基础上进行的。本步骤进行训练时,将第三训练样本中的第三文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的第一抽取条件对应的目标信息与该第一训练样本中的目标样本之间的差异。除了该训练目标之外,本技术也不限制和排除其他可用的训练目标。
[0135]
关于信息抽取模型的结构和输入序列、输出序列的内容和形式可以参见上面实施例中的相关记载,在此不做赘述。
[0136]
在本步骤的训练过程中,可以利用上述训练目标构建损失函数,例如采用最大似然损失函数。在每一轮迭代中,依据损失函数的取值,采用诸如梯度下降等方式更新信息抽取模型的模型参数,直至满足预设的第二训练结束条件。其中第二训练结束条件可以包括诸如损失函数的取值小于或等于预设的第二损失函数阈值,迭代次数达到预设的第二次数阈值等。
[0137]
下面结合实施例对上述步骤208即“利用目标任务的训练数据在已经训练得到的信息抽取模型的基础上进一步训练,得到用以进行信息抽取的信息抽取模型”。
[0138]
本步骤对应本技术实施例提供的“从易到难”框架中的主任务阶段,用以训练实现目标任务的信息抽取模型。本步骤中对信息抽取模型进行的进一步训练是在复杂阶段得到的信息抽取模型的基础上进行的。训练过程中,将第一训练样本中的第一文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的第一抽取条件对应的目标信息与该第一训练样本中的目标样本之间的差异。除了该训练目标之外,本技术也不限制和排除其他可用的训练目标。
[0139]
在本步骤的训练过程中,可以利用上述训练目标构建损失函数,例如采用最大似然损失函数。在每一轮迭代中,依据损失函数的取值,采用诸如梯度下降等方式更新信息抽取模型的模型参数,直至满足预设的第三训练结束条件。其中第三训练结束条件可以包括诸如损失函数的取值小于或等于预设的第三损失函数阈值,迭代次数达到预设的第三次数阈值等。
[0140]
在采用上述实施例中提供的方式训练最终的信息抽取模型后,可以利用该信息抽取模型进行信息抽取。如图3中所示,该信息抽取过程可以包括以下步骤:
[0141]
步骤302:获取待抽取文本。
[0142]
步骤304:将待抽取文本输入信息抽取模型,获取信息抽取模型从待抽取文本中抽取的预设第一抽取条件对应的目标信息。
[0143]
本步骤中,信息抽取模型中的编码网络对输入序列(包括第一抽取条件的信息和
待抽取文本)中的各token进行特征编码,得到各token的特征表示。
[0144]
其中,编码网络可以首先对输入序列中的各token进行embedding处理。上述embedding处理可以至少包括:词embedding和位置embedding。词embedding,即将各token进行词向量编码,得到词向量表示。位置embedding,即将各token在输入序列中的位置进行编码,得到位置的表示。
[0145]
解码网络用以利用各token的特征表示进行解码处理,输出的是文本序列,该文本序列就是从待抽取文本中抽取出的第一抽取条件对应的目标信息,或者目标信息及其对应的目标类型信息。
[0146]
本技术实施例提供的上述方法可以应用于多种应用场景,例如ner识别、re抽取、ee抽取、情感抽取等等。下面分别以re抽取和情感抽取为例,对本技术实施例提供的上述方法进行举例描述。
[0147]
re即实体三元组抽取场景:
[0148]
该场景下的模型训练方法可以如图4中所示,包括以下步骤:
[0149]
步骤402:获取实体三元组抽取任务的训练数据,实体三元组抽取任务的训练数据包括多个第一训练样本,第一训练样本包括第一文本样本和针对该第一文本样本标注的实体三元组抽取任务指定的第一抽取条件对应的实体三元组样本,实体三元组包括头实体及其实体类型、尾实体及其实体类型,以及头实体和尾实体之间的关系。
[0150]
re任务是:给定一个输入文本t,抽取实体三元组,即提取其中表示第i个实体三元组中的头实体,表示的实体类型,表示第i个三元组中的尾实体,表示的实体类型,ri∈r是和之间的关系,r是关系集。因此,构造的目标任务的训练数据中,第一训练样本中的目标样本是针对第一文本样本标注的的实体三元组。上述的第一抽取条件包括:抽取头实体及其实体类型、尾实体及其实体类型、以及头实体和尾实体的关系。
[0151]
步骤404:确定实体三元组抽取任务的子任务,利用子任务的训练数据训练实体三元组抽取模型,直至满足预设的第一训练结束条件;子任务的训练数据包括多个第二训练样本,第二训练样本包括第二文本样本和针对该第二文本样本标注的子任务指定的第二抽取条件对应的目标样本,第二抽取条件是第一抽取条件中的部分子条件。
[0152]
在之前实施例中已经描述到,可以构造re任务的子任务包括:
[0153]
子任务1:抽取文本中的实体词及其实体类型。即在输入文本t时,实体三元组抽取模型能够从t中抽取出{(ei,ci)}。因此,该子任务1的训练数据为第二文本样本,以及该第二文本样本中的实体词及其实体类型。
[0154]
子任务2:抽取文本中的关系词。即在输入文本t时,实体三元组抽取模型能够从t中抽取出{ri}。因此,该子任务2的训练数据为第二文本样本,以及该第二文本样本中的实体关系词。
[0155]
子任务3:抽取文本中指定头实体类型或头实体词的三元组,该三元组包括头实体、尾实体、以及头实体和尾实体之间的关系。即在输入文本t以及指定头实体类型或头实体词的情况下,实体三元组抽取模型能够从t中抽取出头实体符合指定头实体类型或头实体词的三元组因此,该子任务3的训练数据为第二文本样本,以及该第二文本
样本中的指定头实体类型或头实体词的三元组。
[0156]
子任务4:抽取文本中指定关系类型的三元组,该三元组包括头实体、尾实体、以及头实体与尾实体之间的关系。即在输入文本t以及指定关系类型的情况下,实体三元组抽取模型能够从t中抽取出关系词符合指定关系类型的三元组因此,该子任务4的训练数据为第二文本样本,以及该第二文本样本中的指定关系类型的三元组。
[0157]
上述子任务1和子任务2能够帮助实体三元组抽取模型识别实体三元组的子结构,即实体和实体关系。子任务3和子任务4能够帮助模型学习这些子结构之间的依赖关系。需要说明的是,除了上述列举出的4个子任务之外,还可以构造其他子任务,例如抽取文本中指定实体类型的实体词,等等,在此不做一一列举。
[0158]
作为其中一种较为优选的实施方式,可以从目标任务的训练数据中选取第一训练样本,将选取的第一训练样本中的第一文本样本作为第二文本样本;然后将选取的第一训练样本的实体三元组样本中第二抽取条件对应的部分作为第二文本样本中的目标样本。例如,训练数据中第一文本样本为t,第一文本样本对应的第一目标样本为:对于子任务1,其训练数据中第二文本样本仍为t,第二目标样本为{(ei,ci)},其中的ei来源于或ci为对应的或其他子任务类似。可以看出,子任务的训练数据可以直接从目标任务的训练数据中得到,不必额外构造训练数据,节约人工资源。
[0159]
在使用子任务进行实体三元组抽取模型的训练时,将第二训练样本中的第二文本样本作为实体三元组抽取模型的输入文本,由实体三元组抽取模型从输入文本抽取第二抽取条件对应的目标信息。训练目标为:最小化抽取的目标信息与该第二训练样本中的目标样本之间的差异。
[0160]
步骤406:确定实体三元组抽取任务的组合训练数据,组合训练数据包括多个第三训练样本,第三训练样本由多于一个的第一训练样本合并得到;利用组合训练数据,在已经训练得到的实体三元组抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件。
[0161]
组合训练数据包括多个第三训练样本,第三训练样本包括第三文本样本和针对第三文本样本标注的三元组抽取任务指定的第一抽取条件对应的实体三元组样本。其中,第三文本样本可以是由选取的多个第一训练样本包括的第一文本样本合并得到的,第三文本样本包括的实体三元组样本是由选取的多个第一训练样本中的实体三元组样本合并得到的。
[0162]
本步骤中对实体三元组抽取模型进行的进一步训练是在简单阶段得到的实体三元组抽取模型的基础上进行的。本步骤进行训练时,将第三训练样本中的第三文本样本作为实体三元组抽取模型的输入文本,训练目标为:最小化实体三元组抽取模型从输入文本抽取的第一抽取条件对应的实体三元组信息与该第一训练样本中的实体三元组样本之间的差异。
[0163]
步骤408:利用实体三元组抽取任务的训练数据在已经训练得到的实体三元组模型的基础上进一步训练,得到用以进行实体三元组信息抽取的实体三元组抽取模型。
[0164]
本步骤中对实体三元组抽取模型进行的进一步训练是在步骤406得到的实体三元
组抽取模型的基础上进行的。训练过程中,将第一训练样本中的第一文本样本作为实体三元组抽取模型的输入文本,训练目标为:最小化实体三元组抽取模型从输入文本抽取的第一抽取条件对应的实体三元组信息与该第一训练样本中的实体三元组样本之间的差异。
[0165]
在采用上述实施例中提供的方式训练最终的实体三元组抽取模型后,可以利用该实体三元组抽取模型进行实体三元组抽取,能够从待抽取文本中抽取实体三元组信息,包括头实体及其实体类型、尾实体及其实体类型,以及头实体和尾实体之间的关系。
[0166]
情感抽取场景:
[0167]
该场景下的模型训练方法可以如图5中所示,包括以下步骤:
[0168]
步骤502:获取情感抽取任务的训练数据,情感抽取任务的训练数据包括多个第一训练样本,第一训练样本包括第一文本样本和针对该第一文本样本标注的情感抽取任务指定的第一抽取条件对应的情感元素样本。
[0169]
情感抽取任务:给定一个输入文本t,从t中抽取情感元素。其中情感元素可以包括情感对象、情感词、情感极性。情感元素可以是三元组,也可以是四元组。例如,从t中抽取三元组{(ai,oi,pi)},或者抽取四元组{(ci,ai,oi,pi)},其中,ai是第i个三元组中的情感对象,情感对象也称为情感方面(aspect),指的是情感所针对的对象,情感对象可以是一个事务,也可以是一个事务的一个属性。例如对于文本“这件衣服不好看”,其中的情感对象是一个事务“衣服”。再例如对于文本“这件衣服的尺码太小”,其中的情感对象是一个事务的一个属性即“衣服的尺码”。ci∈c
absa
,ci是ai的类型。oi是第i个三元组中的情感词,情感词也被称为评价词、观点词,指的是表达出情感、评价或观点的词语。例如对于“苹果真甜啊”,其中的情感词是“甜的”。pi是第i个三元组中的情感极性,情感极性指的是将情感划分的几种离散的取值,例如,包括积极、消极、中性等。c
absa
是情感对象的类型集。那么目标任务是情感抽取任务时,构造的目标任务的训练数据中,第一训练样本中的目标样本是第一文本样本中的情感元素信息。上述的第一抽取条件包括:抽取情感元素信息。
[0170]
步骤504:确定情感抽取任务的子任务,利用子任务的训练数据训练情感抽取模型,直至满足预设的第一训练结束条件;子任务的训练数据包括多个第二训练样本,第二训练样本包括第二文本样本和针对该第二文本样本标注的该子任务指定的第二抽取条件对应的情感元素样本,第二抽取条件是第一抽取条件中的部分子条件。
[0171]
在之前实施例中已经描述到,可以构造情感抽取任务的子任务包括:
[0172]
子任务1:抽取文本中的情感对象和情感词。即在输入文本t时,情感抽取模型能够从t中抽取出{ai}和{oi}。因此,该子任务1的训练数据为第二文本样本,以及该第二文本样本中的情感对象和情感词。
[0173]
子任务2:抽取文本中指定情感对象类型或情感对象的情感三元组。例如在输入文本t并指定情感对象a(a为情感对象的一个具体实例)时,情感抽取模型能够从t中抽取出{(a,oi,pi)}。因此,该子任务2的训练数据为第二文本样本,以及该第二文本样本中指定情感对象类型或情感对象的情感三元组。
[0174]
子任务3:抽取文本中的情感极性。即在输入文本t的情况下,情感抽取模型能够从t中抽取出情感极性{pi}。因此,该子任务3的训练数据为第二文本样本,以及该第二文本样本中的情感极性。
[0175]
子任务4:抽取文本中指定情感极性类型的情感三元组。即在输入文本t以及指定
情感极性p(p为情感极性的一个具体类型)的情况下,情感抽取模型能够从t中抽取出情感三元组{(ai,oi,p)}。因此,该子任务4的训练数据为第二文本样本,以及该第二文本样本中的指定情感极性类型的情感三元组。
[0176]
上述子任务1和子任务3能够帮助情感抽取模型识别情感三元组的子结构,即情感对象和情感词,或者情感极性。子任务2和子任务4能够帮助模型学习这些子结构之间的依赖关系。需要说明的是,除了上述列举出的4个子任务之外,还可以构造其他子任务,例如抽取文本中的情感对象和情感极性,等等,在此不做一一列举。
[0177]
作为其中一种较为优选的实施方式,可以从目标任务的训练数据中选取第一训练样本,将选取的第一训练样本中的第一文本样本作为第二文本样本;然后将选取的第一训练样本的情感三元组样本中第二抽取条件对应的部分作为第二文本样本中的目标样本。例如,训练数据中第一文本样本为t,第一文本样本对应的第一目标样本为:{(ai,oi,pi)}。对于子任务1,其训练数据中第二文本样本仍为t,第二目标样本为{ai}和{oi}。其他子任务类似。可以看出,子任务的训练数据可以直接从目标任务的训练数据中得到,不必额外构造训练数据,节约人工资源。
[0178]
在使用子任务进行情感抽取模型的训练时,将第二训练样本中的第二文本样本作为情感抽取模型的输入文本,由情感抽取模型从输入文本抽取第二抽取条件对应的情感元素。训练目标为:最小化抽取的情感元素与该第二训练样本中的情感元素样本之间的差异。
[0179]
步骤506:确定情感抽取任务的组合训练数据,组合训练数据包括多个第三训练样本,第三训练样本由多于一个的第一训练样本合并得到;利用组合训练数据,在已经训练得到的情感抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件。
[0180]
组合训练数据包括多个第三训练样本,第三训练样本包括第三文本样本和针对第三文本样本标注的情感抽取任务指定的第一抽取条件对应的情感元素样本。其中,第三文本样本可以是由选取的多个第一训练样本包括的第一文本样本合并得到的,第三文本样本包括的情感元素样本是由选取的多个第一训练样本中的情感元素样本合并得到的。
[0181]
本步骤中对情感抽取模型进行的进一步训练是在简单阶段得到的情感抽取模型的基础上进行的。本步骤进行训练时,将第三训练样本中的第三文本样本作为情感抽取模型的输入文本,训练目标为:最小化情感抽取模型从输入文本抽取的第一抽取条件对应的情感元素与该第一训练样本中的情感元素样本之间的差异。
[0182]
步骤508:利用情感抽取任务的训练数据在已经训练得到的情感抽取模型的基础上进一步训练,得到用以进行情感元素抽取的情感抽取模型。
[0183]
本步骤中对情感抽取模型进行的进一步训练是在步骤506得到的情感抽取模型的基础上进行的。训练过程中,将第一训练样本中的第一文本样本作为情感抽取模型的输入文本,训练目标为:最小化情感抽取模型从输入文本抽取的第一抽取条件对应的情感元素与该第一训练样本中的情感元素样本之间的差异。
[0184]
在采用上述实施例中提供的方式训练最终的情感抽取模型后,可以利用该情感抽取模型进行情感元素抽取,能够从待抽取文本中抽取情感元素,诸如包括情感对象、情感词、情感极性。
[0185]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来
执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0186]
根据另一方面的实施例,提供了一种训练信息抽取模型的装置。图6示出根据一个实施例的训练信息抽取模型的装置的示意性框图,该装置即为图1所示架构中的模型训练装置。如图6所示,该装置600包括:样本获取单元601、第一训练单元602、第二训练单元603和第三训练单元604。其中各组成单元的主要功能如下:
[0187]
样本获取单元601,被配置为获取目标任务的训练数据,目标任务的训练数据包括多个第一训练样本,第一训练样本包括第一文本样本和针对该第一文本样本标注的目标任务指定的第一抽取条件对应的目标样本。
[0188]
第一训练单元602,被配置为确定目标任务的子任务,利用子任务的训练数据训练信息抽取模型,直至满足预设的第一训练结束条件;子任务的训练数据包括多个第二训练样本,第二训练样本包括第二文本样本和针对该第二文本样本标注的子任务指定的第二抽取条件对应的目标样本,第二抽取条件是第一抽取条件中的部分子条件。
[0189]
第二训练单元603,被配置为确定目标任务的组合训练数据,组合训练数据包括多个第三训练样本,第三训练样本由多于一个的第一训练样本合并得到;利用组合训练数据,在已经训练得到的信息抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件。
[0190]
第三训练单元604,被配置为利用目标任务的训练数据在已经训练得到的信息抽取模型的基础上进一步训练,得到用以进行信息抽取的信息抽取模型。
[0191]
根据本技术实施例中一可实现的方式,第二训练样本中的第二文本样本为从目标任务的训练数据中选取的第一训练样本中的第一文本样本;第二训练样本中的目标样本是选取的第一训练样本的目标样本中第二抽取条件对应的部分。
[0192]
第三训练样本包括第三文本样本和针对第三文本样本标注的目标任务指定的第一抽取条件对应的目标样本,第三文本样本是由选取的多个第一训练样本中的第一文本样本合并得到的,第三文本样本中的目标样本是由选取的多个第一训练样本中的目标样本合并得到的。
[0193]
作为其中一种可实现的方式,第一训练单元602在利用子任务的训练数据训练信息抽取模型时,将第二训练样本中的第二文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的第二抽取条件对应的目标信息与该第二训练样本中的目标样本之间的差异。
[0194]
第二训练单元603在利用组合训练数据训练信息抽取模型时,将第三训练样本中的文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的第一抽取条件对应的目标信息与该第三训练样本中的目标样本之间的差异。
[0195]
第三训练单元604在利用目标任务的训练数据训练信息抽取模型时,将第一训练样本中的第一文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的第一抽取条件对应的目标信息与该第一训练样本中的目标样本之间的差异。
[0196]
作为其中一种优选的实施方式,上述信息抽取模型采用序列到序列模型。信息抽
specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术所提供的技术方案。
[0211]
存储器820可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821,用于控制电子设备800的低级别操作的基本输入输出系统(bios)822。另外,还可以存储网页浏览器823,数据存储管理系统824,以及模型训练装置/信息抽取装置825等等。上述模型训练装置/信息抽取装置825就可以是本技术实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本技术所提供的技术方案时,相关的程序代码保存在存储器820中,并由处理器810来调用执行。
[0212]
输入/输出接口813用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0213]
网络接口814用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0214]
总线830包括一通路,在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820)之间传输信息。
[0215]
需要说明的是,尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,存储器820,总线830等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本技术方案所必需的组件,而不必包含图中所示的全部组件。
[0216]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0217]
以上对本技术所提供的技术方案进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种训练信息抽取模型的方法,其特征在于,所述方法包括:获取目标任务的训练数据,所述目标任务的训练数据包括多个第一训练样本,所述第一训练样本包括第一文本样本和针对该第一文本样本标注的所述目标任务指定的第一抽取条件对应的目标样本;确定目标任务的子任务,利用所述子任务的训练数据训练信息抽取模型,直至满足预设的第一训练结束条件;所述子任务的训练数据包括多个第二训练样本,所述第二训练样本包括第二文本样本和针对该第二文本样本标注的所述子任务指定的第二抽取条件对应的目标样本,所述第二抽取条件是所述第一抽取条件中的部分子条件;确定所述目标任务的组合训练数据,所述组合训练数据包括多个第三训练样本,所述第三训练样本由多于一个的第一训练样本合并得到;利用所述组合训练数据,在已经训练得到的信息抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件;利用所述目标任务的训练数据在已经训练得到的信息抽取模型的基础上进一步训练,得到用以进行信息抽取的信息抽取模型。2.根据权利要求1所述的方法,其特征在于,所述第二训练样本中的第二文本样本为从所述目标任务的训练数据中选取的第一训练样本中的第一文本样本;所述第二训练样本中的目标样本是所述选取的第一训练样本的目标样本中所述第二抽取条件对应的部分;所述第三训练样本包括第三文本样本和针对第三文本样本标注的所述目标任务指定的第一抽取条件对应的目标样本,所述第三文本样本是由选取的多个第一训练样本中的第一文本样本合并得到的,所述第三文本样本中的目标样本是由所述选取的多个第一训练样本中的目标样本合并得到的。3.根据权利要求1所述的方法,其特征在于,在利用所述子任务的训练数据训练信息抽取模型时,将第二训练样本中的第二文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的所述第二抽取条件对应的目标信息与该第二训练样本中的目标样本之间的差异;在利用所述组合训练数据训练信息抽取模型时,将第三训练样本中的文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的所述第一抽取条件对应的目标信息与该第三训练样本中的目标样本之间的差异;在利用所述目标任务的训练数据训练信息抽取模型时,将第一训练样本中的第一文本样本作为信息抽取模型的输入文本,训练目标为:最小化信息抽取模型从输入文本抽取的所述第一抽取条件对应的目标信息与该第一训练样本中的目标样本之间的差异。4.根据权利要求3所述的方法,其特征在于,所述信息抽取模型采用序列到序列模型;所述信息抽取模型的输入序列包括抽取条件信息以及所述输入文本,所述抽取条件信息为所述第一抽取条件的信息或所述第二抽取条件的信息;所述信息抽取模型的输出序列包括目标信息,或者包括目标信息及其对应的目标类型信息。5.根据权利要求4所述的方法,其特征在于,所述抽取条件信息包括:抽取的目标类型信息,或者,抽取的目标类型信息和部分目标类型对应的实例信息。6.一种训练实体三元组抽取模型的方法,其特征在于,所述方法包括:
获取实体三元组抽取任务的训练数据,所述实体三元组抽取任务的训练数据包括多个第一训练样本,所述第一训练样本包括第一文本样本和针对该第一文本样本标注的所述实体三元组抽取任务指定的第一抽取条件对应的实体三元组样本,所述实体三元组包括头实体及其实体类型、尾实体及其实体类型,以及头实体和尾实体之间的关系;确定实体三元组抽取任务的子任务,利用所述子任务的训练数据训练实体三元组抽取模型,直至满足预设的第一训练结束条件;所述子任务的训练数据包括多个第二训练样本,所述第二训练样本包括第二文本样本和针对该第二文本样本标注的所述子任务指定的第二抽取条件对应的目标样本,所述第二抽取条件是所述第一抽取条件中的部分子条件;确定所述实体三元组抽取任务的组合训练数据,所述组合训练数据包括多个第三训练样本,所述第三训练样本由多于一个的第一训练样本合并得到;利用所述组合训练数据,在已经训练得到的实体三元组抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件;利用所述实体三元组抽取任务的训练数据,在已经训练得到的实体三元组抽取模型的基础上进一步训练,得到用以进行实体三元组信息抽取的实体三元组抽取模型。7.根据权利要求6所述的方法,其特征在于,针对第二文本样本标注的所述子任务指定的第二抽取条件对应的目标样本包括以下至少一种:所述第二文本样本中的实体词及其实体类型;所述第二文本样本中的实体关系词;所述第二文本样本中指定头实体类型或头实体词的三元组,该三元组包括头实体、尾实体、以及头实体和尾实体之间的关系;所述第二文本样本中指定关系类型的三元组,该三元组包括头实体、尾实体、以及头实体与尾实体之间的关系。8.一种训练情感抽取模型的方法,其特征在于,所述方法包括:获取情感抽取任务的训练数据,所述情感抽取任务的训练数据包括多个第一训练样本,所述第一训练样本包括第一文本样本和针对该第一文本样本标注的所述情感抽取任务指定的第一抽取条件对应的情感元素样本;确定情感抽取任务的子任务,利用所述子任务的训练数据训练情感抽取模型,直至满足预设的第一训练结束条件;所述子任务的训练数据包括多个第二训练样本,所述第二训练样本包括第二文本样本和针对该第二文本样本标注的所述子任务指定的第二抽取条件对应的情感元素样本,所述第二抽取条件是所述第一抽取条件中的部分子条件;确定所述情感抽取任务的组合训练数据,所述组合训练数据包括多个第三训练样本,所述第三训练样本由多于一个的第一训练样本合并得到;利用所述组合训练数据,在已经训练得到的情感抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件;利用所述情感抽取任务的训练数据在已经训练得到的情感抽取模型的基础上进一步训练,得到用以进行情感元素抽取的情感抽取模型。9.根据权利要求8所述的方法,其特征在于,针对第二文本样本标注的所述子任务指定的第二抽取条件对应的情感元素样本包括以下至少一种:所述第二文本样本中的情感对象和情感词;所述第二文本样本中指定情感对象类型或情感对象的情感三元组,所述情感三元组包
括情感对象、情感词和情感极性;所述第二文本样本中的情感极性;所述第二文本样本中指定情感极性类型的情感三元组。10.一种信息抽取的方法,其特征在于,所述方法包括:获取待抽取文本;将所述待抽取文本输入信息抽取模型,获取所述信息抽取模型从所述待抽取文本中抽取的预设第一抽取条件对应的目标信息;其中所述信息抽取模型采用如权利要求1至5中任一项所述的方法预先训练得到。11.一种训练信息抽取模型的装置,其特征在于,所述装置包括:样本获取单元,被配置为获取目标任务的训练数据,所述目标任务的训练数据包括多个第一训练样本,所述第一训练样本包括第一文本样本和针对该第一文本样本标注的所述目标任务指定的第一抽取条件对应的目标样本;第一训练单元,被配置为确定目标任务的子任务,利用所述子任务的训练数据训练信息抽取模型,直至满足预设的第一训练结束条件;所述子任务的训练数据包括多个第二训练样本,所述第二训练样本包括第二文本样本和针对该第二文本样本标注的所述子任务指定的第二抽取条件对应的目标样本,所述第二抽取条件是所述第一抽取条件中的部分子条件;第二训练单元,被配置为确定所述目标任务的组合训练数据,所述组合训练数据包括多个第三训练样本,所述第三训练样本由多于一个的第一训练样本合并得到;利用所述组合训练数据,在已经训练得到的信息抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件;第三训练单元,被配置为利用所述目标任务的训练数据在已经训练得到的信息抽取模型的基础上进一步训练,得到用以进行信息抽取的信息抽取模型。12.一种信息抽取装置,其特征在于,所述装置包括:文本获取单元,被配置为获取待抽取文本;信息抽取单元,被配置为将所述待抽取文本输入信息抽取模型,获取所述信息抽取模型从所述待抽取文本中抽取的预设第一抽取条件对应的目标信息;其中所述信息抽取模型由权利要求11所述的装置预先训练得到。13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。14.一种电子设备,其特征在于,包括:一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10中任一项所述的方法的步骤。
技术总结
本申请实施例公开了一种训练信息抽取模型的方法、信息抽取方法及装置。主要技术方案包括:获取目标任务的训练数据;确定目标任务的子任务,利用所述子任务的训练数据训练信息抽取模型,直至满足预设的第一训练结束条件;确定所述目标任务的组合训练数据,利用所述组合训练数据,在已经训练得到的信息抽取模型的基础上进一步训练,直至满足预设的第二训练结束条件;利用所述目标任务的训练数据在已经训练得到的信息抽取模型的基础上进一步训练,得到用以进行信息抽取的信息抽取模型。本申请针对信息抽取模型提供了一种从易到难学习框架,能够显著提高信息抽取模型的信息抽取准确性。能够显著提高信息抽取模型的信息抽取准确性。能够显著提高信息抽取模型的信息抽取准确性。
技术研发人员:高畅 张雯轩 邴立东
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:2023.04.18
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种铜电沉积涂层钛阳极及其制备方法与应用 下一篇:一种抗腐蚀液位变送器的制作方法