一种关系抽取方法及装置
未命名
10-08
阅读:80
评论:0

1.本发明实施例涉及深度学习技术领域,尤其涉及一种关系抽取方法及装置。
背景技术:
2.现阶段的关系抽取技术,大都采取有监督的深度学习方式,按照模型结构分类,可以分为将实体识别过程与关系抽取过程分开的流水线(pipeline)模型以及将两个过程结合的联合(joint)模型,而这两种模型都需要在前期准备工作中准备大量手工标注的关系数据,不仅成本高而且费时费力。而且,很多场景会包含各个不同的领域,技术人员很多时候会接触到不熟悉领域的数据,会使得标注过程更加艰难。而如果缺少数据标注,从技术角度来看,会导致有监督的深度学习方式在进行关系抽取时准确度低,数据标注严重稀缺时会导致有监督的深度学习模型不可用。
3.除了有监督的关系抽取技术之外,目前也有一些使用无监督方式的关系抽取的技术,例如开放信息抽取(open information extraction),通过依赖普遍的约束和启发,遍历语料库来获取文本中不同类型关系,这样虽然可以做到无人工参与的情况下获得想要的关系数据,但是因为没有数据训练模型,仅靠提前定义的规则去训练,无法精确的适应当前场景的数据,所以无监督的方式带来的精确度上的降低不可忽视。同时,由于语义规则是提前定义而非根据输入产生变化,开放信息抽取没有办法准确覆盖所有的数据输入的语义结构,导致关系抽取边界不准确的问题(例如复杂从句中的主谓语分割不准确),使得开放信息抽取获得的关系在规范性上也不如有监督模式下获得的关系(如谓语不是动词或主语出现动词)。
4.此外,还有一些可以在一定程度上缓解前述有监督的关系抽取技术中存在的问题,比如弱监督和远程监督的机器训练方式。其中,弱监督(weak supervision)旨在通过选择少量的种子三元组作为起始数据,借由弱标签来提供监督信号,将输入数据映射到更强的标签,达到降低获取数据的难度的目的。弱监督可以通过减少使用者对专业领域的知识依赖来减少所需要的带标注信息的训练数据,但是弱监督依然对起始数据的选择有着比较高的要求,需要其满足一定的数量且足够有区分度,依然需要专业的人工参与,缺少专业人工而导致起始数据少或是起始数据区分度不高,则会导致弱监督训练方式训练出来的模型精度不高的情况。远程监督(distant supervision)旨在从已有的知识库中搜索所有的知识,通过已有知识来对数据进行自动标注,达到获得大量标注数据的目的来支持训练过程。远程监督的缺点是需要和目标领域直接相关的知识库作为前置条件,而如果目标领域的范围很广,覆盖多个不相关领域,则这个条件常常是难以满足的。
技术实现要素:
5.本发明实施例提供了一种关系抽取方法及装置,用以解决在起始数据不足时,只能通过高成本人工标注的方式来满足关系抽取对起始数据量的需求,而造成的人力成本高的问题。
6.第一方面,本发明实施例提供了一种关系抽取方法,包括:
7.从第一目标领域对应的语料库获取第一数据,所述第一数据包括第一实体集合以及第一文本特征;将所述第一数据通过词袋模型映射为第一向量数据,所述第一向量数据包括所述第一实体集合对应的第一实体向量以及第一文本特征对应的第一文本向量;
8.将所述第一向量数据分别输入至m个分类模型中,得到m个预测结果;每个所述预测结果包括所述第一实体集合中每个第一实体对的实体间关系分别为n个候选关系的预测概率,所述m个分类模型对应m个源知识库,每个所述分类模型是根据对应源知识库的样本向量数据对初始模型进行训练得到,所述样本向量数据包括带有第二关系向量标签的第二实体向量以及第二文本向量,所述m以及所述n均为正整数;
9.根据所述m个预测结果,从所述n个候选关系中确定出所述第一实体集合中各个第一实体对的最终关系。
10.上述技术方案中,使用迁移学习作为关系抽取的方式,将源领域的知识迁移到目标领域,整合多个源领域的信息用于预测第一目标领域的关系数据,可以减少所需的专业标注人力。
11.可选地,所述根据所述m个预测结果,确定出所述第一实体集合中各个第一实体对的最终关系,包括:针对所述第一实体集合中的每个第一实体对,执行:针对所述n个候选关系中的每个候选关系,从所述m个预测结果中确定出所述第一实体对的实体间关系为所述候选关系的m个预测概率;根据确定出的所述m个预测概率,确定所述第一实体对的实体间关系为所述候选关系所对应的风险值;根据所述第一实体对的实体间关系分别为所述n个候选关系所对应的n个风险值,从所述n个候选关系中确定所述第一实体对的最终关系。通过该技术方案,提供了一种便于根据m个分类模型对应的m个预测结果确定每个第一实体对的最终关系的实现方式。
12.可选地,所述根据所述第一实体对的实体间关系分别为所述n个候选关系所对应的n个风险值,从所述n个候选关系中确定所述第一实体对的最终关系,包括:根据所述第一实体对的实体间关系分别为所述n个候选关系所对应的n个风险值,将所述n个风险值中的最小风险值对应的候选关系确定为所述第一实体对的最终关系。通过该技术方案,对于一个第一实体对来说,该第一实体对的实体间关系为n个候选关系中最小风险值对应的候选关系,说明第一实体对的实体间关系为这个候选关系的可能性最大,从而可以得到更准确的预测结果。
13.可选地,所述将所述第一向量数据分别输入至m个分类模型中,得到m个预测结果之前,还包括:针对l个源知识库中的每个源知识库,对每个所述源知识库与所述第一目标领域进行显著性评估,得到每个源知识库对所述第一目标领域的贡献度;所述l为大于或等于所述m的整数;根据所述l个源知识库对所述第一目标领域的贡献度,从所述l个源知识库中确定出所述m个源知识库。通过该技术方案,可以筛选出与第一目标领域相关性大的源知识库,然后采用这些相关性大的源知识库对应的分类模型对第一目标领域进行关系数据的预测,从而可以提高对第一目标领域的关系数据预测结果的准确性。
14.可选地,所述针对l个源知识库中的每个源知识库,对每个所述源知识库与所述第一目标领域进行显著性评估,得到每个源知识库对所述第一目标领域的贡献度,包括:针对l个源知识库中的每个源知识库,执行:确定所述源知识库与所述第一目标领域对应的语料
库之间的领域关联性分数;确定第一条件概率分布与第二条件概率分布之间的kl散度,所述第一条件概率分布为通过所述源知识库对应的分类模型预测出所述第一实体集合的向量表征的概率分布,第二条件概率分布为通过所述源知识库对应的分类模型预测出实体间关系的向量表征的概率分布;根据所述关联性分数以及所述kl散度,确定所述源知识库对所述第一目标领域的贡献度。通过该技术方案,提供了一种便于确定各个源知识库对第一目标领域的贡献度的实现方式。
15.可选地,所述根据所述m个预测结果,从所述n个候选关系中确定出所述第一实体集合中各个第一实体对的最终关系之后,还包括:将所述第一实体集合中各个第一实体对的最终关系输入至所述词袋模型,得到所述第一实体集合中各个第一实体对的最终关系对应的第一关系向量;将所述第一实体向量、所述第一文本向量以及所述第一关系向量作为所述初始模型的输入,以所述初始模型的损失函数最小值为优化目标对所述初始模型进行训练,得到所述第一目标领域对应的分类模型;所述第一目标领域对应的分类模型用于与k个源领域对应的分类模型一起对第二目标领域进行关系预测,所述k为正整数。通过该技术方案,每次生成一个目标领域的知识库后,其中的知识都可以作为下次任务的新输入加入到训练的流程之中,该目标领域的知识库可以与已有的源知识库一起作为源知识库,用于对下一个目标领域的关系数据进行预测,这样源知识库的来源会随着使用次数不断累积,如此不断地进行知识迁移的过程,对新知识的关系预测结果也会更加可靠。
16.可选地,所述根据所述m个预测结果,从所述n个候选关系中确定出所述第一实体集合中各个第一实体对的最终关系之后,还包括:将所述第一实体集合中各个第一实体对的最终关系输入至所述词袋模型,得到所述第一实体集合中各个第一实体对的最终关系对应的第一关系向量;针对所述m个源知识库中的每个源知识库,根据每个所述源知识库对应的第二文本向量、第二关系向量以及第二文本向量组成的第一输入矩阵,确定每个所述源知识库对应的第一概念矩阵;根据所述第一实体向量、所述第一文本向量以及所述第一关系向量组成的第二输入矩阵,确定所述目标领域对应的第二概念矩阵;将所述m个源知识库对应的m个第一概念矩阵以及第二概念矩阵进行合并,得到通用概念矩阵;根据所述第一实体向量、第一文本向量以及第一关系向量分别与所述通用概念矩阵的差值,得到第一实体向量、第一文本向量以及第一关系向量的更新值;将所述第一实体向量、所述第一文本向量以及所述第一关系向量的更新值作为所述初始模型的输入,以所述初始模型的损失函数最小值为优化目标对所述初始模型进行训练,得到所述第一目标领域对应的分类模型;所述第一目标领域对应的分类模型用于与k个源领域对应的分类模型一起对第二目标领域进行关系预测,所述k为正整数。通过该技术方案,一方面,使用增量学习的技术,将新领域的知识库内的信息表示用增量的形式进行调整,从而大幅减少信息间的关联性,提升新知识库信息表达的准确性;另一方面,每次生成一个目标领域的知识库后,其中的知识都可以作为下次任务的新输入加入到训练的流程之中,该目标领域的知识库可以与已有的源知识库一起作为源知识库,用于对下一个目标领域的关系数据进行预测,这样源知识库的来源会随着使用次数不断累积,如此不断地进行知识迁移的过程,对新知识的关系预测结果也会更加可靠。
17.第二方面,本发明实施例还提供了一种关系抽取装置,包括:
18.获取单元,用于从第一目标领域对应的语料库获取第一数据,所述第一数据包括
第一实体集合以及第一文本特征;
19.处理单元,用于将所述第一数据通过词袋模型映射为第一向量数据,所述第一向量数据包括所述第一实体集合对应的第一实体向量以及第一文本特征对应的第一文本向量;将所述第一向量数据分别输入至m个分类模型中,得到m个预测结果;根据所述m个预测结果,从所述n个候选关系中确定出所述第一实体集合中各个第一实体对的最终关系;其中,每个所述预测结果包括所述第一实体集合中每个第一实体对的实体间关系分别为n个候选关系的预测概率,所述m个分类模型对应m个源知识库,每个所述分类模型是根据对应源知识库的样本向量数据对初始模型进行训练得到,所述样本向量数据包括带有第二关系向量标签的第二实体向量以及第二文本向量,所述m以及所述n均为正整数。
20.可选地,所述处理单元,具体用于:针对所述第一实体集合中的每个第一实体对,执行:针对所述n个候选关系中的每个候选关系,从所述m个预测结果中确定出所述第一实体对的实体间关系为所述候选关系的m个预测概率;根据确定出的所述m个预测概率,确定所述第一实体对的实体间关系为所述候选关系所对应的风险值;根据所述第一实体对的实体间关系分别为所述n个候选关系所对应的n个风险值,从所述n个候选关系中确定所述第一实体对的最终关系。
21.可选地,所述处理单元,具体用于:根据所述第一实体对的实体间关系分别为所述n个候选关系所对应的n个风险值,将所述n个风险值中的最小风险值对应的候选关系确定为所述第一实体对的最终关系。
22.可选地,所述处理单元,具体用于:针对l个源知识库中的每个源知识库,对每个所述源知识库与所述第一目标领域进行显著性评估,得到每个源知识库对所述第一目标领域的贡献度;所述l为大于或等于所述m的整数;根据所述l个源知识库对所述第一目标领域的贡献度,从所述l个源知识库中确定出所述m个源知识库。
23.可选地,所述处理单元,具体用于:所述针对l个源知识库中的每个源知识库,对每个所述源知识库与所述第一目标领域进行显著性评估,得到每个源知识库对所述第一目标领域的贡献度,包括:针对l个源知识库中的每个源知识库,执行:确定所述源知识库与所述第一目标领域对应的语料库之间的领域关联性分数;确定第一条件概率分布与第二条件概率分布之间的kl散度,所述第一条件概率分布为通过所述源知识库对应的分类模型预测出所述第一实体集合的向量表征的概率分布,第二条件概率分布为通过所述源知识库对应的分类模型预测出实体间关系的向量表征的概率分布;根据所述关联性分数以及所述kl散度,确定所述源知识库对所述第一目标领域的贡献度。
24.可选地,所述处理单元还用于:将所述第一实体集合中各个第一实体对的最终关系输入至所述词袋模型,得到所述第一实体集合中各个第一实体对的最终关系对应的第一关系向量;将所述第一实体向量、所述第一文本向量以及所述第一关系向量作为所述初始模型的输入,以所述初始模型的损失函数最小值为优化目标对所述初始模型进行训练,得到所述第一目标领域对应的分类模型;所述第一目标领域对应的分类模型用于与k个源领域对应的分类模型一起对第二目标领域进行关系预测,所述k为正整数。
25.可选地,所述处理单元还用于:将所述第一实体集合中各个第一实体对的最终关系输入至所述词袋模型,得到所述第一实体集合中各个第一实体对的最终关系对应的第一关系向量;针对所述m个源知识库中的每个源知识库,根据每个所述源知识库对应的第二文
本向量、第二关系向量以及第二文本向量组成的第一输入矩阵,确定每个所述源知识库对应的第一概念矩阵;根据所述第一实体向量、所述第一文本向量以及所述第一关系向量组成的第二输入矩阵,确定所述目标领域对应的第二概念矩阵;将所述m个源知识库对应的m个第一概念矩阵以及第二概念矩阵进行合并,得到通用概念矩阵;根据所述第一实体向量、第一文本向量以及第一关系向量分别与所述通用概念矩阵的差值,得到第一实体向量、第一文本向量以及第一关系向量的更新值;将所述第一实体向量、所述第一文本向量以及所述第一关系向量的更新值作为所述初始模型的输入,以所述初始模型的损失函数最小值为优化目标对所述初始模型进行训练,得到所述第一目标领域对应的分类模型;所述第一目标领域对应的分类模型用于与k个源领域对应的分类模型一起对第二目标领域进行关系预测,所述k为正整数。
26.第三方面,本发明实施例提供一种计算设备,包括:
27.存储器,用于存储程序指令;
28.处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行关系抽取方法。
29.第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行关系抽取方法。
附图说明
30.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
31.图1为本发明实施例涉及的硬件运行环境的设备结构示意图。
32.图2为本发明实施例提供的分类模型训练的流程示意图;
33.图3为本发明实施例提供的词袋模型示意图;
34.图4为本发明实施例提供的一种关系抽取方法的流程示意图;
35.图5为本发明实施例提供的一种关系抽取装置的结构示意图。
具体实施方式
36.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
37.图1为本发明实施例涉及的硬件运行环境的设备结构示意图。
38.如图1所示,该设备100可以包括处理器110、存储器120、网络接口130,用户接口140以及通信总线150。其中,通信总线150用于实现这些组件之间的连接通信。
39.处理器110是设备100的控制中心,利用各种接口和线路连接整个设备100的各个部分,通过运行或执行存储在存储器120内的软件程序/或模块,以及调用存储在存储器120内的数据,执行设备100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处
理单元。
40.存储器120可用于存储软件程序以及模块,处理器110通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可原始图像、水印图像、隐藏水印图像的载体图像等数据。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
41.可选的,网络接口130可以包括标准的有线接口、无线接口(如wi-fi接口)。本发明实施例中,网络接口130主要用于连接后台服务器,与后台服务器进行数据通信。
42.用户接口140可以包括显示屏(display)、输入单元比如键盘(keyboard),可选的,用户接口140还可以包括标准的有线接口、无线接口。本发明实施例中,用户接口140可以用于连接后台服务器,与后台服务器进行数据通信;用户接口140还可以用于连接客户端(用户端),与客户端进行数据通信。
43.处理器110可以用于调用存储器120中存储的用于执行关系抽取方法的程序,并执行下述关系抽取方法实施例中的操作。
44.需要说明的是,上述图1所示的结构仅是一种示例,并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
45.下面对本发明涉及到的术语进行说明。
46.关系抽取(relation extraction)技术旨在通过指定实体内容,将实体认定为主体和客体,从非结构化或半结构化数据中找出主体与客体之间的关系,并将其表示为(主体,关系,客体)的实体关系三元组。
47.迁移学习(transfer learning)技术旨在将已有问题领域的解决模型用在其他不同但相关的问题领域里。对已有的知识进行迁移学习,如果成功进行了知识转移,就可以避免昂贵的数据标注,节省大量的人力成本,极大地增加学习效率。
48.增量学习(incremental learning)技术旨在将已有的解决模型进行更新,使其能够在不丧失原本的已掌握的知识的情况下,增加对新的目标知识的识别能力,使其可以以增量的形式不断迭代,大量节省训练模型的成本。
49.本技术为解决在起始数据不足时,只能通过高成本人工标注的方式来满足关系抽取技术对起始数据量的需求,而造成的人力成本高的问题,提供了一种关系提取方案,使用迁移学习作为关系抽取的方式,将源领域的知识迁移到目标领域,整合多个源领域的信息用于预测目标领域的关系数据,可以减少所需的专业标注人力。例如,对于目标领域中的已知的一个或多个实体对,通过多个源知识库的数据训练分别得到的多个分类模型,预测该一个或多个实体对中每个实体对的实体间关系。以实体对《风力发电,风轮》为例,该实体对《风力发电,风轮》的实体间关系为《使用》。应理解,本技术实施例中,将源领域的知识库称为源知识库,一个源领域对应一个源知识库,后文不再赘述。
50.下面对本技术实施例提供的关系提取方法进行详细介绍。
51.本技术实施例中,可以先根据已有的多个源知识库分别训练分类模型,然后再通过训练好的多个分类模型对目标领域进行实体关系预测。
52.例如,已有的多个源知识库分别表示为s1,s2,s3,s4…
sn,每个源知识库中包括:《实
体1,关系,实体2》的知识关系三元组,该知识关系三元组囊括领域内的实体和实体间的关系;以及领域内相关的基本语料(例如论文)。语料库包括目标领域内的论文、专利等包含专业知识的文本数据。
53.目标领域的非结构化语料库表示为c
*
,语料库包括目标领域内的论文、专利等包含专业知识的文本数据。
54.下面一个源知识库为例,介绍采用该源知识库的数据训练分类模型的过程。如图2所示,训练分类模型的过程包括如下步骤:
55.步骤201,从源知识库获取第一样本数据。
56.首先,从源知识库中提取实体集合以及实体间的关系列表。例如,以源知识库为风能领域的源知识库为例,从风能领域的源知识库中提取出风能相关的实体(例如风力发电、风轮等)组成实体集合,并获得实体集合中的实体间关系,例如《风力发电,使用,风轮》。
57.然后,使用自然语言处理工具库,例如nltk,jieba等效果稳定准确的工具,对源知识库中的语料进行分词、词性还原等操作,将其处理成标准化的输入。例如,对输入“风力发电机将风能转换为机械功”输入转化为“风力发电机/将/风能/转换为/机械功”。对英文输入,还会额外进行词性还原将类似asked等词的变形还原成原型ask。
58.之后,对源知识库中的语料提取文本特征作为输入,需要提取的具体语义特征如下:
59.(1)实体的词首(the head token of entity mention);
60.(2)实体(或关系)的词袋模型表示(bag-of-words of each entity(or relation));
61.(3)实体e与客体e'之间的字词(words between two entities e and e
′
);
62.(4)实体e与客体e'的词首的拼接(the combination of head words eand e
′
);
63.(5)两个实体之间的字词的词性标记(part-of-speech(pos)tag of words between two entity mentions);
64.(6)每个实体(或关系)的左/右3字上下文窗口(left/right 3-word window of each entity(or relation)mentions);
65.(7)实体顺序:e是否在e'之前(entity order:whether e is before e
′
);
66.(8)实体距离:e与e'之间的字词数量(entity distance:#words between e is e
′
);
67.(9)实体(或关系)前后文的一元分词表示(unigrams before and after each entity(or relation))。
68.除了特征(2)之外,上述其他每个特征都可以通过基本的方法获取,例如通过词性标注的库获得两个实体间的词的词性、直接计算两个实体间的词的数量等。上述特征(2)如何取得,请参见后文中的相关描述。
69.通过以上流程后,可以获得实体、实体间关系以及文本特征三种不同数据,以风能领域为例,从风能领域的源知识库s1中可获得三种数据包括:
70.(1)实体,即该领域内带有实际含义的专业名词术语,如风力发电、风速、风切变指数等。
71.(2)实体间关系,即描述上述实体间联系的关系短语,如使用、基于、包含等。
72.(3)文本特征,即从描述实体间关系的文本上下文中获取的文本语义特征。如对于风能领域中的语料库数据“尾流效应在风力涡轮机之间施加了显著的空气动力学相互作用,所以考虑尾流动力学的高级风电控制对于风能并网十分重要”中,提取的文本特征如下:
73.对于实体对,提取出各个实体的词首,即“尾流”与“高级”。
74.对于实体对,提取出各个实体的词首的结合,即“尾流高级”。
75.提取实体间的词,即“尾流动力学”、“高级风电控制”间的词,此处为“的”。
76.提取实体间的词个数,即“尾流动力学”、“高级风电控制”间的词个数,此处为1。
77.提取实体间的词性,即“尾流动力学”、“高级风电控制”间的词的词性,此处为助词。
78.对于实体(或关系)提取窗口为3的上下文词提取,即提取“尾流动力学”、“高级风电控制”和“考虑”的前后三个词,此处为“作用所以考虑”和“对于风能并网十分重要”。
79.实体间的顺序,即实体1是否出现在实体2之前,此处为是。
80.对实体(或关系)的前后文提取一元分词的结果,此处的一个结果为“尾/流/效/应/在/风/力/涡/轮/机/之/间/施/加/了/显/著/的/空/气/动/力/学/相/互/作/用/,/所/以/考/虑”。
81.为便于描述,将源知识库以s表示,目标领域的知识库以*表示。
82.通过上述过程得到源知识库中的实体es、实体间关系ys以及文本特征fs等数据,最终得到源知识库对应的第一样本数据,包括实体集合es、实体关系集合文本特征集合fs。基于上述类似过程,可以得到目标领域中的实体e
t
、实体间关系y
t
以及文本特征f
t
等数据,最终得到目标领域的知识库数据,包括实体集合e
*
、实体关系集合文本特征集合f
*
。其中:
83.实体集合es∈es,e
t
∈e
*
;
84.实体间关系
85.文本特征fs∈fs,f
t
∈f
*
。
86.在获取第一样本数据之后,可以通过模型学习输入数据的向量表现形式,例如通过对深度学习的词袋模型来生成实体集合,实体间关系和文本特征三种数据的向量形式。
87.步骤202,将第一样本数据输入至词袋模型,得到源知识库对应的样本向量数据。
88.为了将三种数据转化为向量形式,我们首先进行简单的词嵌入,将实体集合数据和关系数据转化为词向量,然后通过词袋模型学习实体(ve)和关系(vy)的向量表示,如图3所示,图3中le和lr分别表示两个词袋模型的损失函数,在损失函数中的为实体在语料库中与文本特征的共现频率,损失函数中的为关系在语料库中与文本特征的共现频率,t代表上下文窗口大小。图例说明了对实体e,其向量由窗口大小为t的文本特征f的集合和特征与实体的共现频率计算获得(对实体关系y同理)。这里实体和关系会有两个不同的损失,但在学习过程中并不将两者分开,而是结合成一个损失进行同时学习,这样可以使得向量表达的准确度更高,如下公式(1)所示:
89.90.通过不断的更新ve,vf,vy来减少损失,直到达到局部最优,即l达到最小值的时候,停止学习。通过这个词袋模型,我们就分别获得了源知识库分别对应的实体的向量表达ve,实体间关系的向量表达vy,以及文本特征的向量表达vf。本技术实施例中,可以对每个源知识库都分别进行表征学习,就可以将源知识库数据转化为样本向量数据,包括实体向量关系向量特征向量应理解,也可以通过词袋模型将语料库的数据转化为实体向量关系向量特征向量
91.步骤203,利用样本向量数据训练初始模型,得到源知识库对应的分类模型。
92.本技术实施例中,可以将实体向量关系向量特征向量作为初始模型的输入,以初始模型的损失函数最小值为优化目标对初始模型进行训练,得到源知识库对应的分类模型。
93.本技术实施例中,例如已有的源知识库为l个,可以分别基于每个源知识库对应的样本向量数据训练得到每个源知识库对应的分类模型,所以l个源知识库可以得到l个分类模型,l为正整数。
94.基于上述描述,图4示例性的示出了本发明实施例提供的一种关系抽取方法的流程,该流程可以由关系抽取装置执行,该关系抽取装置可以位于如图1所示的设备100内,也可以是该设备100。
95.如图4所示,该关系抽取方法的流程具体包括如下步骤:
96.步骤401,从第一目标领域对应的语料库获取第一数据,第一数据包括第一实体集合以及第一文本特征。
97.此处,从第一目标领域对应的语料库获取第一数据的具体实现可以参考上述步骤201中获取第一样本数据的相关描述,此处不再赘述。
98.步骤402,将第一数据通过词袋模型映射为第一向量数据,第一向量数据包括第一实体集合对应的第一实体向量以及第一文本特征对应的第一文本向量。
99.此处,步骤402的具体实现可以参考上述步骤202中获取源知识库对应的样本向量数据的相关描述,此处不再赘述。
100.步骤403,将第一向量数据分别输入至m个分类模型中,得到m个预测结果。
101.在步骤403中,m个分类模型对应m个源知识库,以m个源知识库分别为源知识库s1、源知识库s2、源知识库s3为例,源知识库s1对应分类模型1,源知识库s2对应分类模型2,源知识库s3对应分类模型。每个分类模型是根据对应源知识库的样本向量数据对初始模型进行训练得到,样本向量数据包括带有第二关系向量标签的第二实体向量以及第二文本向量,其中m为正整数。例如源知识库s1的样本向量数据包括带有关系向量标签的实体向量以及特征向量分类模型1是根据带有关系向量标签的实体向量以及特征向量对初始模型进行训练得到。又例如源知识库s2的样本向量数据包括带有关系向量标签的实体向量以及特征向量分类模型1是根据带有关系向量标签的实体向量以及特征向量对初始模型进行训练得到。
102.在m个预测结果中,每个预测结果包括第一实体集合中每个第一实体对的实体间
关系分别为n个候选关系的预测概率,n为正整数。例如,以源知识库s1为例,源知识库s1对应的第一实体集合中包括第一实体对1,第一实体对2,第一实体对3,n个候选关系分别为候选关系1、候选关系2,源知识库s1对应的预测结果包括第一实体对1为候选关系1的概率、第一实体对1为候选关系2的概率、第一实体对2为候选关系1的概率、第一实体对2为候选关系2的概率、第一实体对3为候选关系1的概率、第一实体对3为候选关系2的概率。
103.本技术实施例中,例如已有的l个源知识库,l为大于或等于m的正整数。在上述步骤403之前,可以不对已有的l个源知识库进行筛选,也就是说,这l个源知识库全部用来对第一目标领域的实体间关系进行预测,即步骤403中的m等于l。
104.可选的,在上述步骤403之前,对l个源知识库进行筛选,例如对l个源知识库中每个源知识库与第一目标领域之间进行显著性评估,得到每个源知识库对所述第一目标领域的贡献度。然后从l个源知识库中筛选出贡献度大的m个源知识库,用来对第一目标领域的实体间关系进行预测,这种情况下m小于l,例如l为5,m为3,即从5个源知识库中筛选出3个对第一目标领域贡献度大的源知识库,然后采用这3个对第一目标领域贡献度大的源知识库分别训练得到的分类模型,对第一目标领域进行关系数据预测。
105.其中,显著性评估可以包括以下两个方面的评估:
106.方面一,领域关联性的评估。
107.(1)领域关联性的评估,例如针对l个源知识库中的每个源知识库,确定每个源知识库与第一目标领域对应的语料库之间的领域关联性分数。以l个源知识库包括源知识库s1、源知识库s2、源知识库s3、源知识库s4,第一目标领域对应的语料库为s
*1
为例,分别确定s1、s2、s3、s4与s
*1
之间的领域关联性分数,即可以确定出4个领域关联性分数。
108.对于一个源知识库来si说,判断源知识库si与语料库s
*
的关联性,可以通过发现语料库s
*
中的实体列表,并判别语料库s
*
中的实体列表与源知识库si的信息关联性得到领域关联性分数用作评估。该领域关联性分数可以采用如下公式(1)表示:
[0109][0110]
其中,e
*
为语料库s
*
中的实体集合,为源知识库si中的实体集合。
[0111]
方面二,判别能力的评估。
[0112]
判别能力为判断源领域对推理第一目标领域的关系数据的能力。在传统的推理流程中,一般按照y
t
(关系)-》f
t-》x
t
(输入)的流程,也就是通过对第一目标领域文本的特征将第一目标领域的关系标注给第一目标领域内的实体进行,本技术则改变了这个流程,变成y
t-》y
s-》f
s-》f
t-》x
t
的流程,也就是通过“对比源领域关系和第一目标领域关系间的关联性”和“对比源领域文本特征和第一目标领域文本特征间的关性”来生成第一目标领域的实体的关系标签的流程,来适配迁移学习的特性。当“给定第一目标领域关系的情况下源领域文本特征被观测到的可能性p(fs|y
t
)”与“给定第一目标领域实体的情况下源领域文本特征被观测到的可能性p(fs|x
t
)”越不相似时,给目标实体对间的关系进行标注的风险越大。以此构想为基础,建立的相关计算公式如下:
[0113]
标准kl散度的公式,指分布p(x)被用于近似q(x)时的信息损失,如公式(3):
[0114]
[0115]
基于kl散度的定义,单个知识库的能力φ与kl散度d
kl
负相关,即近似信息时导致的信息损失越小,知识库的能力越强。如下公式(4),f指的是特征集合,
∝
表示正相关,因为右半部分是负数表示,所以φ与kl散度d
kl
负相关。
[0116][0117]
单个知识库的判别能力φ的计算方式公式(5):
[0118][0119]
本技术实施例中,可以确定第一条件概率分布p与第二条件概率分布q之间的kl散度,第一条件概率分布p为通过源知识库对应的分类模型预测出第一实体集合的向量表征的概率分布,第二条件概率分布q为通过源知识库对应的分类模型预测出实体间关系的向量表征的概率分布。然后,根据kl散度,可以确定源知识库对第一目标领域的判别能力。
[0120]
下面结合具体示例进行说明。
[0121]
例如,使用电能领域的源知识库作为相关知识库si,并获得了电能领域内的文本特征后,当去预测风能相关的语料库s
t
中的数据(x
t
=《尾流动力学,高级风电控制》,
…
;y
t
=[使用,基于,包含,
…
])时,将使用kl散度公式作为主要评判手段。具体做法是,通过si的表征模型分别计算出x
t
的表征的条件概率分布和y
t
的表征的条件概率分布然后计算二者的kl散度d=d
kl
(p||q)。在kl散度的公式性质中,如果二者的kl散度越大,说明二者分布的近似损失越大,散度越小则说明两者的信息越近似。以此为标准,源知识库对第一目标领域知识的评判能力需要二者的信息更近似,也就是说与kl散度成负相关。更进一步,源知识库对第一目标领域知识的判别能力φ取决于在源知识库中提供kl散度最低的(x
t
,y
t
)的kl散度之和。在上述例子中表现为,计算(x
t
=《尾流动力学,高级风电控制》,y
t
=考虑)数据时源知识库得出的kl散度最低,所得到的kl散度将作为源知识库的判别能力的一部分。对于所有的x
t
,都找到对应的y
t
,并对所有的kl散度求和,即得到电能领域知识库对风能领域的评判能力φ。
[0122]
在确定出关联性分数以及kl散度之后,可以根据关联性分数以及判别能力,确定每个源知识库对所述第一目标领域的贡献度。然后,根据l个源知识库分别对所述第一目标领域的贡献度,从l个源知识库中确定出m个源知识库。
[0123]
例如,通过加权的形式整合各个知识库对目标语料库的为显著性,并得出使用各个知识库的风险。例如可以通过如下公式(6),从所有可能的知识库集合中找到拥有最大加权显著性的集合
[0124][0125]
以使用多个源领域(电能,核能,太阳能)的知识库去预测目标领域(风能)的实体间关系为例,每个源知识库的贡献度由(3)中的两个标准(领域关联性,判别能力)得出,具体为c=α1σ(s
′
,s
*
)+α2φ(s
′
,s
*
)(α1,α2为超参数,可根据情况调节)由此单个源知识库的能力已经得出,但因为有多个源知识库,我们仍需要从中挑选出对目标领域贡献度最高的源知识库集合。因此选择贡献度最高的多个源知识库组成源知识库集合如上述例子中,太
阳能源知识库由于贡献度较低因此被排除,筛选得出的源知识库集合为阳能源知识库由于贡献度较低因此被排除,筛选得出的源知识库集合为
[0126]
在得到源知识库集合后,通过领域对应的模型预测出实体对x
t
所对应的关系y
t
。例如通过如下公式(7),在找到在集合中对于x
t
给出标签y
t
的知识库集合
[0127][0128]
由于有多个源知识库,所以对于同一实体对会得到多个关系组合成关系集合y。例如,对于同一个实体对《尾流动力学,高级风电控制》,电能和太阳能两个源知识库可能会预测出不同的关系《考虑,包含》。
[0129]
步骤404,根据m个预测结果,从n个候选关系中确定出第一实体集合中各个第一实体对的最终关系。
[0130]
在一种可能的实施方式中,针对第一实体集合中的每个第一实体对,执行:针对n个候选关系中的每个候选关系,从m个预测结果中确定出第一实体对的实体间关系为候选关系的m个预测概率;根据确定出的m个预测概率,确定第一实体对的实体间关系为候选关系所对应的风险值;然后,根据第一实体对的实体间关系分别为n个候选关系所对应的n个风险值,从n个候选关系中确定第一实体对的最终关系。例如,根据第一实体对的实体间关系分别为n个候选关系所对应的n个风险值,将n个风险值中的最小风险值对应的候选关系确定为第一实体对的最终关系。
[0131]
例如,使用知识库集合对于实体对x
t
给出关系标签y
t
的风险系数的计算方式如下公式(8):
[0132][0133]
通过如下公式(9),选择最小风险系数的关系作为结果:
[0134][0135]
下面举例说明第一实体对的最终关系的具体过程。
[0136]
以m个源知识库分别为源知识库s1、源知识库s2、源知识库s3,源知识库s1对应分类模型1,源知识库s2对应分类模型2,源知识库s3对应分类模型3,n个候选关系分别为候选关系1、候选关系2为例,说明确定目标领域对应的第一实体集合中各个第一实体对的最终关系的过程。
[0137]
目标领域对应的第一实体集合中包括第一实体对1以及第一实体对2,分类模型1输出的预测结果包括:第一实体对1为候选关系1的概率p11、第一实体对1为候选关系2的概率p12、第一实体对2为候选关系1的概率p13、第一实体对2为候选关系2的概率p14;分类模型2输出的预测结果包括:第一实体对1为候选关系1的概率p21、第一实体对1为候选关系2的概率p22、第一实体对2为候选关系1的概率p23、第一实体对2为候选关系2的概率p24;分类模型3输出的预测结果包括:第一实体对1为候选关系1的概率p31、第一实体对1为候选关系2的概率p32、第一实体对2为候选关系1的概率p33、第一实体对2为候选关系2的概率p34。
[0138]
针对第一实体对1,确定第一实体对1为候选关系1的概率加权值为p11、p21以及p31之和,记为p
11
,第一实体对1为候选关系1的风险值为1与p
11
的差值;确定第一实体对1为候选关系2的概率加权值为p12、p22以及p32之和,记为p
12
,第一实体对1为候选关系2的风险
值为1与p
12
的差值;然后从(1-p
11
)与(1与p
12
)中确定出最小风险值,例如(1与p
12
)最小,则将与(1与p
12
)对应的候选关系2确定为第一实体对1的最终关系。基于同样方式,获取第一实体对2的最终关系。
[0139]
例如风能领域中的第一实体对1为《尾流动力学,高级风电控制》,电能领域的源知识库对应的分类模型与太阳能领域的源知识库对应的分类模型可能会预测出不同的关系,例如《考虑,包含》。然后,计算电能领域的源知识库对应的分类模型与太阳能领域的源知识库对应的分类模型预测为“考虑”关系的概率的加权和,再用总概率1减去概率加权和,得到“考虑”关系的预测风险,例如为0.2;计算电能领域的源知识库对应的分类模型与太阳能领域的源知识库对应的分类模型预测为“包含”关系的概率的加权和,再用总概率1减去概率加权和,得到“包含”关系的预测风险,例如为0.8。由于前者预测风险更小,所以实体对《尾流动力学,高级风电控制》的最终关系确定为“考虑”。通过该实施例,对于一个第一实体对来说,该第一实体对的实体间关系为n个候选关系中最小风险值对应的候选关系,说明第一实体对的实体间关系为这个候选关系的可能性最大,从而可以得到更准确的预测结果。
[0140]
本发明实施例中,每次使用该发明通过源目标知识库对第一目标领域的关系预测后,可以将预测的第一目标领域内的知识整合为新的知识库,用于为后续进入的新的第一目标领域提供新的相关知识库。对于新生成的第一目标领域内的知识库,其对应的知识库数据包括第一实体集合、第一文本特征以及第一实体集合中各个第一实体对的最终关系,使用词袋模型映射为向量表达。
[0141]
例如,在上述步骤404之后,将第一实体集合中各个第一实体对的最终关系输入至词袋模型,得到第一实体集合中各个第一实体对的最终关系对应的第一关系向量。然后。可以结合前述步骤402中的第一向量数据,得到第一目标领域的知识库数据对应的向量数据。
[0142]
本技术实施例中,获得第一目标领域的知识库数据对应的向量数据,可以有多种可能的实施方式。
[0143]
实施方式一,可以将第一实体向量、第一文本向量以及第一关系向量作为第一目标领域的知识库数据对应的向量数据。例如,记为v
ei
,v
fi
,v
yi
。
[0144]
在该实施方式一中,将第一实体向量、第一文本向量以及第一关系向量作为初始模型的输入,以初始模型的损失函数最小值为优化目标对初始模型进行训练,得到第一目标领域对应的分类模型。第一目标领域对应的分类模型用于与k个源领域对应的分类模型一起对第二目标领域对应的第二向量数据进行关系预测,k为正整数。
[0145]
其中,获取第二目标领域对应的第二向量数据的具体实现可以参见上述步骤401以及步骤402的相关描述,此处不再赘述。其中,第二向量数据包括第二实体集合对应的第三实体向量以及第二文本特征对应的第三文本向量。
[0146]
例如,已有的源知识库包括4个,分别为s1、s2、s3、s4,将第一目标领域的知识库也作为一个源知识库,例如记为s5,然后可以分别对s1、s2、s3、s4、s5与第二目标领域进行显著性评估,得到每个源知识库对第一目标领域的贡献度;然后根据s1、s2、s3、s4、s5分别对第一目标领域的贡献度,从s1、s2、s3、s4、s5中筛选出对第二目标领域的贡献度高的m个源知识库,将第二目标领域对应的第二向量数据,即第三实体向量以及第三文本向量,输入至对第二目标领域贡献度高的m个源知识库对应的m个分类模型中,得到m个预测结果。然后根据m个预测结果,从n个候选关系中确定出第二实体集合中各个第二实体对的最终关系。
[0147]
之后,也可以将预测的第二目标领域内的知识整合为新的知识库,用于为后续进入的新的第三目标领域提供新的相关知识库。依此类推,每次生成一个目标领域的知识库后,其中的知识都可以作为下次任务的新输入加入到训练的流程之中,该目标领域的知识库可以与已有的源知识库一起作为源知识库,用于对下一个目标领域的关系数据进行预测,这样源知识库的来源会随着使用次数不断累积,这样可以不断扩大源知识库的数量,如此不断地进行知识迁移的过程,如此不断地进行知识迁移的过程,对新知识的关系预测结果也会更加可靠。
[0148]
由于第一目标领域对应的知识库的关系数据是由m个分类模型预测而得,所以第一目标领域相关领域的知识产生关联,导致存在信息耦合的问题。为此,本技术实施例中提供下述实施方式二对第一目标领域对应的第二向量数据进行调整以达到提高向量表现的准确性的目的。
[0149]
实施方式二,通过增量学习的更新形式,将源领域的知识库的通用特征进行提取,并在目标领域对通用特征进行去除,充分利用源领域的数据,将向量表现形式快速地、准确地进行修改补充,从而增加目标领域文本特征的准确性与独立性。下面介绍对第一目标领域的知识库数据对应的向量数据(即第一实体向量、第一文本向量以及第一关系向量)进行调整的过程,该调整过程包括以下步骤:
[0150]
步骤一,针对m个源知识库中的每个源知识库,根据每个源知识库对应的第二文本向量、第二关系向量以及第二文本向量组成的第一输入矩阵,确定每个源知识库对应的第一概念矩阵。
[0151]
以m个源知识库包括s1、s2、s3、s4为例,介绍使用概念矩阵的概念,先计算一个源知识库的第一概率矩阵,例如计算s1的第一概率矩阵c0的过程如下:
[0152]
概念矩阵(conceptors matrix)是一种计算共同语义特征的矩阵,它展示了语料库文本共享的普遍特征。基于这样的概念,概念矩阵需要满足如下两点:(1)尽量保持输入的原始特征。(2)在(1)的基础上使矩阵元素尽量小,从而保持最简洁、最基础的表达。基于上述概念,概念矩阵c需要满足最小化下列公式(10)所示的损失函数:
[0153][0154]
其中,x
*
={xi}
i∈{1,
…
,n}
是数据输入矩阵,α是可选的确定的超参数,f是范数表示。公式(10)中等式右侧包括两部分,第一部分确保了概念矩阵c会尽可能复制输入,从而达到上述(1)的目的,第二部分是正则惩罚,限制矩阵元素大小,达到(2)的目的。
[0155]
上述公式(10)的解为如下公式(11):
[0156][0157]
其中,x={xi}
i∈{1,
…
,n}
,x是数据输入矩阵,即对应的ve,vf,vy,f是f范数,n是数据量,α是可选的确定的超参数,i是对应数据输入x维度的单位矩阵。
[0158]
在对源知识库s1计算获得的第一概率矩阵c0后,依次对其他知识库s2、s3、s4进行相同的计算过程,分别获得s2、s3、s4的第一概念矩阵ci。
[0159]
步骤二,根据第一实体向量、第一文本向量以及第一关系向量组成的第二输入矩
阵,确定第一目标领域对应的第二概念矩阵。
[0160]
该步骤二中,基于与对源知识库s1计算获得的第一概率矩阵c0相同的计算过程,计算第一目标领域对应的知识库s5对应的第二概念矩阵。
[0161]
步骤三,将m个源知识库对应的m个第一概念矩阵以及第二概念矩阵进行合并,得到通用概念矩阵。
[0162]
下面对两个概念矩阵合并过程进行介绍。
[0163]
由于概念矩阵满足大部分布尔原则,以两个概念矩阵分别为ci和cj为例,i和j为正整数,介绍ci和cj合并过程,可参见如下公式(11)~公式(13):
[0164][0165]ci
∧c
j ∶=(c
i-1
+c
j-1-i)-1
ꢀꢀꢀꢀ
公式(12)
[0166][0167]
其中,为逻辑非操作,i为与ci、cj同维度的单位矩阵,ci∧cj为逻辑上的ci和cj的交集,ci∨cj为逻辑上的ci和cj的并集。
[0168]
本技术实施例中,可基于上述公式根据如下公式(14)合并任意两个概率矩阵。
[0169]c←ci
∨cjꢀꢀꢀꢀ
公式(14)
[0170]
例如,对第一概念矩阵c0、c1、c2、c3以及第二概念矩阵c4进行合并的过程包括:以i为0,j为1,按照公式(11)~(14)合并c0和c1得到合并结果c
01
,然后,以i为01,j为2,按照公式(11)~(14)合并c
01
和c2得到c
02
,之后以i为02,j为3,继续按照公式(11)~(14)合并c
02
和c3得到c
03
,之后以i为03,j为4,继续按照公式(11)~(14)合并c
03
和c4得到通用概念矩阵ca。应理解,本技术对c0、c1、c2、c3、c4的合并顺序不作限定,可以任意两个概念矩阵先合并,然后将合并后的结果再与剩下的任意一个概念矩阵合并,直至所有的概念矩阵合并完成,得到概念矩阵ca。
[0171]
步骤四,根据第一实体向量、第一文本向量以及第一关系向量分别与通用概念矩阵的差值,得到第一实体向量、第一文本向量以及第一关系向量的更新值。
[0172]
沿用上述示例,第一实体向量、第一文本向量以及第一关系向量分别v
ei
,v
fi
,v
yi
,分别减去通用概念矩阵ca以便去除知识库的通用特征,最终获得第一目标领域对应的向量数据的更新值ve,vf,vy。
[0173]
以对风能的领域的关系数据进行预测为例,采用电能,太阳能的知识库作为相关的源知识库。在完成对风能的领域的关系数据预测后,获得初始的风能领域对应的知识库的初始向量数据:v
ei
,v
fi
,v
yi
。之后,对风能知识库的构建,需要对电能,太阳能的知识库的数据分别计算概念矩阵c
电能
,c
太阳能
,以及风能的知识库的数据计算概念矩阵c
风能
,然后将c
电能
、c
太阳能
,以及c
风能
进行融合,生成融合所有数据的共同特征的通用概念矩阵c
通用
。最后将初始的目标领域v
ei
,v
fi
,v
yi
分别减去通用概念矩阵c
通用
来去除之前知识库的共同语义特征,减少新的目标领域与之前的相关知识库的关联性,获得最终的ve,vf,vy。
[0174]
在该实施方式二中,将第一实体向量、第一文本向量以及第一关系向量的更新值作为初始模型的输入,以初始模型的损失函数最小值为优化目标对初始模型进行训练,得到第一目标领域对应的分类模型。第一目标领域对应的分类模型用于与k个源领域对应的分类模型一起对第二目标领域对应的第二向量数据进行关系预测,k为正整数。此处,根据
第一目标领域对应的分类模型与k个源领域对应的分类模型一起对第二目标领域对应的第二向量数据进行关系预测的具体实现可参见前述实施方式一中的相关描述,此处不再赘述。
[0175]
通过上述实施方式二,使用增量学习的技术,将新领域的知识库内的信息表示用增量的形式进行调整,从而大幅减少信息间的关联性,提升新知识库信息表达的准确性;进一步的,每次生成一个目标领域的知识库后,其中的知识都可以作为下次任务的新输入加入到训练的流程之中,该目标领域的知识库可以与已有的源知识库一起作为源知识库,用于对下一个目标领域的关系数据进行预测,这样源知识库的来源会随着使用次数不断累积,如此不断地进行知识迁移的过程,对新知识的关系预测结果也会更加可靠。
[0176]
基于相同的技术构思,图5示例性的示出了本发明实施例提供的一种关系抽取装置,该关系抽取装置可以执行关系抽取方法的流程。
[0177]
如图5所示,该关系抽取装置包括:
[0178]
获取单元501,用于从第一目标领域对应的语料库获取第一数据,所述第一数据包括第一实体集合以及第一文本特征;
[0179]
处理单元502,用于将所述第一数据通过词袋模型映射为第一向量数据,所述第一向量数据包括所述第一实体集合对应的第一实体向量以及第一文本特征对应的第一文本向量;将所述第一向量数据分别输入至m个分类模型中,得到m个预测结果;根据所述m个预测结果,从所述n个候选关系中确定出所述第一实体集合中各个第一实体对的最终关系;其中,每个所述预测结果包括所述第一实体集合中每个第一实体对的实体间关系分别为n个候选关系的预测概率,所述m个分类模型对应m个源知识库,每个所述分类模型是根据对应源知识库的样本向量数据对初始模型进行训练得到,所述样本向量数据包括带有第二关系向量标签的第二实体向量以及第二文本向量,所述m以及所述n均为正整数。
[0180]
可选地,所述处理单元502,具体用于:针对所述第一实体集合中的每个第一实体对,执行:针对所述n个候选关系中的每个候选关系,从所述m个预测结果中确定出所述第一实体对的实体间关系为所述候选关系的m个预测概率;根据确定出的所述m个预测概率,确定所述第一实体对的实体间关系为所述候选关系所对应的风险值;根据所述第一实体对的实体间关系分别为所述n个候选关系所对应的n个风险值,从所述n个候选关系中确定所述第一实体对的最终关系。
[0181]
可选地,所述处理单元502,具体用于:根据所述第一实体对的实体间关系分别为所述n个候选关系所对应的n个风险值,将所述n个风险值中的最小风险值对应的候选关系确定为所述第一实体对的最终关系。
[0182]
可选地,所述处理单元502具体用于:针对l个源知识库中的每个源知识库,对每个所述源知识库与所述第一目标领域进行显著性评估,得到每个源知识库对所述第一目标领域的贡献度;所述l为大于或等于所述m的整数;根据所述l个源知识库对所述第一目标领域的贡献度,从所述l个源知识库中确定出所述m个源知识库。
[0183]
可选地,所述处理单元502具体用于:所述针对l个源知识库中的每个源知识库,对每个所述源知识库与所述第一目标领域进行显著性评估,得到每个源知识库对所述第一目标领域的贡献度,包括:针对l个源知识库中的每个源知识库,执行:确定所述源知识库与所述第一目标领域对应的语料库之间的领域关联性分数;确定第一条件概率分布与第二条件
概率分布之间的kl散度,所述第一条件概率分布为通过所述源知识库对应的分类模型预测出所述第一实体集合的向量表征的概率分布,第二条件概率分布为通过所述源知识库对应的分类模型预测出实体间关系的向量表征的概率分布;根据所述关联性分数以及所述kl散度,确定所述源知识库对所述第一目标领域的贡献度。
[0184]
可选地,所述处理单元502还用于:将所述第一实体集合中各个第一实体对的最终关系输入至所述词袋模型,得到所述第一实体集合中各个第一实体对的最终关系对应的第一关系向量;将所述第一实体向量、所述第一文本向量以及所述第一关系向量作为所述初始模型的输入,以所述初始模型的损失函数最小值为优化目标对所述初始模型进行训练,得到所述第一目标领域对应的分类模型;所述第一目标领域对应的分类模型用于与k个源领域对应的分类模型一起对第二目标领域进行关系预测,所述k为正整数。
[0185]
可选地,所述处理单元502还用于:将所述第一实体集合中各个第一实体对的最终关系输入至所述词袋模型,得到所述第一实体集合中各个第一实体对的最终关系对应的第一关系向量;针对所述m个源知识库中的每个源知识库,根据每个所述源知识库对应的第二文本向量、第二关系向量以及第二文本向量组成的第一输入矩阵,确定每个所述源知识库对应的第一概念矩阵;根据所述第一实体向量、所述第一文本向量以及所述第一关系向量组成的第二输入矩阵,确定所述目标领域对应的第二概念矩阵;将所述m个源知识库对应的m个第一概念矩阵以及第二概念矩阵进行合并,得到通用概念矩阵;根据所述第一实体向量、第一文本向量以及第一关系向量分别与所述通用概念矩阵的差值,得到第一实体向量、第一文本向量以及第一关系向量的更新值;将所述第一实体向量、所述第一文本向量以及所述第一关系向量的更新值作为所述初始模型的输入,以所述初始模型的损失函数最小值为优化目标对所述初始模型进行训练,得到所述第一目标领域对应的分类模型;所述第一目标领域对应的分类模型用于与k个源领域对应的分类模型一起对第二目标领域进行关系预测,所述k为正整数。
[0186]
基于相同的技术构思,本发明实施例提供一种计算设备,包括:
[0187]
存储器,用于存储程序指令;
[0188]
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行数据异常检测方法。
[0189]
基于相同的技术构思,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行数据异常检测方法。
[0190]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0191]
本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个
机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0192]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0193]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0194]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0195]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
技术特征:
1.一种关系抽取方法,其特征在于,包括:从第一目标领域对应的语料库获取第一数据,所述第一数据包括第一实体集合以及第一文本特征;将所述第一数据通过词袋模型映射为第一向量数据,所述第一向量数据包括所述第一实体集合对应的第一实体向量以及第一文本特征对应的第一文本向量;将所述第一向量数据分别输入至m个分类模型中,得到m个预测结果;每个所述预测结果包括所述第一实体集合中每个第一实体对的实体间关系分别为n个候选关系的预测概率,所述m个分类模型对应m个源知识库,每个所述分类模型是根据对应源知识库的样本向量数据对初始模型进行训练得到,所述样本向量数据包括带有第二关系向量标签的第二实体向量以及第二文本向量,所述m以及所述n均为正整数;根据所述m个预测结果,从所述n个候选关系中确定出所述第一实体集合中各个第一实体对的最终关系。2.如权利要求1所述的方法,其特征在于,所述根据所述m个预测结果,确定出所述第一实体集合中各个第一实体对的最终关系,包括:针对所述第一实体集合中的每个第一实体对,执行:针对所述n个候选关系中的每个候选关系,从所述m个预测结果中确定出所述第一实体对的实体间关系为所述候选关系的m个预测概率;根据确定出的所述m个预测概率,确定所述第一实体对的实体间关系为所述候选关系所对应的风险值;根据所述第一实体对的实体间关系分别为所述n个候选关系所对应的n个风险值,从所述n个候选关系中确定所述第一实体对的最终关系。3.如权利要求2所述的方法,其特征在于,所述根据所述第一实体对的实体间关系分别为所述n个候选关系所对应的n个风险值,从所述n个候选关系中确定所述第一实体对的最终关系,包括:根据所述第一实体对的实体间关系分别为所述n个候选关系所对应的n个风险值,将所述n个风险值中的最小风险值对应的候选关系确定为所述第一实体对的最终关系。4.如权利要求1-3任一项所述的方法,其特征在于,所述将所述第一向量数据分别输入至m个分类模型中,得到m个预测结果之前,还包括:针对l个源知识库中的每个源知识库,对每个所述源知识库与所述第一目标领域进行显著性评估,得到每个源知识库对所述第一目标领域的贡献度;所述l为大于或等于所述m的整数;根据所述l个源知识库对所述第一目标领域的贡献度,从所述l个源知识库中确定出所述m个源知识库。5.如权利要求4所述的方法,其特征在于,所述针对l个源知识库中的每个源知识库,对每个所述源知识库与所述第一目标领域进行显著性评估,得到每个源知识库对所述第一目标领域的贡献度,包括:针对l个源知识库中的每个源知识库,执行:确定所述源知识库与所述第一目标领域对应的语料库之间的领域关联性分数;确定第一条件概率分布与第二条件概率分布之间的kl散度,所述第一条件概率分布为通过所述源知识库对应的分类模型预测出所述第一实体集合的向量表征的概率分布,第二
条件概率分布为通过所述源知识库对应的分类模型预测出实体间关系的向量表征的概率分布;根据所述关联性分数以及所述kl散度,确定所述源知识库对所述第一目标领域的贡献度。6.如权利要求4所述的方法,其特征在于,所述根据所述m个预测结果,从所述n个候选关系中确定出所述第一实体集合中各个第一实体对的最终关系之后,还包括:将所述第一实体集合中各个第一实体对的最终关系输入至所述词袋模型,得到所述第一实体集合中各个第一实体对的最终关系对应的第一关系向量;将所述第一实体向量、所述第一文本向量以及所述第一关系向量作为所述初始模型的输入,以所述初始模型的损失函数最小值为优化目标对所述初始模型进行训练,得到所述第一目标领域对应的分类模型;所述第一目标领域对应的分类模型用于与k个源领域对应的分类模型一起对第二目标领域进行关系预测,所述k为正整数。7.如权利要求4所述的方法,其特征在于,所述根据所述m个预测结果,从所述n个候选关系中确定出所述第一实体集合中各个第一实体对的最终关系之后,还包括:将所述第一实体集合中各个第一实体对的最终关系输入至所述词袋模型,得到所述第一实体集合中各个第一实体对的最终关系对应的第一关系向量;针对所述m个源知识库中的每个源知识库,根据每个所述源知识库对应的第二文本向量、第二关系向量以及第二文本向量组成的第一输入矩阵,确定每个所述源知识库对应的第一概念矩阵;根据所述第一实体向量、所述第一文本向量以及所述第一关系向量组成的第二输入矩阵,确定所述目标领域对应的第二概念矩阵;将所述m个源知识库对应的m个第一概念矩阵以及第二概念矩阵进行合并,得到通用概念矩阵;根据所述第一实体向量、第一文本向量以及第一关系向量分别与所述通用概念矩阵的差值,得到第一实体向量、第一文本向量以及第一关系向量的更新值;将所述第一实体向量、所述第一文本向量以及所述第一关系向量的更新值作为所述初始模型的输入,以所述初始模型的损失函数最小值为优化目标对所述初始模型进行训练,得到所述第一目标领域对应的分类模型;所述第一目标领域对应的分类模型用于与k个源领域对应的分类模型一起对第二目标领域进行关系预测,所述k为正整数。8.一种关系抽取装置,其特征在于,包括:获取单元,用于从第一目标领域对应的语料库获取第一数据,所述第一数据包括第一实体集合以及第一文本特征;处理单元,用于将所述第一数据通过词袋模型映射为第一向量数据,所述第一向量数据包括所述第一实体集合对应的第一实体向量以及第一文本特征对应的第一文本向量;将所述第一向量数据分别输入至m个分类模型中,得到m个预测结果;根据所述m个预测结果,从所述n个候选关系中确定出所述第一实体集合中各个第一实体对的最终关系;其中,每个所述预测结果包括所述第一实体集合中每个第一实体对的实体间关系分别为n个候选关系的预测概率,所述m个分类模型对应m个源知识库,每个所述分类模型是根据对应源知识库的样本向量数据对初始模型进行训练得到,所述样本向量数据包括带有第二关系向量标签
的第二实体向量以及第二文本向量,所述m以及所述n均为正整数。9.一种计算设备,其特征在于,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1至7任一项所述的方法。
技术总结
本发明实施例提供了一种关系抽取方法及装置,该方法包括从第一目标领域对应的语料库获取第一实体集合和第一文本特征,并通过词袋模型映射为第一向量数据,然后将第一向量数据分别输入至M个分类模型中,得到M个预测结果,根据M个预测结果,从N个候选关系中确定出第一实体集合中各个第一实体对的最终关系,每个预测结果包括第一实体集合中每个第一实体对的实体间关系分别为N个候选关系的预测概率,每个分类模型是根据对应源知识库的带有第二关系向量标签的第二实体向量以及第二文本向量对初始模型进行训练得到。如此,使用迁移学习作为关系抽取的方式,将源领域的知识迁移到目标领域,可以实现减少所需的专业标注人力。可以实现减少所需的专业标注人力。可以实现减少所需的专业标注人力。
技术研发人员:简讯 吴志文 黄凯 周晓方 陈雷 吕晟东
受保护的技术使用者:香港科技大学
技术研发日:2023.06.30
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/