一种外部信息辅助的中文知识抽取方法、系统、存储介质及计算机与流程
未命名
09-22
阅读:56
评论:0
1.本发明涉及信息抽取领域,尤其涉及一种外部信息辅助的中文知识抽取方法。
背景技术:
2.知识抽取是从非结构化或半结构化文本数据中自动提取有意义信息的过程,进而将其转化为结构化的知识表示,这些信息可以是实体、关系或事件等。实体抽取是知识抽取的重要组成部分,可以支持问答系统、信息检索、文本分类等应用场景。实体抽取是指从文本中识别出具有特定意义的实体,例如人名、地名、机构名、时间、数字等。命名实体识别(named entity recognition,ner)是实体抽取的一种特定形式,指识别特定类型的实体。通过命名实体识别,可以为知识抽取提供基础的语义信息,从而更好地服务于人类的需求。
3.目前,ner领域的研究大多数都聚焦在平面的命名实体识别技术(flat ner),即假设实体之间不会发生重叠。实际上,在文本中一个实体的内部存在着一个或多个其他实体的情况十分常见。例如,在中文中,序列“哈尔滨医科大学附属第一医院”,其中包含了3个实体:“哈尔滨”属于地名类型的实体,“哈尔滨医科大学”、“哈尔滨医科大学附属第一医院”是属于机构名类型的实体,它们之间互相重叠,为三层嵌套结构。对于嵌套结构,细粒度的实体嵌套在粗粒度的实体内,识别具有嵌套结构实体的任务称为嵌套命名实体识别(nested ner)。嵌套命名实体识别能够识别到相较于平面命名实体识别更细粒度的语义信息,加深对文本的理解,具有很强的现实研究意义,在信息抽取、问答系统、自然语言理解等领域具有广泛的应用价值。在实践过程中,嵌套命名实体识别是一项复杂的任务,其中涉及到各种类型的实体,存在大量句子简短、缺少上下文且包含语义模糊和复杂的实体的情况。专业的标注者通常使用领域知识来消除这类实体的歧义,在标注时遇到一个未知的实体或不确定的,通常从知识库或搜索引擎中检索辅助知识作为辅助,以便更好地指导他们对命名不确定的实体进行注释。同理,相关知识也可以帮助嵌套命名实体识别模型消除歧义。
4.当前大多数nested ner研究都集中在英文语料上,而对于中文语料的研究相对较少。中文与英文嵌套命名实体识别之间存在一些显著差异。首先,中文和英文的词汇组成结构不同于英文,中文的词汇是基于汉字,而英文的词汇是基于字母。因此,在中文中识别嵌套命名实体需要考虑到更加复杂的语言结构和特征,例如多音字、歧义词、词语顺序等。这也使得中文嵌套命名实体识别任务相对于英文更加具有挑战性。其次,中文命名实体识别中常常需要解决歧义问题,因为中文中的词汇往往有多种不同的含义,需要考虑上下文信息和语境来进行确定正确的实体类型。与英文相比,中文中的实体识别任务更加困难,需要处理更多的歧义性和上下文依赖性。
技术实现要素:
5.本发明针对现有中文中的实体识别任务困难,需要处理更多的歧义性和上下文依赖性的问题,提出了一种外部信息辅助的中文知识抽取方法,具体的:
6.一种外部信息辅助的中文知识抽取方法,所述方法包括:
7.数据集划分步骤:获取中文嵌套命名实体识别数据集,将所述数据集进行预处理,并划分为训练集、验证集和测试集;
8.中文知识抽取模型构建步骤:构建外部信息辅助的中文知识抽取模型;
9.优化模型获取步骤:利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取优化模型;
10.命名实体获取步骤:根据所述优化模型进行解码操作,获取优化模型预测的输入序列的所有互不冲突的命名实体。
11.进一步的,还提供一种优选方式,所述数据集划分步骤,具体为:
12.从中文嵌套命名实体识别数据集中,获取文本序列;
13.将所述文本序列划分为训练集、验证集和测试集。
14.进一步的,还提供一种优选方式,所述中文知识抽取模型构建步骤,具体为:
15.获取文本序列中每个字符级嵌入表示;
16.引入词典信息,将所述文本序列与词典进行匹配,构建字符-词语对;
17.使用fusion模块将所述字符-词语对融合到bert模型的中间层,将融合好的向量输入到transformer层中进行计算,获得文本序列的嵌入表示;
18.采用双仿射解码器对所述文本序列的嵌入表示进行处理,获取每个字符的向量表示,并将所述每个字符的向量表示映射到评分矩阵中,获取句子的全局视图;
19.使用卷积神经网络cnn对所述全局视图跨度之间的局部交互进行建模,获取中文知识抽取模型。
20.进一步的,还提供一种优选方式,所述优化模型获取步骤,具体为:
21.利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取标签类别概率;
22.根据所述签类别概率计算所述外部信息辅助的中文知识抽取模型的损失函数;
23.采用r-drop的对比学习训练所述外部信息辅助的中文知识抽取模型,优化损失函数,获取优化模型。
24.基于同一发明构思,本发明还提供一种外部信息辅助的中文知识抽取系统,所述系统包括:
25.数据集划分单元:用于获取中文嵌套命名实体识别数据集,将所述数据集进行预处理,并划分为训练集、验证集和测试集;
26.中文知识抽取模型构建单元:用于构建外部信息辅助的中文知识抽取模型;
27.优化模型获取单元:用于利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取优化模型;
28.命名实体获取单元:用于根据所述优化模型进行解码操作,获取优化模型预测的输入序列的所有互不冲突的命名实体。
29.进一步的,还提供一种优选方式,所述数据集划分单元,具体为:
30.从中文嵌套命名实体识别数据集中,获取文本序列;
31.将所述文本序列划分为训练集、验证集和测试集。
32.进一步的,还提供一种优选方式,所述中文知识抽取模型构建单元,具体为:
33.获取文本序列中每个字符级嵌入表示;
34.引入词典信息,将所述文本序列与词典进行匹配,构建字符-词语对;
35.使用fusion模块将所述字符-词语对融合到bert模型的中间层,将融合好的向量输入到transformer层中进行计算,获得文本序列的嵌入表示;
36.采用双仿射解码器对所述文本序列的嵌入表示进行处理,获取每个字符的向量表示,并将所述每个字符的向量表示映射到评分矩阵中,获取句子的全局视图;
37.使用卷积神经网络cnn对所述全局视图跨度之间的局部交互进行建模,获取中文知识抽取模型。
38.进一步的,还提供一种优选方式,所述优化模型获取单元,具体为:
39.利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取标签类别概率;
40.根据所述签类别概率计算所述外部信息辅助的中文知识抽取模型的损失函数;
41.采用r-drop的对比学习训练所述外部信息辅助的中文知识抽取模型,优化损失函数,获取优化模型。
42.基于同一发明构思,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序执行上述任一项所述的一种外部信息辅助的中文知识抽取方法。
43.基于同一发明构思,本发明还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据上述中任一项所述的一种外部信息辅助的中文知识抽取方法。
44.本发明的有益之处在于:
45.本发明所述的一种外部信息辅助的中文知识抽取方法,通过词典获得匹配词,组成字符-词组对,中文词组所包含的语义信息比单个字符更丰富,引入词典信息增强特征,获取更丰富的语义,避免需要处理更多的歧义性语义问题。同时,使用双仿射结构获取跨度的全局视图,避免了特定长度枚举的限制。使用卷积神经网络cnn建模相邻跨度之间的空间相关性。最后,采用基于r-drop的对比学习思想来增强模型的鲁棒性和泛化能力。针对中文语言的特点进行优化,提高中文知识抽取技术的准确性和效率。本发明既解决了现有中文中的实体识别任务困难的问题,又能准确识别,提高识别效率,且不需要依赖上下文,减少识别时间,提到识别速度。
46.本发明应用于命名实体识别领域。
附图说明
47.图1为实施方式一所述的外部信息辅助的中文知识抽取方法的流程图;
48.图2为实施方式二所述的外部信息辅助的中文知识抽取模型示意图;
49.图3为实施方式三所述的构建字符-词语对示意图;
50.图4为实施方式三所述的fusion模块结构图;
51.图5为实施方式三所述的评分矩阵示例图。
具体实施方式
52.为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。
53.实施方式一、参见图1说明本实施方式。一种外部信息辅助的中文知识抽取方法,所述方法包括:
54.数据集划分步骤:获取中文嵌套命名实体识别数据集,将所述数据集进行预处理,并划分为训练集、验证集和测试集;
55.中文知识抽取模型构建步骤:构建外部信息辅助的中文知识抽取模型;
56.优化模型获取步骤:利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取优化模型;
57.命名实体获取步骤:根据所述优化模型进行解码操作,获取优化模型预测的输入序列的所有互不冲突的命名实体。
58.本实施方式克服现有技术的不足,在实际应用中使用词典、卷积神经网络、对比学习等技术,充分利用外部信息获取更丰富的语义信息,建模跨度之间的局部交互,充分利用相邻跨度之间的空间相关性。同时采用基于r-drop的对比学习思想来增强模型的鲁棒性,提高中文知识抽取技术。
59.实施方式二、参见图2说明本实施方式。本实施方式是对实施方式一所述的一种外部信息辅助的中文知识抽取方法的进一步限定,所述数据集划分步骤,具体为:
60.从中文嵌套命名实体识别数据集中,获取文本序列;
61.将所述文本序列划分为训练集、验证集和测试集。
62.本实施方式提供一种数据集来源。
63.实施方式三、参见图3、图4和图5说明本实施方式。本实施方式是对实施方式一所述的一种外部信息辅助的中文知识抽取方法的进一步限定,所述中文知识抽取模型构建步骤,具体为:
64.获取文本序列中每个字符级嵌入表示;
65.引入词典信息,将所述文本序列与词典进行匹配,构建字符-词语对;
66.使用fusion模块将所述字符-词语对融合到bert模型的中间层,将融合好的向量输入到transformer层中进行计算,获得文本序列的嵌入表示;
67.采用双仿射解码器对所述文本序列的嵌入表示进行处理,获取每个字符的向量表示,并将所述每个字符的向量表示映射到评分矩阵中,获取句子的全局视图;
68.使用卷积神经网络cnn对所述全局视图跨度之间的局部交互进行建模,获取中文知识抽取模型。
69.本实施方式所述的获取文本序列中每个字符级嵌入表示,包括:
70.使用bert嵌入层提取每个字符的向量表示,得到e={e1,e2,...,en},然后把e输入到transformer编码器中以得到更高层次的语义表示g,进行如下计算:
71.g=ln(h l-1
+mha ttn(h l-1
))
72.h l
=ln(g+ffh(g))
73.其中,表示transformer的第l层输出。ln是归一化操作,
mhattn是多头注意力机制,ffn是使用relu作为激活函数的双层前馈神经网络。
74.所述引入词典信息,将所述文本序列与词典进行匹配,构建字符-词语对,包括:
75.将句子s与事先准备好的维基词典d进行匹配,构建字符-词语对,如图3所示。为此,首先基于词典d构建一个字典树trie。然后,遍历句子的所有字符子序列,并将其与字典树trie匹配,以获得所有潜在的词语。例如,句子“中国人民”可以匹配到“中国”、“中国人”、“国人”、“人民”。对于每个匹配到的词语,将其分配给它包含的字符。例如,匹配到的词语“中国”将分配给字符“中”和“国”。然后,将每个字符与匹配到的词配对,生成字符-词语对,表示为s
cw
={(c1,ws1),...,(ci,wsi),...,(cn,wsn)},其中,ci是句子中的第i个字符,wsi是字符ci匹配到的词的集合。
76.所述使用fusion模块将所述字符-词语对融合到bert模型的中间层,将融合好的向量输入到transformer层中进行计算,获得文本序列的嵌入表示,包括:
77.使用fusion模块将所述字符-词语对融合到bert模型的中间层,将融合好的向量输入到剩余的transformer层中进行计算,最终得到文本序列的嵌入表示。fusion模块结构图如图4所示。fusion模块的输入为字符-词语对其中,为句子中第i个字符经过bert中的第c层transformer后得到的表示向量,为第i个字符的词语对应的词向量集合,其中,m是词的个数。词向量集合当中的第j个词表示为,其中,ew是一个预训练的词嵌入查找表,w
ij
是词向量集合中第j个词。使用非线性变化对齐字表示和词表示维度,计算公式如下:
[0078][0079]
其中,b1、b1为偏置,dc和dw分别表示bert的隐藏层大小和词向量的嵌入维度。为了从所匹配词中选出与字符最相关的词,采用双线性attention变换矩阵字符向量h和向量v之间的注意力,计算每个词的相似度得分公式如下:
[0080][0081]
其中,w
attn
为双线性变换权重矩阵。因此,可以得到所有单词的加权和:
[0082][0083]
最终,通过以下步骤将加权词典信息融合到字符向量中:
[0084][0085]
将融合好的向量输入到剩余的transformer层中进行计算,最终得到向量表示
[0086]
所述采用双仿射解码器对所述文本序列的嵌入表示进行处理,获取每个字符的向量表示,并将所述每个字符的向量表示映射到评分矩阵中,获取句子的全局视图,包括:
[0087]
使用双仿射解码器将得到每个字符的向量表示映射到一个l
×
l
×
k评分矩阵r中,如图5所示。其中句子长度为l,实体类型为k∈{1,...,|k|},|k|是实体类型的数量。具体来说,每个跨度span(i,j)都可以表示为一个元组(i,j,k),其中i,j分别表示实体的开始和结束索引,k表示是实体类型。经过bert编码后,第i,j位置的token的嵌入向量为hi,hj,(hi,hj∈rd,d为嵌入的隐藏层维度),通过以下公式计算span(i,j)的得分:
[0088][0089]
其中u是一个d
×k×
d的张量,w是一个2d
×
k的张量,[;]表示拼接运算。
[0090]
使用卷积神经网络cnn对所述全局视图跨度之间的局部交互进行建模,获取中文知识抽取模型,包括:
[0091]
将评分矩阵视为成一张大小为l
×
l,通道数为k的图片,即全局视图,采用计算机视觉领域常用的卷积神经网络(cnn)来建模相邻跨度之间的空间联系,具体实现公式如下:
[0092]r′
=conv2d(r)
[0093]r″
=gelu(layernorm(r
′
+r))
[0094]
其中,conv2d是2d卷积神经网络,它在二维空间中通过滑动卷积核来处理输入数据。layernorm是层归一化,用于归一化特征层,gelu则是一种激活函数。由于每个句子中的token数量不同,因此它们对应的评分矩阵r具有不同的形状。为了确保在批量处理r时得到相同的结果,2dcnn没有偏差,使用0填充r以匹配卷积核的大小。
[0095]
评分矩阵相加并进行降维得到标签类别概率p,计算公式如下:
[0096]
p=sigmoid(w0(r
′
+r
″
)+b)
[0097]
其中,w0∈r
|k|
×d,b∈r
|k|
,p∈r
l
×
l
×
|k|
。
[0098]
实施方式四、本实施方式是对实施方式一所述的一种外部信息辅助的中文知识抽取方法的进一步限定,所述优化模型获取步骤,具体为:
[0099]
利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取标签类别概率;
[0100]
根据所述签类别概率计算所述外部信息辅助的中文知识抽取模型的损失函数;
[0101]
采用r-drop的对比学习训练所述外部信息辅助的中文知识抽取模型,优化损失函数,获取优化模型。
[0102]
本实施方式所述的采用r-drop的对比学习训练所述外部信息辅助的中文知识抽取模型,优化损失函数,获取优化模型,具体为:
[0103]
构建外部信息辅助的中文知识抽取模型本身的损失函数,本实施方式采用二元交叉熵来计算损失函数,计算公式如下:
[0104][0105]
其中y
ij
是span(i,j)的真实标签,p
ij
是预测概率。
[0106]
因为评分矩阵是对称的,上三角的跨度等于下三角跨度。推理时,计算评分矩阵上三角的跨度的分数公式为:
[0107][0108]
其中,i≤j之后使用评分矩阵上三角的跨度分数得到最终的预测。
[0109]
为了增强模型的鲁棒性和泛化能力,并减少过拟合的发生,本实施方式采用基于r-drop的对比学习思想。在训练过程中,由于dropout随机丢弃一些隐藏单元,同一个句子输入到模型两次会得到两个不同的向量表示,但是他们拥有相同的标签。这种数据增强方法不需要对神经网络结构进行任何修改,只需要增加一个kl分歧损失函数,因此不会引入噪声。
[0110]
对于正例的构造,使用dropout数据增强方法,将一个样本句子输入模型两次,经过bert、双仿射解码器及卷积神经网络层得到两个概率分布p(i,j)和p
+
(i,j)。而为了构造负例,本文采用高斯分布初始化m个k
×
l
×
l的分布,并与标签计算loss,然后选择loss最大的n个作为负例这样做的目的是为了引入噪声,增加模型的鲁棒性,同时避免对模型的训练产生过多的负面影响。对比学习的loss计算公式为:
[0111][0112]
目的是最小化与正例kl散度,与最大化负例的kl散度,以此来优化模型的训练效果。
[0113]
最终损失函数表示为:
[0114][0115]
在完成模型的训练、更新和优化之后,进行解码操作,得到模型预测的输入序列的所有互不冲突的命名实体。具体地,首先丢弃所有预测概率低于0.5的跨度,然后按照预测概率从高到低对跨度进行排序,然后依次选择当前预测概率最高的跨度,如果其不与之前已经解码出的命名实体冲突,则将该片段解码成一个新的命名实体,否则将其丢弃。如此迭代进行就得到了模型预测的输入序列的所有互不冲突的命名实体。
[0116]
实施方式五、本实施方式所述的一种外部信息辅助的中文知识抽取系统,所述系统包括:
[0117]
数据集划分单元:用于获取中文嵌套命名实体识别数据集,将所述数据集进行预处理,并划分为训练集、验证集和测试集;
[0118]
中文知识抽取模型构建单元:用于构建外部信息辅助的中文知识抽取模型;
[0119]
优化模型获取单元:用于利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取优化模型;
[0120]
命名实体获取单元:用于根据所述优化模型进行解码操作,获取优化模型预测的输入序列的所有互不冲突的命名实体。
[0121]
实施方式六、本实施方式是对实施方式五所述的一种外部信息辅助的中文知识抽取系统的进一步限定,所述数据集划分单元,具体为:
[0122]
从中文嵌套命名实体识别数据集中,获取文本序列;
[0123]
将所述文本序列划分为训练集、验证集和测试集。
[0124]
实施方式七、本实施方式是对实施方式五所述的一种外部信息辅助的中文知识抽取系统的进一步限定,所述中文知识抽取模型构建单元,具体为:
[0125]
获取文本序列中每个字符级嵌入表示;
[0126]
引入词典信息,将所述文本序列与词典进行匹配,构建字符-词语对;
[0127]
使用fusion模块将所述字符-词语对融合到bert模型的中间层,将融合好的向量输入到transformer层中进行计算,获得文本序列的嵌入表示;
[0128]
采用双仿射解码器对所述文本序列的嵌入表示进行处理,获取每个字符的向量表示,并将所述每个字符的向量表示映射到评分矩阵中,获取句子的全局视图;
[0129]
使用卷积神经网络cnn对所述全局视图跨度之间的局部交互进行建模,获取中文
知识抽取模型。
[0130]
实施方式八、本实施方式是对实施方式五所述的一种外部信息辅助的中文知识抽取系统的进一步限定,所述优化模型获取单元,具体为:
[0131]
利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取标签类别概率;
[0132]
根据所述签类别概率计算所述外部信息辅助的中文知识抽取模型的损失函数;
[0133]
采用r-drop的对比学习训练所述外部信息辅助的中文知识抽取模型,优化损失函数,获取优化模型。
[0134]
实施方式九、本实施方式所述的一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序执行实施方式一至实施方式四中任一项所述的一种外部信息辅助的中文知识抽取方法。
[0135]
实施方式十、本实施方式所述的一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据实施方式一至实施方式四中任一项所述的一种外部信息辅助的中文知识抽取方法。
[0136]
尽管已描述了本公开的优选实施方式,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施方式以及落入本公开范围的所有变更和修改。
[0137]
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
[0138]
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0139]
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0140]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
[0141]
最后应当说明的是:以上实施例仅用于说明本公开的技术方案而非对其保护范围的限制,尽管参照上述实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本公开后依然可对发明的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在公开待批的权利要求保护范围之内。
技术特征:
1.一种外部信息辅助的中文知识抽取方法,其特征在于,所述方法包括:数据集划分步骤:获取中文嵌套命名实体识别数据集,将所述数据集进行预处理,并划分为训练集、验证集和测试集;中文知识抽取模型构建步骤:构建外部信息辅助的中文知识抽取模型;优化模型获取步骤:利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取优化模型;命名实体获取步骤:根据所述优化模型进行解码操作,获取优化模型预测的输入序列的所有互不冲突的命名实体。2.根据权利要求1所述的一种外部信息辅助的中文知识抽取方法,其特征在于,所述数据集划分步骤,具体为:从中文嵌套命名实体识别数据集中,获取文本序列;将所述文本序列划分为训练集、验证集和测试集。3.根据权利要求1所述的一种外部信息辅助的中文知识抽取方法,其特征在于,所述中文知识抽取模型构建步骤,具体为:获取文本序列中每个字符级嵌入表示;引入词典信息,将所述文本序列与词典进行匹配,构建字符-词语对;使用fusion模块将所述字符-词语对融合到bert模型的中间层,将融合好的向量输入到transformer层中进行计算,获得文本序列的嵌入表示;采用双仿射解码器对所述文本序列的嵌入表示进行处理,获取每个字符的向量表示,并将所述每个字符的向量表示映射到评分矩阵中,获取句子的全局视图;使用卷积神经网络cnn对所述全局视图跨度之间的局部交互进行建模,获取中文知识抽取模型。4.根据权利要求1所述的一种外部信息辅助的中文知识抽取方法,其特征在于,所述优化模型获取步骤,具体为:利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取标签类别概率;根据所述签类别概率计算所述外部信息辅助的中文知识抽取模型的损失函数;采用r-drop的对比学习训练所述外部信息辅助的中文知识抽取模型,优化损失函数,获取优化模型。5.一种外部信息辅助的中文知识抽取系统,其特征在于,所述系统包括:数据集划分单元:用于获取中文嵌套命名实体识别数据集,将所述数据集进行预处理,并划分为训练集、验证集和测试集;中文知识抽取模型构建单元:用于构建外部信息辅助的中文知识抽取模型;优化模型获取单元:用于利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取优化模型;命名实体获取单元:用于根据所述优化模型进行解码操作,获取优化模型预测的输入序列的所有互不冲突的命名实体。6.根据权利要求5所述的一种外部信息辅助的中文知识抽取系统,其特征在于,所述数据集划分单元,具体为:
从中文嵌套命名实体识别数据集中,获取文本序列;将所述文本序列划分为训练集、验证集和测试集。7.根据权利要求5所述的一种外部信息辅助的中文知识抽取系统,其特征在于,所述中文知识抽取模型构建单元,具体为:获取文本序列中每个字符级嵌入表示;引入词典信息,将所述文本序列与词典进行匹配,构建字符-词语对;使用fusion模块将所述字符-词语对融合到bert模型的中间层,将融合好的向量输入到transformer层中进行计算,获得文本序列的嵌入表示;采用双仿射解码器对所述文本序列的嵌入表示进行处理,获取每个字符的向量表示,并将所述每个字符的向量表示映射到评分矩阵中,获取句子的全局视图;使用卷积神经网络cnn对所述全局视图跨度之间的局部交互进行建模,获取中文知识抽取模型。8.根据权利要求5所述的一种外部信息辅助的中文知识抽取系统,其特征在于,所述优化模型获取单元,具体为:利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取标签类别概率;根据所述签类别概率计算所述外部信息辅助的中文知识抽取模型的损失函数;采用r-drop的对比学习训练所述外部信息辅助的中文知识抽取模型,优化损失函数,获取优化模型。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序执行权利要求1-4任一项所述的一种外部信息辅助的中文知识抽取方法。10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1-4中任一项所述的一种外部信息辅助的中文知识抽取方法。
技术总结
一种外部信息辅助的中文知识抽取方法、系统、存储介质及计算机,涉及信息抽取领域。解决现有中文中的实体识别任务困难,需要处理更多的歧义性和上下文依赖性的问题。所述方法包括:获取中文嵌套命名实体识别数据集,将所述数据集进行预处理,并划分为训练集、验证集和测试集;构建外部信息辅助的中文知识抽取模型;利用所述训练集对所述外部信息辅助的中文知识抽取模型进行训练,获取优化模型;根据所述优化模型进行解码操作,获取优化模型预测的输入序列的所有互不冲突的命名实体。本发明应用于命名实体识别领域。用于命名实体识别领域。用于命名实体识别领域。
技术研发人员:韩启龙 丁彤彤 王也 宋洪涛 卢丹 刘鹏
受保护的技术使用者:哈尔滨龙明科技有限公司
技术研发日:2023.05.19
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/